《Spark Streaming实时流式大数据处理实战》 ——2.5 本章小结

华章计算机发表于 2020/02/22 14:52:45 2020/02/22

【摘要】本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第2章，第2.5节，作者是肖力涛　。

2.5 本章小结

* 在下载安装Spark时，一定要关注相应的版本，除非特殊需要，建议直接使用官方预编译好的版本。

* Spark提供了多种运行模式，除了本地测试用的模式外，生产环境中常用的主要是Standalone和基于Yarn的运行模式，本书以Standalone模式为主。

* 注意Spark集群的配置，可以参考官方文档，本书后续也会进一步介绍。

* 我们可以利用Scala-Eclipse开发Scala程序，利用Maven对依赖包进行管理和编译，如果Maven下载jar包非常慢，可以尝试配置Maven镜像库。

* 除了Eclipse，当前比较好用的IDE还有Intellij，在附录中会介绍。

* 将程序提交到Spark集群后，除了查看日志外，还要学会观察利用Spark自带的监控网页，其提供了强大的各种统计信息，对调优查看应用稳定性都有非常重要的作用。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。