《Spark数据分析:基于Python语言 》 —2 部署Spark
第2章
部署Spark
可以使用的创意才有价值。
—美国发明家托马斯A.爱迪生
本章提要
各种Spark部署模式概览
如何安装Spark
Spark安装所包含的内容
各种在云上部署Spark的方法概览
本章介绍如何部署Spark、如何安装Spark、如何启动和运行Spark集群的基础内容。本章介绍Spark集群的各种部署模式以及可选的调度器,还有在云上部署Spark的方式。如果你完成了本章的安装练习,你就会得到一个功能完整的Spark编程和运行环境,可供你在阅读本书后续章节时使用。
2.1 Spark部署模式
部署Spark的方式有很多种,如下所列:
本地模式
Spark独立集群(standalone)
基于YARN(Hadoop)部署Spark
基于Mesos部署Spark
每种部署模式都实现了Spark运行环境架构,第3章会详细地介绍,它们的区别仅在于计算集群中一个或者多个节点之间的资源管理方式。
如果要使用YARN或者Mesos这样的外部调度器来部署Spark,你需要先部署好这些调度器;如果使用本地模式或者Spark独立调度器,就不需要外部依赖了。
每种Spark部署模式都可以用于交互式(shell)应用和非交互式(批处理)应用,还有流式计算应用。
2.1.1 本地模式
本地模式允许所有的Spark进程运行在单机上,还可以选择使用本地系统中任意数量的CPU内核。通常,我们可以使用本地模式来快速测试安装好的Spark,也可以使用小数据集测试Spark脚本。
程序清单2.1展示了一个以本地模式提交Spark作业的示例。
程序清单2.1 以本地模式提交Spark作业
可以在local指令后面通过方括号内的数字指定本地模式所使用的CPU内核数。例如,要是用两个CPU内核,你可以指定local[2];要使用系统所有的CPU内核,你可以指定local[*]。
使用本地模式运行Spark时,只要本地系统中有正确的配置和库文件,就可以访问本地系统或者HDFS、S3等其他文件系统上的任意数据。
尽管使用本地模式可以快速上手并运行程序,但受限于伸缩性和效率,无法用于生产环境的用例。
- 点赞
- 收藏
- 关注作者
评论(0)