《Spark数据分析:基于Python语言 》 —2 部署Spark

举报
华章计算机 发表于 2020/02/12 17:57:05 2020/02/12
【摘要】 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第2章,第2.1.1节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。

第2章

部署Spark

可以使用的创意才有价值。

—美国发明家托马斯A.爱迪生

本章提要

各种Spark部署模式概览

如何安装Spark

Spark安装所包含的内容

各种在云上部署Spark的方法概览

本章介绍如何部署Spark、如何安装Spark、如何启动和运行Spark集群的基础内容。本章介绍Spark集群的各种部署模式以及可选的调度器,还有在云上部署Spark的方式。如果你完成了本章的安装练习,你就会得到一个功能完整的Spark编程和运行环境,可供你在阅读本书后续章节时使用。

2.1 Spark部署模式

部署Spark的方式有很多种,如下所列:

本地模式

Spark独立集群(standalone)

基于YARN(Hadoop)部署Spark

基于Mesos部署Spark

每种部署模式都实现了Spark运行环境架构,第3章会详细地介绍,它们的区别仅在于计算集群中一个或者多个节点之间的资源管理方式。

如果要使用YARN或者Mesos这样的外部调度器来部署Spark,你需要先部署好这些调度器;如果使用本地模式或者Spark独立调度器,就不需要外部依赖了。

每种Spark部署模式都可以用于交互式(shell)应用和非交互式(批处理)应用,还有流式计算应用。

2.1.1 本地模式

本地模式允许所有的Spark进程运行在单机上,还可以选择使用本地系统中任意数量的CPU内核。通常,我们可以使用本地模式来快速测试安装好的Spark,也可以使用小数据集测试Spark脚本。

程序清单2.1展示了一个以本地模式提交Spark作业的示例。

程序清单2.1 以本地模式提交Spark作业

 image.png

可以在local指令后面通过方括号内的数字指定本地模式所使用的CPU内核数。例如,要是用两个CPU内核,你可以指定local[2];要使用系统所有的CPU内核,你可以指定local[*]。

使用本地模式运行Spark时,只要本地系统中有正确的配置和库文件,就可以访问本地系统或者HDFS、S3等其他文件系统上的任意数据。

尽管使用本地模式可以快速上手并运行程序,但受限于伸缩性和效率,无法用于生产环境的用例。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。