《Spark数据分析:基于Python语言 》 —2.1.2 Spark独立集群

举报
华章计算机 发表于 2020/02/12 17:59:52 2020/02/12
【摘要】 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第2章,第2.1.2节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。

2.1.2 Spark独立集群

Spark独立集群指Spark内建的,或者说“独立”的调度器。我们会在第3章中进一步了解调度器,也就是集群管理器的功能。

独立(standalone)这个术语有点误导人,“独立”容易被理解为集群的拓扑关系,其实这个“独立”和拓扑关系无关。比如,你完全可以在一个真正的多节点分布式集群上以独立集群模式部署Spark,在这里“独立”的意思是无需任何外部调度器。

一个Spark独立集群内有多个主机进程或者服务在运行,各个服务分别为集群上运行的Spark应用提供计划、协调、管理等方面的功能。图2.1展示了一个完整的分布式Spark独立集群的拓扑结构(第3章会详细介绍这些服务提供的功能)。

在提交Spark应用时,只要在提交的URI中指定spark作为协议名,并且设置好Spark主进程运行的主机地址和所监听的端口号,就可以把应用提交到Spark独立集群上。程序清单2.2展示了一个这样的例子。

程序清单2.2 向Spark独立集群提交Spark作业

 image.png

使用Spark独立集群,你可以快速上手并且把程序跑起来,因为几乎没有依赖,无需考虑环境。Spark独立集群中包含各种具体的角色需要主机去充当,而每个正式版的Spark里都包含上手所需的全部内容,包括这些主机所需要的二进制文件和配置文件。在本章后续部分中,你会部署你的第一个Spark独立模式的集群。

 image.png

图2.1 Spark独立集群


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。