《Spark数据分析:基于Python语言 》 —3.5 本章小结

举报
华章计算机 发表于 2020/02/12 19:19:54 2020/02/12
【摘要】 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第3章,第3.5节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。

3.5 本章小结

在本章中,你已经学习了Spark运行时的应用和集群架构、Spark应用的组件,还有这些组件的功能。Spark应用的组件包括驱动器进程、主进程、集群管理器和一组执行器。客户端通过交互式shell或spark-submit脚本在启动Spark应用时与驱动器进程交互。驱动器进程负责创建SparkSession对象(任何Spark应用的入口)并且创建由任务和阶段组成的DAG来规划整个应用。驱动器进程与主进程通信,然后主进程去与集群管理器通信,分配出应用运行所需的资源(容器),然后执行器进程会在容器内运行。执行器进程是对应到具体应用的,可以用于执行该应用的各种任务,它们还会存储已完成任务的输出数据。不管使用哪种集群资源调度器(Spark独立集群、YARN、Mesos或其他),Spark的运行时架构本质上都是一样的。

现在我们已经探索过了Spark的集群架构,那么是时候把理论知识代入到实践中去了,就从下一章开始吧!


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。