《Spark数据分析:基于Python语言 》 —3.5 本章小结
【摘要】 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第3章,第3.5节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。
3.5 本章小结
在本章中,你已经学习了Spark运行时的应用和集群架构、Spark应用的组件,还有这些组件的功能。Spark应用的组件包括驱动器进程、主进程、集群管理器和一组执行器。客户端通过交互式shell或spark-submit脚本在启动Spark应用时与驱动器进程交互。驱动器进程负责创建SparkSession对象(任何Spark应用的入口)并且创建由任务和阶段组成的DAG来规划整个应用。驱动器进程与主进程通信,然后主进程去与集群管理器通信,分配出应用运行所需的资源(容器),然后执行器进程会在容器内运行。执行器进程是对应到具体应用的,可以用于执行该应用的各种任务,它们还会存储已完成任务的输出数据。不管使用哪种集群资源调度器(Spark独立集群、YARN、Mesos或其他),Spark的运行时架构本质上都是一样的。
现在我们已经探索过了Spark的集群架构,那么是时候把理论知识代入到实践中去了,就从下一章开始吧!
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)