- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

讲一下spark 的运行架构

孙中明发表于 2022/02/23 08:21:32 2022/02/23

【摘要】讲一下spark 的运行架构👉Cluster Manager(Master)：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器👉 Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。👉 Driver：运行Application 的main()函数👉 Executor：执行器，是为某个App...

讲一下spark 的运行架构

👉Cluster Manager(Master)：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器

👉 Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。

👉 Driver：运行Application 的main()函数

👉 Executor：执行器，是为某个Application运行在worker node上的一个进程

1、启动：用户程序启动SparkContext，是程序的总入口，初始化过程中启动DAGScheduler作业调度和 TaskScheduler任务调度。
2、生成作业:DAGScheduler:根据shuffleDependency将作业划分为不同的stage,根据 RDD之间的依赖关系，宽依赖和窄依赖，划分原则就是遇见窄依赖就放进当前stage，遇到宽依赖则断开。(相当于shuffle是前后的stage分界线）每一个stage里面都会划分一个taskset,也就是数据集，而DAGSchedule的下一个任务就是将这个TaskSet传给TaskSchedule(在最后一个 stage划分结束,就会触发作业的提交)。
3、提交任务集: TaskScheduler:分配 Task到哪一个executor上去执行，SchedulerBackend配合TaskScheduler完成具体任务的资源分配。
4、任务执行:Executor:实际任务的运行最终都 Execter 类来执行，对每个任务创建一个TaskRunner类，交给线程池去实现。

spark-submit 提交代码，执行 new SparkContext()，在 SparkContext 里构造 DAGScheduler 和 TaskScheduler。
TaskScheduler 会通过后台的一个进程，连接 Master，向 Master 注册 Application。
Master 接收到 Application 请求后，会使用相应的资源调度算法，在 Worker 上为这个 Application 启动多个 Executer。
Executor 启动后，会自己反向注册到 TaskScheduler 中。所有 Executor 都注册到 Driver 上之后，SparkContext 结束初始化，接下来往下执行我们自己的代码。
每执行到一个 Action，就会创建一个 Job。Job 会提交给 DAGScheduler。
DAGScheduler 会将 Job划分为多个 stage，然后每个 stage 创建一个 TaskSet。
TaskScheduler 会把每一个 TaskSet 里的 Task，提交到 Executor 上执行。
Executor 上有线程池，每接收到一个 Task，就用 TaskRunner 封装，然后从线程池里取出一个线程执行这个 task。(TaskRunner 将我们编写的代码，拷贝，反序列化，执行 Task，每个 Task 执行 RDD 里的一个 partition)

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

讲一下spark 的运行架构

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

讲一下spark 的运行架构

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品