- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

真爱无敌发表于 2018/12/24 17:27:56 2018/12/24

【摘要】基于Spark内核，Spark构建起了一体化多元化的大数据处理流水线，在一个技术堆栈中即可以同时完成批处理、实时流处理、交互式查询、机器学习、图计算以及这些子框架之间数据和RDD算子的无缝共享与互操作。

掌握Spark内核是精通Spark的关键，也是驾驭Spark的精髓所在。

基于Spark内核，Spark构建起了一体化多元化的大数据处理流水线，在一个技术堆栈中即可以同时完成批处理、实时流处理、交互式查询、机器学习、图计算以及这些子框架之间数据和RDD算子的无缝共享与互操作。

可以说，Spark内核是每个想彻底掌握Spark的人员的必修课，通过对内核的探索，我们对整个Spark的运行机制会了如指掌，这对Spark的大规模应用、性能优化、系统自定义开发Spark系统都是至关重要的。

一、Spark内核核心术语解析

Application：

Application是创建了SparkContext实例对象的Spark用户，包含了Driver程序

Spark-shell是一个应用程序，因为spark-shell在启动的时候创建了SparkContext对象，其名称为sc

Job：

和Spark的action相对应，每一个action例如count、savaAsTextFile等都会对应一个Job实例，该Job实例包含多任务的并行计算。

Driver Program：

运行main函数并且新建SparkContext实例的程序。

Cluster Manager：

集群资源管理的外部服务，在Spark上现在主要有Standalone、Yarn、Mesos等三种集群资源管理器，Spark自带的Standalone模式能够满足绝大部分纯粹的Spark计算环境中对集群资源管理的需求，基本上只有在集群中运行多套计算框架的时候才建议考虑Yarn和Mesos。

Worker Node：

集群中可以运行应用程序代码的工作节点，相当于Hadoop的slave节点。

Executor：

在一个Worker Node上为应用启动的工作进程，在进程中负责任务的运行，并且负责将数据存放在内存或磁盘上，必须注意的是，每个应用在一个Worker Node上只会有一个Executor，在Executor内部通过多线程的方式并发处理应用的任务。

Task：

被Driver送到executor上的工作单元，通常情况下一个task会处理一个split的数据，每个split一般就是一个Block块的大小

Stage：

一个Job会被拆分成很多任务，每一组任务被成为Stage，这个MapReduce的map和reduce任务很像，划分Stage的依据在于：Stage开始一般是由于读取外部数据或者Shuffle数据、一个Stage的结束一般是由于发生Shuffle（例如reduceByKey操作）或者整个Job结束时例如要把数据放到hdfs等存储系统上

附上讲解PPT：

深入spark内核.pdf http://pan.baidu.com/s/1mgHZGhU

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

一、Spark内核核心术语解析

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

一、Spark内核核心术语解析

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品