Spark---核心
【摘要】 一、Spark核心 1、RDD 1)、概念:RDD(Resilient Distributed Datest),弹性分布式数据集。 2)、RDD的五大特性:1、RDD是由一系列的partition组成的2、函数是作用在每一个partition(split)上的3、RDD之间有一系列的依赖关系4、分区器是作用在K、V格式的RDD上5、RDD提供一系列最佳的计算位置 3)、RDD理解图: 4)...
一、Spark核心
1、RDD
1)、概念:
RDD(Resilient Distributed Datest),弹性分布式数据集。
2)、RDD的五大特性:
1、RDD是由一系列的partition组成的
2、函数是作用在每一个partition(split)上的
3、RDD之间有一系列的依赖关系
4、分区器是作用在K、V格式的RDD上
5、RDD提供一系列最佳的计算位置
3)、RDD理解图:
4)、注意:
textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大小是一个block大小。
RDD实际上不存储数据,为了方便理解,暂时理解为存储数据
什么是K,V格式的RDD?
如果RDD里面存储的数据都是二元组对象,那么这个RDD我们就叫做K,V格式的RDD
哪里体现RDD的弹性(容错)?
partition数量,大小没有限制,体现了RDD的弹性。
RDD之间依赖关系,可以基于上一个RDD重新计算出RDD。
哪里体现RDD的分布式
RDD是由Partition组成,partition是分布在不同节点上的。
RDD提供计算最佳位置,体现了数据本地化。体现了大数据中”计算移动数据不移动“的概念。
2、Java和Scala中创建RDD的方式
`java:
sc.textFile(xx,minnumpartitions)
sc.parallelize(集合,num)
sc.parallelizePairs(Tuple2<xx,xx>集合,num)
Scala:
sc.textFile(xx,minnumpartitions)
sc.parallelize(集合,num)
sc.makeRDD(集合,num)`
3、Spark任务执行原理
以上图中有四个机器节点,Driver和Worker是启动在节点上的进程,运行在JVM中的进程。
Driver与集群节点之间有频繁的通信。
Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。
Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。
Master是Standalone资源调度框架里面资源管理的主节点。也是JVM进程。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)