《Spark Streaming实时流式大数据处理实战》 ——3.9 本章小结

华章计算机发表于 2020/02/22 18:42:25 2020/02/22

【摘要】本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章，第3.9节，作者是肖力涛　。

3.9 本章小结

* RDD是Spark内部的一种数据结构，用于记录分布式数据。

* RDD的核心属性有5个，其中并发量的大小由partition决定。

* RDD由数据源或者其他RDD通过Transformation产生，会形成一张完整的依赖图。

* Transformation操作不会触发真正的计算，只有当调用了Action方法时，Spark才会根据依赖图分配集群资源进行运算。

* 窄依赖和宽依赖的主要区别点在于，子RDD的partition与父RDD的partition间的依赖关系。

* RDD持久化根据不同的场景可以采取不同的持久化级别，通常情况下使用默认的MEMORY-ONLY即可。

* Spark提供了两种受限的共享变量，即广播变量和累加器。广播变量是一个只读变量，累加器只有在Driver节点可读而其他节点只写，另外需注意使用Spark版本的API不同。

* 最后我们利用一个小实例实现了2.2节中提到的例子，并对整章介绍的各种Transformation和Action进行了重温和实战演练。建议读者自己动手多尝试，在3.8节实例的基础上尝试更多操作，理解大数据编程的特点和蕴含的逻辑。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。