SparkStreaming运行原理与核心概念

Smy1121 发表于 2019/06/22 16:46:16 2019/06/22

【摘要】 SparkStreaming运行原理

SparkStreaming运行原理

Spark Streaming不断的从数据源获取数据(连续的数据流)，并将这些数据按照周期划分为batch

Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理，只不过批量很小，计算速度很快)

整个过程是持续的

SparkStreaming的高层抽象DStream?

为了便于理解，Spark Streaming提出了DStream抽象，代表连续不断的数据流

DStream 是一个持续的RDD 序列

可以从外部输入源创建DStream，也可以对其他DStream 应用进行转化操作得到新DStream

Dstream与RDD的关系:

DStream 是一个持续的RDD 序列

对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上

Batch duration

Spark Streaming按照设定的batch duration来累积数据，周期结束时把周期内的数据作为一个RDD，并提交任务给Spark Engine

batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟

batch duration的大小设定取决于用户的需求，一般不会太大

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。