SparkStreaming运行原理与核心概念

举报
Smy1121 发表于 2019/06/22 16:46:16 2019/06/22
【摘要】 SparkStreaming运行原理

SparkStreaming运行原理与核心概念

SparkStreaming运行原理

image.png

image.png


Spark Streaming不断的从数据源获取数据(连续的数据流),并将这些数据按照周期划分为batch

Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理,只不过批量很小,计算速度很快)

整个过程是持续的


SparkStreaming的高层抽象DStream?

image.png


image.png


为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流

DStream 是一个持续的RDD 序列

可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新DStream


Dstream与RDD的关系:image.png

image.png


DStream 是一个持续的RDD 序列

对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上


Batch duration

image.png


Spark Streaming按照设定的batch duration来累积数据,周期结束时把周期内的数据作为一个RDD,并提交任务给Spark Engine


batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟


batch duration的大小设定取决于用户的需求,一般不会太大


【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。