SparkStreaming运行原理与核心概念
【摘要】 SparkStreaming运行原理
SparkStreaming运行原理与核心概念
SparkStreaming运行原理
Spark Streaming不断的从数据源获取数据(连续的数据流),并将这些数据按照周期划分为batch
Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理,只不过批量很小,计算速度很快)
整个过程是持续的
SparkStreaming的高层抽象DStream?
为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流
DStream 是一个持续的RDD 序列
可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新DStream
Dstream与RDD的关系:
DStream 是一个持续的RDD 序列
对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上
Batch duration
Spark Streaming按照设定的batch duration来累积数据,周期结束时把周期内的数据作为一个RDD,并提交任务给Spark Engine
batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟
batch duration的大小设定取决于用户的需求,一般不会太大
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)