《Spark Streaming实时流式大数据处理实战》 ——1.2.3 Structed Streaming简述

举报
华章计算机 发表于 2020/02/22 13:31:22 2020/02/22
【摘要】 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第1章,第1.2.3节,作者是肖力涛 。

1.2.3  Structed Streaming简述

  Spark在2.0版之后加入了一种新的流式处理模式,即结构化流式处理(Structed Streaming)。不同于Spark Streaming是以RDD构成的DStream为处理结构,结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。

  我们可以像表达静态数据的批处理计算一样表达流式计算。Spark SQL引擎将负责让语句按顺序地执行,并根据接收到的数据持续更新最终结果。与Spark Streaming类似,结构化流也提供了包括Scala、Java、Python及R在内的完善的API机制,并且通过检查点保证端到端的一次性容错。

  Structed Streaming与Spark Streaming类似,是一种微批处理的实时流处理系统,也就是说内部并不是逐条处理数据记录,而是按照一个个小batch来处理,从而实现低至100毫秒的端到端延迟和一次性容错保证。不过在最新的Spark 2.3以后,提供了更加低延迟的处理模式,能够低至1毫秒的端到端延迟,这是与Spark Streaming的区别。

  由于本书主要介绍Spark Streaming,因此这里不再展开,读者只需要了解Spark还有一种流式处理模式(在6.6节的日志分析实例中,将结合Spark Streaming和Spark SQL对日志信息进行分析处理和输出),也可视为一种结构化的处理方案,读者可以尝试用Structed Streaming处理这类数据。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。