《Spark Streaming实时流式大数据处理实战》 ——1.2.3 Structed Streaming简述
【摘要】 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第1章,第1.2.3节,作者是肖力涛 。
1.2.3 Structed Streaming简述
Spark在2.0版之后加入了一种新的流式处理模式,即结构化流式处理(Structed Streaming)。不同于Spark Streaming是以RDD构成的DStream为处理结构,结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。
我们可以像表达静态数据的批处理计算一样表达流式计算。Spark SQL引擎将负责让语句按顺序地执行,并根据接收到的数据持续更新最终结果。与Spark Streaming类似,结构化流也提供了包括Scala、Java、Python及R在内的完善的API机制,并且通过检查点保证端到端的一次性容错。
Structed Streaming与Spark Streaming类似,是一种微批处理的实时流处理系统,也就是说内部并不是逐条处理数据记录,而是按照一个个小batch来处理,从而实现低至100毫秒的端到端延迟和一次性容错保证。不过在最新的Spark 2.3以后,提供了更加低延迟的处理模式,能够低至1毫秒的端到端延迟,这是与Spark Streaming的区别。
由于本书主要介绍Spark Streaming,因此这里不再展开,读者只需要了解Spark还有一种流式处理模式(在6.6节的日志分析实例中,将结合Spark Streaming和Spark SQL对日志信息进行分析处理和输出),也可视为一种结构化的处理方案,读者可以尝试用Structed Streaming处理这类数据。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)