《Spark Streaming实时流式大数据处理实战》 ——1.3 本章小结

华章计算机发表于 2020/02/22 13:33:44 2020/02/22

【摘要】本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第1章，第1.3节，作者是肖力涛　。

1.3 本章小结

* Spark的核心数据结构是RDD，即弹性分布式数据集。

* Spark Streaming采用微批处理模式，保证消息传输的精准性，采用checkpoint作为容错机制，具有良好的吞吐性能，延时表现并非真正实时。

* Spark Streaming可以接收Kafka和HDFS等在内的多种数据源，经过批数据处理，输出到HDFS和数据库等。

* Structed Streaming是Spark 2.0之后引入的结构化数据流，不同域的Spark Streaming以RDD为基础，而Structed Streaming更多以Spark SQL为基础，并且能够做到更低的延迟，希望读者能掌握本章内容，在实际项目中针对具体应用场景进行选择。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。