- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark Streaming实时流式大数据处理实战》

华章计算机发表于 2020/02/22 13:16:05 2020/02/22

【摘要】本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 ——作者是肖力涛　。

Spark Streaming实时流式

大数据处理实战

肖力涛编著

前言

为什么要写这本书？

　　对于计算机从业人员和在校大学生而言，多少都会接触到数据处理，如简单的信息管理系统和利用关系型数据库设计的存储系统等，这类系统通常涉及的数据量比较小。而随着互联网的发展，企业内部的数据量也呈现爆炸式增长，随之而来的大数据处理就会是一件非常棘手的事情。所以近年来随着大数据概念的火爆，也涌现出了越来越多的大数据处理平台，如Hadoop、Hive、HBase、Flume、Kafka、Storm和Spark等，让人眼花缭乱。开发人员需要针对具体的场景和任务特点，选择合适的工具，将它们组合起来以完成任务。

　　本书围绕大数据处理领域应用最广泛的Spark平台展开讲解，并对时下比较热门的大数据平台都有所介绍，以此为基础重点切入流式大数据处理这个比较垂直和常用的领域，对Spark Streaming、Kafka和ZooKeeper等大数据处理工具进行介绍，并给出多个实战案例，让读者能够从零到一学习如何构建一个大数据处理任务，掌握如何选择合适的处理工具，以及学习编程中一些常见的技巧。

本书特色

　　1．内容丰富，讲解详细

　　本书对大数据的相关知识体系做了详细阐述，并对Spark平台和Spark Streaming及其涉及的大数据平台做了重点阐述，以方便读者掌握常用的大数据架构平台。

　　2．原理分析与应用实践并重

　　本书对涉及的知识点详细地阐述了其背后的基本原理，并给出了大量的应用实践，便于读者更加透彻地理解所学知识，从而在调优和排查问题等具体实践时更加得心应手。

　　3．详解大量的应用实例和实战案例

　　本书中的每个章节都安排了实例，以方便读者动手演练。另外，第8~10章还给出了3个实战案例，以帮助读者提高实际的项目开发水平。这些案例改写自笔者和同事在工作中的真实应用案例，有较高的实用价值，读者在实践中可以进行借鉴。

　　4．提供详细的源代码

　　笔者对书中涉及的所有源代码都进行了整理并开源，供读者下载使用。读者可以对这些代码稍加修改，即可用于自己的项目中。

本书内容

　　第1篇 Spark基础（第1~3章）

　　本篇重点围绕Spark平台进行讲解，并具体就如何搭建一个自己的Spark集群进行了详细介绍，为后面的实战演练打下基础。

　　第1章初识Spark，从Spark的历史发展出发，重点介绍了流式处理任务，对比了不同流式处理框架，并介绍了Spark Streaming的特点。

　　第2章Spark运行与开发环境，主要介绍了如何搭建Spark集群，以及如何从零到一开始开发Spark应用程序，最后对从文件中进行词频统计的Spark应用做了介绍。

　　第3章Spark编程模型，对Spark的核心编程模型做了详细讲解，这对于开发Spark应用及Spark Streaming应用优化来说都是必要的。另外，本章还对RDD的各种操作做了讲解。

　　第2篇 Spark Streaming详解（第4~7章）

　　本篇重点阐述了Spark Streaming的编程模型和特点，并将一些常用的大数据平台与Spark Streaming相结合进行讲解，最后对Spark Streaming应用中常见的调优实践进行了总结。

　　第4章Spark Streaming编程模型及原理，着重介绍了Spark Streaming的运行原理，并且讲解了Spark Streaming应用开发的必要知识，最后以Spark Streaming接收网络输入流并进行词频统计进行实例演练。

　　第5章Spark Streaming与Kafka，重点介绍了Spark Streaming与Kafka配合使用的相关知识点，并介绍了在部署时常见的ZooKeeper平台，最后利用Kafka作为Spark Streaming的输入源进行分析操作。

　　第6章Spark Streaming与外部存储介质，主要介绍了流式处理任务中如何将处理结果输出到外部存储介质等相关知识。本章就一些常用的数据库与Spark Streaming结合进行讲解，最后结合日志分析实例，将日志文件分析后输出到MySQL中，可以让读者了解整个流程。

　　第7章Spark Streaming调优实践，介绍了在实际生产中如何根据具体的数据量和任务情况对Spark Streaming进行优化修改，并且以一个具体的项目调优实例讲解调优的分析过程。

　　第3篇 Spark Streaming案例实战（第8~10章）

　　经过前两篇的学习，读者应该已经掌握了Spark和Spark Streaming的基本原理及开发技术。本篇在此基础上进行实战演练，带领读者完成3个大数据项目实战案例。

　　第8章实时词频统计处理系统实战，针对文本数据常见的流式处理任务，通过一个实战案例，对词频统计从设计、实现到部署的相关知识进行了详细讲解。

　　第9章用户行为统计实战，通过一个实战案例，介绍了在广告行为分析和推荐系统中如何对用户行为进行统计分析。

　　第10章监控报警系统实战，对监控报警系统提出了一种架构上的设计思路，即以Kafka为数据总线串联，利用爬虫技术爬取数据，再用Spark Streaming进行过滤处理和后续的归纳汇总报警。

　　附录A Scala语言基础，对本书在讲解时所采用的Spark源生语言Scala的基础知识做了简单讲解，用于帮助对Scala还不是很熟悉的读者。

本书读者对象

　　阅读本书需要读者有一定的编程经验，建议读者最好对Java和C++等面向对象编程语言有一定的了解。具体而言，本书主要适合以下读者阅读：

* 有一定编程基础的Spark初学者；

* 了解Spark，想进一步使用Spark Streaming的从业人员；

* 流式大数据处理程序员；

* 对Spark和Spark Streaming感兴趣的程序员；

* 高校相关专业的学生；

* 大数据技术培训机构的学员。

本书阅读建议

* 基础相对薄弱的读者，可以先从附录开始了解Scala语言的特性，然后从第1章顺次阅读本书。

* Java基础良好的读者可以直接顺次阅读本书，阅读中涉及的Scala语言特性可在附录中查阅。

* 对Spark有所了解的读者可以直接从本书第2篇开始阅读，即从本书第4章开始阅读。

* 对Spark及Spark Streaming比较熟悉的读者，可以直接动手演练本书第3篇中的3个实战案例。　

* 学习时一定要亲自动手编写代码进行实践，再结合实际场景才能更好地掌握相关技术。

本书配套资源

本书涉及的所有源代码都已经开源并提供在了GitHub上，读者可以根据自己的需要进行下载，下载地址为https://github.com/xlturing/spark-streaming-action。另外，读者也可以登录华章公司的网站www.hzbook.com，在该网站上搜索到本书，然后单击“资料下载”按钮，再单击页面上的“配书资源”链接进行下载。

读者反馈

　　由于笔者水平所限，书中可能还存在一些疏漏，敬请读者指正，笔者会及时进行调整和修改。联系我们可通过电子邮箱litaoxiao@gmail.com或hzbook2017@163.com。笔者会将一些反馈信息整理在博客中（http://www.cnblogs.com/xlturing）。另外也欢迎读者关注笔者的微信公众号pang tao1027/互联网技术猿，笔者会定期分享一些技术文章。

致谢

　　感谢洪福兴在第9章内容上给予笔者的宝贵意见！

　　感谢在腾讯工作期间，辛愿、李铮、刘绩刚和方亮等人给予笔者的指导与帮助！

　　感谢本书编辑在本书出版过程中给予笔者的大力支持与帮助！

　　最后感谢我的家人在写书上给予我的理解与支持，在遇到挫折和困难时，我的家人都坚定地支持着我。爱你们！

肖力涛

《Spark Streaming实时流式大数据处理实战》

Spark Streaming实时流式

大数据处理实战

肖力涛编著

前言

为什么要写这本书？

本书特色

本书内容

本书读者对象

本书阅读建议

本书配套资源

读者反馈

致谢

目录

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Spark Streaming实时流式大数据处理实战》

Spark Streaming实时流式

大数据处理实战

肖力涛 编著

前言

为什么要写这本书？

本书特色

本书内容

本书读者对象

本书阅读建议

本书配套资源

读者反馈

致谢

目录

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品

肖力涛编著