- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大数据第三阶段-Spark学习心得总结

蜡笔不辣发表于 2021/04/11 22:55:00 2021/04/11

【摘要】由于第二阶段的松懈，对于Hadoop的知识掌握的不是很好，所以在第三阶段一边学习Spark一边学习Hadoop，但是效果不是很好。Spark重要的内置模块：Spark Core：包括了内存计算、任务调度、部署模式、故障恢复、存储管理等；Spark SQL：统一处理关系和RDD，使用SQL命令进行数据分析；Spark Streaming：将流式计算分解为一系列的短小的批处理作业，支持多种数据源...

由于第二阶段的松懈，对于Hadoop的知识掌握的不是很好，所以在第三阶段一边学习Spark一边学习Hadoop，但是效果不是很好。

Spark重要的内置模块：

Spark Core：包括了内存计算、任务调度、部署模式、故障恢复、存储管理等；

Spark SQL：统一处理关系和RDD，使用SQL命令进行数据分析；

Spark Streaming：将流式计算分解为一系列的短小的批处理作业，支持多种数据源；

Spark MLlib：提供机器学习常用的程序库，包括分类、回归、聚类、协同过滤等等；

学习Spark将基础和实践结合起来，很多的基础知识在Hadoop中基础知识之上进行学习，只有去体验实际操作才能体会到区别。整个Spark讲的知识点不是很多，但是关键在于去理解，每个模块如何去工作、怎么去使用。

从Spark的上手到最后的项目，整个过程我还没有完完整整的走全，在练习过程中有一些流程没办法跑通，后来搁置了继续学习就给忘记了，虽然第三阶段学习结束了，还需要继续花时间去学习，尤其是Hadoop的知识点，结合两者的实际应用去体会不同。目前做的项目中还是用的Hadoop为主，Spark还是初期新项目中使用，因此两个都需要学好。

从大数据课程学习下来，体会到在平时的学习中需要经常记下错误和进度，时间长了容易忘记。需要能养成一个好的习惯，每天学的东西无论多少都学下来，最后项目结束再回头看，就会很容易解决当时的困难。接下来的时间，要继续学习好Hadoop和Spark，已经以后进行扩展其他的相关技术。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大数据第三阶段-Spark学习心得总结

Spark重要的内置模块：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

大数据第三阶段-Spark学习心得总结

Spark重要的内置模块：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品