大数据第三阶段-Spark学习心得总结

举报
蜡笔不辣 发表于 2021/04/11 22:55:00 2021/04/11
【摘要】 由于第二阶段的松懈,对于Hadoop的知识掌握的不是很好,所以在第三阶段一边学习Spark一边学习Hadoop,但是效果不是很好。Spark重要的内置模块:Spark Core:包括了内存计算、任务调度、部署模式、故障恢复、存储管理等;Spark SQL:统一处理关系和RDD,使用SQL命令进行数据分析;Spark Streaming:将流式计算分解为一系列的短小的批处理作业,支持多种数据源...

由于第二阶段的松懈,对于Hadoop的知识掌握的不是很好,所以在第三阶段一边学习Spark一边学习Hadoop,但是效果不是很好。

Spark重要的内置模块:

Spark Core:包括了内存计算、任务调度、部署模式、故障恢复、存储管理等;

Spark SQL:统一处理关系和RDD,使用SQL命令进行数据分析;

Spark Streaming:将流式计算分解为一系列的短小的批处理作业,支持多种数据源;

Spark MLlib:提供机器学习常用的程序库,包括分类、回归、聚类、协同过滤等等;

学习Spark将基础和实践结合起来,很多的基础知识在Hadoop中基础知识之上进行学习,只有去体验实际操作才能体会到区别。整个Spark讲的知识点不是很多,但是关键在于去理解,每个模块如何去工作、怎么去使用。

从Spark的上手到最后的项目,整个过程我还没有完完整整的走全,在练习过程中有一些流程没办法跑通,后来搁置了继续学习就给忘记了,虽然第三阶段学习结束了,还需要继续花时间去学习,尤其是Hadoop的知识点,结合两者的实际应用去体会不同。目前做的项目中还是用的Hadoop为主,Spark还是初期新项目中使用,因此两个都需要学好。

从大数据课程学习下来,体会到在平时的学习中需要经常记下错误和进度,时间长了容易忘记。需要能养成一个好的习惯,每天学的东西无论多少都学下来,最后项目结束再回头看,就会很容易解决当时的困难。接下来的时间,要继续学习好Hadoop和Spark,已经以后进行扩展其他的相关技术。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。