大数据第三阶段-Spark学习心得总结
【摘要】 由于第二阶段的松懈,对于Hadoop的知识掌握的不是很好,所以在第三阶段一边学习Spark一边学习Hadoop,但是效果不是很好。Spark重要的内置模块:Spark Core:包括了内存计算、任务调度、部署模式、故障恢复、存储管理等;Spark SQL:统一处理关系和RDD,使用SQL命令进行数据分析;Spark Streaming:将流式计算分解为一系列的短小的批处理作业,支持多种数据源...
由于第二阶段的松懈,对于Hadoop的知识掌握的不是很好,所以在第三阶段一边学习Spark一边学习Hadoop,但是效果不是很好。
Spark重要的内置模块:
Spark Core:包括了内存计算、任务调度、部署模式、故障恢复、存储管理等;
Spark SQL:统一处理关系和RDD,使用SQL命令进行数据分析;
Spark Streaming:将流式计算分解为一系列的短小的批处理作业,支持多种数据源;
Spark MLlib:提供机器学习常用的程序库,包括分类、回归、聚类、协同过滤等等;
学习Spark将基础和实践结合起来,很多的基础知识在Hadoop中基础知识之上进行学习,只有去体验实际操作才能体会到区别。整个Spark讲的知识点不是很多,但是关键在于去理解,每个模块如何去工作、怎么去使用。
从Spark的上手到最后的项目,整个过程我还没有完完整整的走全,在练习过程中有一些流程没办法跑通,后来搁置了继续学习就给忘记了,虽然第三阶段学习结束了,还需要继续花时间去学习,尤其是Hadoop的知识点,结合两者的实际应用去体会不同。目前做的项目中还是用的Hadoop为主,Spark还是初期新项目中使用,因此两个都需要学好。
从大数据课程学习下来,体会到在平时的学习中需要经常记下错误和进度,时间长了容易忘记。需要能养成一个好的习惯,每天学的东西无论多少都学下来,最后项目结束再回头看,就会很容易解决当时的困难。接下来的时间,要继续学习好Hadoop和Spark,已经以后进行扩展其他的相关技术。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)