- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

spark 解决了 hadoop 的哪些问题(spark VS MR)

孙中明发表于 2022/04/03 16:53:25 2022/04/03

【摘要】 spark 解决了 hadoop 的哪些问题(spark VS MR) spark 解决了 hadoop 的哪些问题(spark VS MR)？MR：抽象层次低，需要使用手工代码来完成程序编写，使用上难以上手；Spark：Spark 采用 RDD 计算模型，简单容易上手。MR：只提供 map 和 reduce 两个操作，表达能力欠缺；Spark：Spark 采用更加丰富的算子模型，包括 m...

spark 解决了 hadoop 的哪些问题(spark VS MR)？

MR：抽象层次低，需要使用手工代码来完成程序编写，使用上难以上手；

Spark：Spark 采用 RDD 计算模型，简单容易上手。
MR：只提供 map 和 reduce 两个操作，表达能力欠缺；

Spark：Spark 采用更加丰富的算子模型，包括 map、flatmap、groupbykey、reducebykey 等；
MR：一个 job 只能包含 map 和 reduce 两个阶段，复杂的任务需要包含很多个 job，这些 job 之间的管理以来需要开发者自己进行管理；

Spark：Spark 中一个 job 可以包含多个转换操作，在调度时可以生成多个 stage，而且如果多个 map 操作的分区不变，是可以放在同一个 task 里面去执行；
MR：中间结果存放在 hdfs 中；

Spark：Spark 的中间结果一般存在内存中，只有当内存不够了，才会存入本地磁盘，而不是 hdfs；
MR：只有等到所有的 map task 执行完毕后才能执行 reduce task；

Spark：Spark 中分区相同的转换构成流水线在一个 task 中执行，分区不同的需要进行 shuffle 操作，被划分成不同的 stage 需要等待前面的 stage 执行完才能执行。
MR：只适合 batch 批处理，时延高，对于交互式处理和实时处理支持不够；

Spark：Spark streaming 可以将流拆成时间间隔的 batch 进行处理，实时计算。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

spark 解决了 hadoop 的哪些问题(spark VS MR)

spark 解决了 hadoop 的哪些问题(spark VS MR)？

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

spark 解决了 hadoop 的哪些问题(spark VS MR)

spark 解决了 hadoop 的哪些问题(spark VS MR)？

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品