spark 解决了 hadoop 的哪些问题(spark VS MR)

举报
孙中明 发表于 2022/04/03 16:53:25 2022/04/03
【摘要】 spark 解决了 hadoop 的哪些问题(spark VS MR) spark 解决了 hadoop 的哪些问题(spark VS MR)?MR:抽象层次低,需要使用手工代码来完成程序编写,使用上难以上手;Spark:Spark 采用 RDD 计算模型,简单容易上手。MR:只提供 map 和 reduce 两个操作,表达能力欠缺;Spark:Spark 采用更加丰富的算子模型,包括 m...

spark 解决了 hadoop 的哪些问题(spark VS MR)

spark 解决了 hadoop 的哪些问题(spark VS MR)?

  1. MR:抽象层次低,需要使用手工代码来完成程序编写,使用上难以上手;

    Spark:Spark 采用 RDD 计算模型,简单容易上手。

  2. MR:只提供 map 和 reduce 两个操作,表达能力欠缺;

    Spark:Spark 采用更加丰富的算子模型,包括 map、flatmap、groupbykey、reducebykey 等;

  3. MR:一个 job 只能包含 map 和 reduce 两个阶段,复杂的任务需要包含很多个 job,这些 job 之间的管理以来需要开发者自己进行管理;

    Spark:Spark 中一个 job 可以包含多个转换操作,在调度时可以生成多个 stage,而且如果多个 map 操作的分区不变,是可以放在同一个 task 里面去执行;

  4. MR:中间结果存放在 hdfs 中;

    Spark:Spark 的中间结果一般存在内存中,只有当内存不够了,才会存入本地磁盘,而不是 hdfs;

  5. MR:只有等到所有的 map task 执行完毕后才能执行 reduce task;

    Spark:Spark 中分区相同的转换构成流水线在一个 task 中执行,分区不同的需要进行 shuffle 操作,被划分成不同的 stage 需要等待前面的 stage 执行完才能执行。

  6. MR:只适合 batch 批处理,时延高,对于交互式处理和实时处理支持不够;

    Spark:Spark streaming 可以将流拆成时间间隔的 batch 进行处理,实时计算。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。