Hadoop学习之MapReduce(一)

举报
格图洛书 发表于 2022/01/01 22:23:27 2022/01/01
【摘要】 在学习过了HDFS架构和Hadoop的配置管理后,现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。 MapReduce是一个易于编写程序的软件框架,这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上(数以千计的节点),处理超大数量的数据(超过TB的数据集)。一个MapReduc...

在学习过了HDFS架构和Hadoop的配置管理后,现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。

MapReduce是一个易于编写程序的软件框架,这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上(数以千计的节点),处理超大数量的数据(超过TB的数据集)。一个MapReduce作业通常将输入数据集分割为独立的数据块,这些数据块被map任务以完全并行的方式处理,MapReduce框架整理map任务的输出结果,然后map的输出结果做为reduce任务的输入。典型地,作业的输入和输出都存储在文件系统中。MapReduce框架处理调度任务,监控任务和重新执行失败的任务。

通常地,计算节点和存储节点是相同的节点,也就是MapReduce框架和HDFS运行在相同的节点集之上。这种配置方式允许MapReduce框架在数据存放的节点上有效地调度任务,导致集群中非常高的带宽传输率。MapReduce由单一的主JobTracker和每个集群节点上一个的从TaskTracker组成。主节点负责调度作业在从节点上的组件任务,监控任务和重新执行失败的任务,从节点执行由主节点指示的任务。

最低限度地,应用程序指定输入输出位置,通过实现恰当地的接口和(或者)抽象类提供map和reduce函数,这些信息和其它的作业参数组成了作业的配置管理(jobconfiguration)。Hadoop的作业客户端提交作业(jar文件或者可执行文件等)和JobTrackerde 配置信息,JobTracker开始承担分发软件/配置信息到从节点上,调度任务和监控任务,向作业客户端提供状态和诊断信息。

虽然Hadoop框架是用Java语言实现的,但是MapReduce应用程序不

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/25230557

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。