- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【Free Style】Hadoop-Yarn之Resource Manager源码分析(一)

pappy 发表于 2017/11/02 17:39:33 2017/11/02

【摘要】 1 简介1.1 背景介绍带有MapReduce的Apache Hadoop是分布式数据处理的骨干力量，借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架，Hadoop 在大数据处理的全新领域迎来了爆炸式增长。此外，Hadoop 还开发了一个丰富多样的应用程序生态系统，包括 Apache Pig（一种强大的脚本语言）和 Apache Hive（一个具有类似

1 简介

1.1 背景介绍

带有MapReduce的Apache Hadoop是分布式数据处理的骨干力量，借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架，Hadoop 在大数据处理的全新领域迎来了爆炸式增长。此外，Hadoop 还开发了一个丰富多样的应用程序生态系统，包括 Apache Pig（一种强大的脚本语言）和 Apache Hive（一个具有类似 SQL 界面的数据仓库解决方案）等。但是，MRv1在内存消耗，线程模型和扩展性/可靠性/性能方面暴露出来了一些问题：

（1）可靠性（Reliability）：JobTracker不可靠

（2）可用性（Availability）： JobTracker可用性有问题

（3）扩展性（Scalibility）拥有10000个节点和200，000个核的集群

（4）向后兼容性（Backward Compatibility）：确保用户的MapReduce作业可无需修改即可运行

（5）演化（Evolution）：让用户能够控制软件栈的升级，尤其是与Hive，HBase等的兼容。

（6）可预测的延迟：这是用户非常关心的。小作业应该尽可能快得被调度，而当前基于TaskTracker->JobTracker ping（heartbeat）的通信方式代价和延迟过大，比较好的方式是JobTracker->TaskTracker ping, 这样JobTracker可以主动扫描有作业运行的TaskTracker（调用RPC）。

（7）集群资源利用率。 Map slot和reduce slot不能共享，且reduce 依赖于map结果，造成reduce task在shuffle阶段资源利用率很低，出现“slot hoarding”现象。

针对MRv1的问题，提出了新的资源管理及作业调度方案：Yarn（Yet Another Resource Negotiator）。Yarn被集成于Hadoop中，为Haoop提供数据计算框架。Hadoop最新版本为2.7.2。其官方网站http://hadoop.apache.org/。

1.2 名词介绍

（1） Hadoop 1.0

第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。

（2） Hadoop 2.0

第二代Hadoop，为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。针对Hadoop 1.0中的单NameNode制约HDFS的扩展性问题，提出了HDFS Federation，它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展；针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足，提出了全新的资源管理框架YARN(Yet Another Resource Negotiator)，它将JobTracker中的资源管理和作业控制功能分开，分别由组件ResourceManager和ApplicationMaster实现，其中，ResourceManager负责所有应用程序的资源分配，而ApplicationMaster仅负责管理一个应用程序。对应Hadoop版本为Hadoop 0.23.x和2.x。

（3） MapReduce 1.0或者MRv1（MapReduce version 1）

第一代MapReduce计算框架，它由两部分组成：编程模型（programming model）和运行时环境（runtime environment）。它的基本编程模型是将问题抽象成Map和Reduce两个阶段，其中Map阶段将输入数据解析成key/value，迭代调用map()函数处理后，再以key/value的形式输出到本地目录，而Reduce阶段则将key相同的value进行规约处理，并将最终结果写到HDFS上。它的运行时环境由两类服务组成：JobTracker和TaskTracker，其中，JobTracker负责资源管理和所有作业的控制，而TaskTracker负责接收来自JobTracker的命令并执行它。

（4）MRv2（MapReduce version 2）

MapReduce 2.0或者MRv2具有与MRv1相同的编程模型，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架YARN之上的MRv1，它不再由JobTracker和TaskTracker组成，而是变为一个作业控制进程ApplicationMaster，且ApplicationMaster仅负责一个作业的管理，至于资源的管理，则由YARN完成。

简而言之，MRv1是一个独立的离线计算框架，而MRv2则是运行于YARN之上的MRv1。

（5） MapReduce 2.0或者YARN或者NextGen MapReduce

Hadoop 2.0中的资源管理框架，它是一个框架管理器，为各种框架进行资源分配和提供运行时环境。而MRv2则是运行在YARN之上的第一个计算框架，其他计算框架，比如Spark、Storm等，都正在往YARN上移植。YARN类似于几年前的资源管理系统mesos和更早的Torque。

（6） HDFS Federation

Hadoop 2.0中对HDFS进行了改进，使NameNode可以横向扩展成多个，其中，每个NameNode分管一部分目录，这不仅增强了HDFS的扩展性，也使HDFS具备了隔离性。

2 架构介绍

2.1 整体架构

与Mesos类似，Yarn是一个典型的双层调度器。MRv2最基本的设计思想是将JobTracker的两个主要功能，即资源管理和作业调度/监控分成两个独立的进程。在该解决方案中包含两个组件：全局的ResourceManager（RM）和与每个应用相关的ApplicationMaster（AM）。这里的“应用”指一个单独的MapReduce作业或者DAG作业。RM和与NodeManager（NM，每个节点一个）共同组成整个数据计算框架。

1、 ResourceManager ：负责计算机资源的全局管理和分配。主要包括：1）一个资源调度器，负责分配资源给各个正在运行的应用程序；2）应用程序管理器，负责整个系统中应用程序的启动和关闭、访问权限、资源使用期限等。

a) Scheduler：负责为各类运行的APP分配资源，并且满足各类性能，队列等约束。Scheduler并不做任何应用状态的监控和跟踪，也不提供任何重启失败任务的保证。当前Scheduler支持策略的可插拔，当前支持CapacityScheduler以及FairScheduler。

b) ApplicationManager：负责管理整个系统中所有应用程序，包括应用程序提交、向任务调度器申请资源启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它。

2、 ApplicationMaster（AM）：管理应用的调度和协调。负责：1）与RM的资源调度器协商以获取资源；2）将得到的资源分配给内部任务；3）与NoodeManager通信以启动、停止任务；4）监控所有任务状态，并在任务运行失败时重新运行任务

3、 NodeManager：负责每个节点上资源和任务的管理，主要负责1）定时向RM汇报本节点上的资源使用情况和各个Container的运行状态；2）接受并处理来自AM的Container的启动/停止请求。

4、 Container：容器是动态资源的分配单位，负责封装某个节点上的资源，当AM向RM申请资源时，RM为AM返回的资源以Container表示。

2.2 Yarn工作流程

（1）提交应用及其使用到的资源

用户向YARN中RM提交应用程序，其中包括AM程序、启动AM的命令、用户程序等。客户端将应用程序所需的文件资源(外部字典、JAR包、二进制文件等)提交到HDFS.

（2）启动AM

RM为该应用程序分配第一个Container，并与对应的NM通信，要求它在这个Container中启动应用程序的AM。

（3）注册应用

　 AM首先向RM注册，表明自己启动成功，这样用户可以直接通过RM查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7。

（4）为任务申请资源

　 AM采用轮询的方式通过RPC协议向RM申请和领取资源。

（5）与NM通信启动各个任务

　一旦ApplicationMaster申请到资源后，ApplicationMaster就会将启动命令交给NodeManager,要求它启动任务。启动命令里包含了一些信息使得Container可以与Application Master进行通信。

（6）NM启动任务

NM为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务（Container）。如果该应用程序第一次在给节点上启动任务，则NM首先从HDFS上下载文件缓存到本地，然后启动该任务。

（7）任务状态汇报

在Container内执行用户提交的代码，各个Container通过RPC协议向AM汇报自己的状态和进度，以让AM随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

（8）运行完毕

应用程序运行完成后，AM向RM注销并关闭自己。

2.3 整体代码结构

核心代码组件目录包括以下几个部分：

hadoop-yarn-api – Yarn跨平台外部接口，同时也包括了RM、AM、NM之间交互的接口；

hadoop-yarn-application：Yarn AM的编程实例。

hadoop-yarn-client：Yarn 客户端实现，提交任务的发起端

hadoop-yarn-common：基础组件，包括ipc，protobuf，event dispatcher，state machine等实现，可以被client和server使用。

hadoop-yarn-register：目前不确定是什么用处，待确定

hadoop-yarn-server：对hadoop-yarn-api的实现，其中包含了对NM，RM的实现，以及NM和RM之间共享API的实现

因博客文章字数受限，下一篇我们继续探讨~~~

【Free Style】Hadoop-Yarn之Resource Manager源码分析(二)

https://portal.huaweicloud.com/blogs/4abcd5ebc04811e7b8317ca23e93a891

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入