一：yarn 介绍

yarn的了出现主要是为了拆分jobtracker的两个核心功能：资源管理和任务监控，分别对应resouceManager(RM)和applicationManager(AM).yarn中的任务可以传统的mapreduce任务,或者是DAG任务。

yarn的架构：

client向RM提交任务，RM向各个NM请求资源，NM响应后，RM为任务分配资源，得到资源的后调度器启动AM，AM为任务准备运行环境后执行任务并向RM反馈执行情况。任务的运行失败的话AM负责启程。资源是以container为单位，每个任务分配多少资源由RM决定。

RM有两个核心组合：调度器(scheduler)和applicationManager(AM)。

调度器负责为任务分配资源，资源包括内存、CPU、磁盘、网络等，RM把这些资源划分为一个个的container,调度器把这些container分配给任务。

调度器一个插件化的资源分配器，负责把主机上划分给任务或者队列。当前的map-reduce调度器中比较有代表性的资源分配器有CapacityScheduler和FairScheduler。

CapacityScheduler支持hierarchical queues队列，可以更好的实现资源共享。

AM负责提交任务、监控任务执行情况、重启任务。每个任务对应一个AM.

NM负责监控本结点上的资源，并报告给RM。

yarn工作流程：

(注意:上图中ApplicationMaster位置错了,应该在datanode中.)

运行在YARN上的应用程序主要分为两类：

（1）短应用程序

（2）长应用程序

短应用程序是指一定时间内（可能是秒级、分钟级或小时级，尽管天级别或者更长时间的也存在，但非常少）可运行完成并正常退出的应用程序，比如MapReduce作业、Tez DAG作业等.

长应用程序是指不出意外，永不终止运行的应用程序，通常是一些服务，比如Storm Service（主要包括Nimbus和Supervisor两类服务），HBase Service（包括Hmaster和RegionServer两类服务）等，而它们本身作为一个框架提供了编程接口供用户使用。

尽管这两类应用程序作用不同，一类直接运行数据处理程序，一类用于部署服务（服务之上再运行数据处理程序），但运行在YARN上的流程是相同的。

当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序：

第一个阶段是启动ApplicationMaster；

第二个阶段是由ApplicationMaster创建应用程序，为它申请资源，并监控它的整个运行过程，直到运行完成。

如图2-11所示，YARN的工作流程分为以下几个步骤：

步骤1　用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

步骤2　ResourceManager为该应用程序分配第一个Container（这里可以理解为一种资源比如内存），并与对应的Node-Manager通信，要求它在这个Container中启动应用程序的ApplicationMaster。

步骤3　ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManage查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7。

步骤4　ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。

步骤5　一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。

步骤6　NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

步骤7　各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。

步骤8　应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己。