Yarn调度 历史与基础

问题:通过MR跑批处理任务,Hadoop 1 单点故障(块跑完了,挂了),集群资源利用率不高,需要扩容等操作。

Hadoop 2.0 Yarn推出。

Yarn架构:

Resource Manager是一个全局资源管理器,NodeManager每个节点的任务资源管理,AppMaster是每个作业提交的时候出一个AppMaster,Container是资源的抽象。

client的交互:1.向ResouceManager请求,分配一个AppMaster启动,AppMasters是在Container里的(因为需要内存的资源)。2.AppMaster向NodeManager申请资源,获取一个Container执行。3.运行完了会把Container释放掉(流计算不释放)

Spark:SparkContext、DAGScheduler、TaskScheduler(任务调度、资源申请、监控任务运行)、Executor(任务执行端元,向Driver传输心跳)

Spark on Yarn:1.Spark Clent——>ResourceManager——>NodeManager——>Container——>Executor通信

原文地址:https://www.cnblogs.com/tillnight1996/p/12841580.html