Hadoop集群中出现的节点有哪些作用

Hadoop集群中出现的节点有哪些作用

DFSZKFailoverController---控制故障转移
定期对本地的NameNode发起health-check的命令，如果NameNode正确返回，那么这个NameNode被认为是OK的。否则被认为是失效节点。ZK提供了一个简单的机制来保证只有一个NameNode是活动的。如果当前的活动NameNode失效了，那么另一个NameNode将获取ZK中的独占锁，表明自己是活动的节点。
作为一个ZK集群的客户端，用来监控NameNode的状态信息。每个运行NameNode的节点必须要运行一个zkfc.

JournalNode:
两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JournalNodes中的变更信息，并且一直监控edit log的变化，把变化应用与自己的命名空间。standby可以确保在集群出错时，命名空间状态已经完全同步了。为了确保快速切换，standby状态的NameNode有必要知道集群中所有数据块的位置。为了做到这点，所有的DataNodes必须配置两个NameNode的地址，发送数据块位置信息和心跳给他们两个。

对于HA集群而言，确保同一时刻只有一个NameNode处于active状态是至关重要的。否则，两个NameNode的数据状态就会产生分歧，可能丢失数据，或者产生错误的结果。为了保证这点，JournalNodes必须确保同一时刻只有一个NameNode可以向自己写数据。

ResourceManager:
管理集群资源，负责全局资源的监控，分配和管理。接收来自NodeManager的心跳信息，进行整体资源的汇总，监控ApplicationMaster的开启和创建。

NodeManager:
yarn中的每一台节点服务器都运行一个NodeManager,NodeManager相当于管理当前机器的一个代理，负责本台机器的程序运行，并且对本台机器资源进行管理和监控，NodeManager定时向ResourceManager汇报本节点的资源(cpu,内存，磁盘)等使用情况，启动并监控Container(容器)。

NameNode:
管理文件系统的命名空间，它维护着文件系统树及整棵树上所有文件和目录。这些信息以两个文件形式永久保存在本地磁盘上：命名空间镜像文件(FS_image)和编辑日志文件(Edit_log)。namenode也记录着每个文件中各个块所在的数据节点信息(包括副本数，用户对hdfs的操作)，但它并不永久保存块的位置信息，因为这些信息会在系统启动时根据数据节点信息重建。

DataNode:
DataNode负责提供来自文件系统客户端的读写请求。可根据需要存储并检索数据块(受客户端或namenode调度)，并且定期向namenode发送(通过心跳机制存储的块的列表。

SecondaryNameNode:
NameNode将对文件系统的修改存储为附加到本机文件系统文件的日志，编辑。当NameNode启动时，它从图像文件fsimage读取HDFS状态，然后从编辑日志文件中应用编辑。然后它将新的HDFS状态写入fsimage并使用空的edits文件开始正常操作。由于NameNode仅在启动期间合并fsimage和编辑文件，因此编辑日志文件在繁忙的群集上可能会随着时间的推移而变得非常大。较大的编辑文件的另一个副作用是下次重新启动NameNode需要更长的时间。

SecondaryNameNode定期合并fsimage和编辑日志文件，并使编辑日志大小保持在限制范围内。它通常在与主NameNode不同的机器上运行，因为它的内存要求与主NameNode的顺序相同。

SecondaryNameNode上的检查点进程的开始由两个配置参数控制。

dfs.namenode.checkpoint.period，默认设置为1小时，指定两个连续检查点之间的最大延迟。

dfs.namenode.checkpoint.txns，默认设置为1百万，定义NameNode上的未经检查的事务的数量，这将强制紧急检查点，即使尚未达到检查点周期。

SecondaryNameNode将最新检查点存储在一个目录中，该目录的结构与主NameNode的目录相同。因此，如果需要，检查指向图像始终可以由主NameNode读取。

HMaster:
(1)为HRegionServer分配Region。(Region是HBase数据存储和管理的基本单位。)

(2)负责HRegionServer的负载均衡。

(3)发现失效的HRegionServer并重新分配其上的Region。

(4)管理meta表和其它表结构命名空间。

(5)接收客户端的请求。但不实际操作。

(6)实现DDL操作（Data Definition Language，namespace和table的增删改，column familiy的增删改等）。

HRegionServer：
(1)维护HMaster分配的Region,处理这些Region的io请求。

(2)切分在运行过程中变得过大的Region。

(3)进行表级操作，也就是数据的插入，更新，删除操作。

HRegion：
HRegion是一个Table中的一个Region在一个HRegionServer中的表达。一个Table可以有一个或多个Region，他们可以在一个相同的HRegionServer上，也可以分布在不同的HRegionServer上，一个HRegionServer可以有多个HRegion，他们分别属于不同的Table。HRegion由多个Store(HStore)构成，每个HStore对应了一个Table在这个HRegion中的一个Column Family，即每个Column Family就是一个集中的存储单元，因而最好将具有相近IO特性的Column存储在一个Column Family，以实现高效读取(数据局部性原理，可以提高缓存的命中率)。HStore是HBase中存储的核心，它实现了读写HDFS功能，一个HStore由一个MemStore 和0个或多个StoreFile组成。

Region：
HBase表格根据row key 划分成“Regions”。

一个Region包含该表格中从起始key到结束key之间的所有行。

Region由Store组成。

Regions会被分配到集群中称为“Region Servers”的节点
————————————————
版权声明：本文为CSDN博主「DimplesDimples.」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Betty_betty_betty/java/article/details/84100615

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/zourui4271/p/12787396.html