一，架构

二、名词解释

（一）NameNode（简称NN），Hadoop的主节点，负责侦听节点是否活跃，对外开放接口等。在未来的大数据处理过程中，由于访问量和节点数量的不断增多，需要该节点的处理能力较高，因此从集群搭建的角度，建议该节点的CPU配置较高。

（二）SecondNameNode（SNN），Hadoop高可用的备份节点，主要用途是主节点宕机或者不可用的情况下，自行切换到备用节点。

身份决定了该节点需要同步NN的信息，因此采用心跳的方式从NN发现数据，并同步到自身。由于不可预知的本机硬件问题或网络原因及灾害，SNN需要部署在远离NN的物理空间内，一般配置是将该节点放在不同的机架、机房、楼层、楼房、或者更远，以确保高可用。

（三）JobTracker（JT），负责任务的并发及调度处理。因此需要该节点能够拥有较高的CPU（低于NN），较高的内存。

（四）DataNode（DN），分布式的各个子节点，真正存储NDFS文件的节点，负责接受Hadoop的计算任务，通过TaskTacker执行并行任务，启动MapReduce进行数据处理。

身份决定该节点需要存储大量的文件，而且由于冗余备份（Hadoop缺省配置3份），防止节点宕机导致的计算不准确问题。该节点需要非常大的磁盘空间承载文件。