Apache Hadoop总结

Hadoop的优势

1、高可靠性。底层维护了多个副本，个别计算机出现故障也不会丢失数据。
2、高扩展性。集群间分配任务数据，可方便的扩展数以千计的节点。
3、高效性。MapReduce的思想下，Hadoop是并行工作的，加快了任务处理。
4、高容错性。能自动将失败的任务重新分配。

Hadoop的组成

1、HDFS（Hadoop Distributed File System）负责存储数据。
2、YARN 负责任务的调度。
3、MapReduce 负责对任务的计算。
4、Common 辅助工具。

HDFS概论

HDFS作为Google File System（GFS）的实现，是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集(Large Data Set)的应用处理带来了很多便利。
HDFS由四部分组成，HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是一个主/从（Mater/Slave）体系结构，HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据，DataNode存储实际的数据。