Apache Hadoop总结

Hadoop的优势

1、高可靠性。底层维护了多个副本,个别计算机出现故障也不会丢失数据。
2、高扩展性。集群间分配任务数据,可方便的扩展数以千计的节点。
3、高效性。MapReduce的思想下,Hadoop是并行工作的,加快了任务处理。
4、高容错性。能自动将失败的任务重新分配。

Hadoop的组成

1、HDFS(Hadoop Distributed File System)负责存储数据。
2、YARN 负责任务的调度。
3、MapReduce 负责对任务的计算。
4、Common 辅助工具。

HDFS概论

HDFS作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。
HDFS由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。

原文地址:https://www.cnblogs.com/feiqiangsheng/p/14024147.html