hadoop

http://naotu.baidu.com/file/f5406e860372ea7d1c7e670955fe9f63?qq-pf-to=pcqq.group脑图

1、一个模仿Google大数据技术的开源实现。

2、hadoop：开源的、分布式的、分布式计算平台

Hadoop的组成：两个核心组成（1）HDFS：分布式文件系统，存储海量的数据（2）MapReduce:并行处理框架，实现任务分解和调度。

3、hadoop1.x的核心是hdfs + mapreduce构架 hadoop2.x在hadoop1.x的基础进行了大幅度改变

1.1、HDFS的变化 - 增强了NameNode的水平扩展及可用性

主要体现在增强了NameNode的水平扩展及可用性，可以同时部署多个NameNode，这些NameNodes之间是相互独立，也就是说他们不需要相互协调，DataNode同时在所有NameNodes注册，做为他们共有的存储节点，并向定时向所有的这些NameNodes发送心跳块使用情况的报告，并处理所有NameNodes向其发送的指令。

架构如下：

存储块池（Block Pool）

一个存储块池是由一组存储块组成，它属于一个单独的Namespace（Namenode），集群中所有存储块池的存储块都是存放在Datanodes中的。每个存储块池与其它的存储块池都是独立管理的，因而其在为新的块生成Block IDs时，就不需要与其它Namespace（Namenode）中的存储块池进行协作，即使一个Namespace（Namenode）挂掉了，也不会使得Datanodes中的块被访问不到，因为其它Namespace（Namenode）中的存储块池也存放了Datanodes中所有存储块的信息。

一个命名空间(Namespace)和它的块池一起被称为命名空间向量。它是一个自包含的管理单元。当一个Namenode/namespace被删除，存储于Datanodes中的相应的存储块池也会被删除掉，在集群的更新过程中，每个命名空间向量都是以一个整体进行升级的。