hadoop

 http://naotu.baidu.com/file/f5406e860372ea7d1c7e670955fe9f63?qq-pf-to=pcqq.group脑图

 

1、一个模仿Google大数据技术的开源实现。

2、hadoop:开源的 、分布式的、分布式计算平台

Hadoop的组成:两个核心组成(1)HDFS:分布式文件系统,存储海量的数据(2)MapReduce:并行处理框架,实现任务分解和调度。

3、hadoop1.x的核心是hdfs + mapreduce构架 hadoop2.x在hadoop1.x的基础进行了大幅度改变

1.1、HDFS的变化 - 增强了NameNode的水平扩展及可用性 

主要体现在增强了NameNode的水平扩展及可用性,可以同时部署多个NameNode,这些NameNodes之间是相互独立,也就是说他们不需要相互协调,DataNode同时在所有NameNodes注册,做为他们共有的存储节点,并向定时向所有的这些NameNodes发送心跳块使用情况的报告,并处理所有NameNodes向其发送的指令。

架构如下:

 

存储块池(Block Pool)

一个存储块池是由一组存储块组成,它属于一个单独的Namespace(Namenode),集群中所有存储块池的存储块都是存放在Datanodes中的。每个存储块池与其它的存储块池都是独立管理的,因而其在为新的块生成Block IDs时,就不需要与其它Namespace(Namenode)中的存储块池进行协作,即使一个Namespace(Namenode)挂掉了,也不会使得Datanodes中的块被访问不到,因为其它Namespace(Namenode)中的存储块池也存放了Datanodes中所有存储块的信息。

一个命名空间(Namespace)和它的块池一起被称为命名空间向量。它是一个自包含的管理单元。当一个Namenode/namespace被删除,存储于Datanodes中的相应的存储块池也会被删除掉,在集群的更新过程中,每个命名空间向量都是以一个整体进行升级的。

原文地址:https://www.cnblogs.com/Hei-po/p/6915577.html