初识Hadoop

1.Hadoop 发展历史

1.1 Hadoop 产生背景

Hadoop 最早起源于Nutch。Nutch是一个开源的网络搜索引擎,始于2002年,Nutch的设计目标是构建一个大型的全网搜索引擎,包含抓取网页,索引,查询等,可是随着数据量的添加,遇到了扩展问题。直至2003年google发表了一篇关于google的文件系统GFS,该论文描写叙述了google搜索引擎网页数据的存储架构,该架构攻克了Nutch遇到的问题,随即实现了自己的分布式文件系统,即NDFS(此间google仅仅是开源思想,但并未开源码),到了2004年的google的还有一篇论文MapReduce:simplified data processing on large cluster ,震惊世界,该论文描写叙述了分布式计算的框架,但也仅仅是开源思想,并不开源码,Nutch的开发者靠自己完毕了实现,因为NDFS和MapReduce的成功,2006年Nutch的开发者,随即将其移出Nutch,成为Lucene的子项目,称为Hadoop(据说是Doug Cutting儿子的玩具大象的名字),随着Hadoop的发展,2008年,Hadoop已经成为Apache基金会的顶级项目,也促生了Hadoop家族其它项目的发展。
1.2 Hadoop思想之源

Hadoop的思想主要来源于google,此间google的俩大论文GFS,MapReduce起了决定性的作用,而google的低成本之道(不使用超级计算机,不用存储;大量使用PC server,提供冗余的集群服务...)也是成功的根本。而google的成功也得益于Page Rank算法。



更加详尽有关Page Rank能够參考:http://blog.csdn.net/v_july_v/article/details/6142146

眼下hadoop发展迅速,是实现云计算标准开源软件,已经能够在数千节点上面执行,处理数据量和速度有非常可观的效果。同一时候,hadoop家族的项目也得到了对应的发展。


2 Hadoop的架构

2.1 Hadoop的俩大支柱:HDFS和MapReduce

当中HDFS用于大规模数据的分布式存储,而MapReduce则构建在HDFS之上,对数据进行分布式计算。

2.1 HDFS架构

HDFS是一个具有高容错性的分布式系统,适合部署在便宜的机器上,HDFS能够提供高吞吐量的数据訪问,适合大数据集的应用,主要有client,NameNode,SecondaryNameNode,DataNode几个组件构成。


client:通过于NameNode于DataNode交互訪问HDFS文件。

NameNode:HDFS的守护程序,是个“总管”,记录文件是怎样切割成数据块的,以及这些数据块存储到哪些节点,对IO和内存进行集中管理,且是个单点。

SecondaryNameNode:监控HDFS状态的辅助后台程序,每一个集群都有一个,与NameNode进行通讯,定期存储HDFS元数据快照,而且在NameNode故障的时候,提供备份作用。

DataNode:负责把HDFS数据块读写到本地文件系统,并将数据定期汇报给NameNode,DataNode以固定大小的block(默认64MB)为基本单位。

2.2 MapReduce 架构

同HDFS一样,MR也採用了Master/Slave模式,有下面组件:client,JobTracker,TaskTracker,Task.


JobTracker:负责资源监控和作业调度,执行主节点,对HDFS总控,决定哪些文件an參与处理,然后切割task并分配节点,重新启动失败的task等

TaskTracker:位于slave节点上,与datanode结合,管理各自节点上的task,与JobTracker交互(周期性的通过heartbeat将资源使用情况和任务进度汇报给jobtracker)。TaskTracker通过使用“slot”等量划分(划分方法用户自己决定)节点上的资源量,分为Mapslot 和Reduceslot来提供Map任务和Reduce任务的使用。

Task:Map Task和Reduce Task,有TaskTracker启动。

Map Task流程:Map Task先将相应的split(MapReduce处理单位)迭代解析成一个个的key/alue对,依次调用map函数进行处理,终于将暂时结果存到本地磁盘中,其暂时数据分成若干个partition,每一个partition将被一个reduce task 处理。


reduce task流程:读取partition部分,对结果排序,依次读取<key,value list>,调用用户自己的reduce函数处理,结果存到HDFS上面。



參考书籍:Hadoop实战,Hadoop技术内幕 深入解析MapReduce架构设计与实现原理。

dataguru:http://www.dataguru.cn/forum.php


原文地址:https://www.cnblogs.com/blfshiye/p/4548385.html