读书笔记Hadoop实战2

 注:之前写过MapReduce程序,所以对Hadoop和MapReduce编程有一些了解,现在正在阅读《Hadoop实战》一书,这里主要是记下对自己有用的一些点,完全不能覆盖书中的全部要点。想要学习MapReduce入门的同学请移尊步,勿浪费时间。

这里是我觉得不错的几个入门文章:

http://www.cnblogs.com/forfuture1978/category/300670.html

http://blog.csdn.net/aidayei/article/details/6580277

http://www.cnblogs.com/mdyang/category/307547.html

http://www.cnblogs.com/wycg1984/category/238035.html

 

----------------------------------------------------------敌我分割线------------------------------------------------------------

 

Hadoop的主要组件/服务:

Hadoop的存储和计算都采用了主从(master/slave)模式。

存储的守护进程

        1.NameNode:记录了存储相关的元数据信息,比如文件如何被分块,各个块及其副本在那些数据节点上,HDFS文件系统的状态信息等。一般有一个单独的节点运行这一服务,是Hadoop的单点故障(Single Point Of Failure),已有论文解决这个问题。

        2.DataNode:数据节点,DataNode之间也会通讯。

        3.Secondary NameNode:辅助服务,一般运行在一个单独的机器上,定期对NameNode进行备份(非实时,不能完全解决单点故障)。

计算的守护进程

        1.JobTracker:应用进程和Hadoop之间的纽带,代码提交到集群之后,JobTracker会确定执行计划,包括处理那些文件,为任务分配节点,监控任务的执行,重启失败的任务等。每个集群只有一个JobTracker,通常在主节点上。

        2.TaskTracker:每个TaskTracker管理相应的一个任务。一个TaskTracker可以生成多个JVM来并行执行多个map和reduce任务。TaskTracker要向JobTracker发送“心跳”,否则JobTracker认为这个TaskTracker已崩溃,并进行重启等操作。

图示:

 

 

Hadoop的安装:

三种模式:本地(单机),伪分布模式,全分布模式。伪分布模式也是一台机器,具备所有的守护进程,一般学习Mapreduce编程用这个安装方式即可。

 

基于web页面的集群管理界面。

原文地址:https://www.cnblogs.com/apprentice89/p/2672420.html