读书笔记Hadoop实战2

注：之前写过MapReduce程序，所以对Hadoop和MapReduce编程有一些了解，现在正在阅读《Hadoop实战》一书，这里主要是记下对自己有用的一些点，完全不能覆盖书中的全部要点。想要学习MapReduce入门的同学请移尊步，勿浪费时间。

这里是我觉得不错的几个入门文章：

----------------------------------------------------------敌我分割线------------------------------------------------------------

Hadoop的主要组件/服务：

Hadoop的存储和计算都采用了主从（master/slave）模式。

存储的守护进程

1.NameNode：记录了存储相关的元数据信息，比如文件如何被分块，各个块及其副本在那些数据节点上，HDFS文件系统的状态信息等。一般有一个单独的节点运行这一服务，是Hadoop的单点故障（Single Point Of Failure），已有论文解决这个问题。

2.DataNode：数据节点，DataNode之间也会通讯。

3.Secondary NameNode：辅助服务，一般运行在一个单独的机器上，定期对NameNode进行备份（非实时，不能完全解决单点故障）。

计算的守护进程

1.JobTracker：应用进程和Hadoop之间的纽带，代码提交到集群之后，JobTracker会确定执行计划，包括处理那些文件，为任务分配节点，监控任务的执行，重启失败的任务等。每个集群只有一个JobTracker，通常在主节点上。

2.TaskTracker：每个TaskTracker管理相应的一个任务。一个TaskTracker可以生成多个JVM来并行执行多个map和reduce任务。TaskTracker要向JobTracker发送“心跳”，否则JobTracker认为这个TaskTracker已崩溃，并进行重启等操作。

图示：

Hadoop的安装：

三种模式：本地（单机），伪分布模式，全分布模式。伪分布模式也是一台机器，具备所有的守护进程，一般学习Mapreduce编程用这个安装方式即可。

基于web页面的集群管理界面。