Hadoop学习笔记【入门】

Hadoop是雅虎根据Google的几项核心技术，演化而来

Google VS Hadoop

Hadoop是什么

一个分布式文件系统和并行执行环境
让用户便捷的处理海量数据
Apache软件基金会下面的一个开源项目
目前Yahoo!是最主要的贡献者
09年4月-- 赢得每分钟排序，59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。

Hadoop的特点

扩容能力（处理PB级数据）
成本低（普通计算机群）
高效率（并行处理）
可靠性（备份）

物理部署

HDFS（Hadoop Distributed分布式 File System）

存储并管理PB级数据
处理非结构化数据
注重数据处理的吞吐量
应用模式为：write-once-read-many
不建议存储小文件
不建议大量的随机读
不支持对文件修改

HDFS的设计目标

假设节点失效是常态
任何节点失效，不影响HDFS服务
HDFS可以自动完成副本的复制

HDFS主要组件

文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3）
NameNode是主节点，存储文件的元数据，如：文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等
DataNode在本地文件系统存储文件块数据，以及块数据的校验和
可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容

NameNode

是一个中心服务器，单一节点（简化系统设计和实现），负责管理文件系统的名字空间（namespace）以及客户端对文件的访问。
文件操作：它负责文件元数据操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟哪个DataNode联系。
副本存放在哪个DataNode上由NameNode控制，读取文件时NameNode尽量让用户读最近的副本，降低时延。
NameNode全权管理数据块的复制，它周期性地从集群中的每个DataNode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该DataNode上所有数据块的列表。

DataNode

一个数据块在DataNode以文件存储在磁盘上，包括两个文件，一个是数据本身；一个是元数据，包括数据块的长度，块数据的校验和，以及时间戳。
DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有块信息。
心跳每3秒一次，返回结果带有NameNode给该DataNode的命令，如复制块数据到哪，或删除某个数据块。如果超过10分钟没有收到DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

Example：HDFS如何写文件

Example：HDFS如何读文件

MapReduce

与高性能计算比较-->HPC是将作业分配给一个机器集群，它们访问共享文件系统，但是当节点需要访问大量数据时，网络带宽成为“瓶颈”，计算节点会闲置下来；
MapReduce尝试在计算节点本地存储数据，这项“数据本地化”功能，成为MR的核心也是它拥有良好性能的原因之一。
　　
MR的特性：1.自动实现分布式并行计算
2.容错
3.提供状态监控工具
4.模型抽象简洁，程序员易用

MapReduce示例

MapReduce处理流程

　　
1. Map产生输出，先将数据写到内存的一个缓冲区，进行预排序（每个Map任务都有一个缓冲区，默认100M。当缓冲区中的数据量达到阀值时0.8，系统会启动一个后台线程把缓冲区中的内容spill到磁盘，在spill过程中，Map继续输出，如果缓冲区已满，Map线程阻塞，直到spill完）。
2. Spill线程在把缓冲区的数据写到磁盘前，会进行二次快速排序，输出一个索引文件和数据文件。
3. 如果设定了Combiner，将在排序输出的基础上运行

附加几点

1. JobTracker对应于NameNode，TaskTracker对应于DataNode
2. NameNode和DataNode是针对数据存放而言的
3. JobTracker和TaskTracker是对于MapReduce执行而言的
4. JobTracker运行在HDFS的NameNode节点上，TaskTracker运行在DataNode节点上