Hadoop学习笔记

1.Hadoop安装

Apache的国内镜像地址：

地址1：http://mirror.bit.edu.cn/apache/

地址2：https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN，谁给你的权利把开源的东西作为商品（下载积分）售卖？

Hadoop安装教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成块(Block)进行存储，HDFS块默认大小是64MB，块是整个文件存储处理的逻辑单元

HDFS中有两类节点NameNode和DataNode

namenode：

是管理节点，存放文件元数据

元数据包含两个部分：

文件与数据块的映射表
数据块与数据节点的映射表

datanode：

是hdfs的工作节点，存放数据块

2.2 数据管理策略

1.每个数据保留三份，两份存储在一台机器上，另外一份存储在另一台机器上。确保数据安全可靠

2.心跳检测

DataNode定期向NameNode发送心跳检测，是否宕机，挂掉，作为安全检测；

3.二级NameNode

当NameNode挂掉SecondaryNameNode会替代其位置

2.3 HDFS读取文件流程

客户端发送文件读请求——>namenode返回元数据（从哪些datanode找到）——>客户端读取block，下载下来之后组装；

客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据；

3.MapReduce

3.1 MapReduce的原理

mapReduce：分而治之的原理，既将大的任务分解成各个小的任务，既所谓的map，然后将各个小任务的处理结果进行合并，合并汇总称之为reduce.

1、mapreduce是一个并行计算的框架；

2、map将任务分解成多个子任务，reduce将子任务并行执行后合并结果；

3、mapreduce的过程：input split->shuffle->output。

4、shuffle机制

map task是由并发数决定的，有多少个切片就启动多少个map task
切片是逻辑概念，指文件中数据偏移量的范围
切片的具体大小应该根据文件的大小来调整

3.2 MapReduce的运行流程

MapReduce作业执行过程

MapReduce 容错机制

重复执行，一次任务失败，会进行重试，4次
推测执行，单个任务执行慢时，推测其可能出现故障，再另起一个同样的任务，并行执行，哪个先执行完使用哪个

JobTracker 功能职责

作业调度
分配任务，监控任务执行进度
监控TaskTracker的状态

4.YARN

（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。