Hadoop学习笔记

1.Hadoop安装

Apache的国内镜像地址:

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN,谁给你的权利把开源的东西作为商品(下载积分)售卖?

Hadoop安装教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元

HDFS中有两类节点NameNode和DataNode

namenode:

是管理节点,存放文件元数据

元数据包含两个部分:

  1. 文件与数据块的映射表

  2. 数据块与数据节点的映射表

datanode:

是hdfs的工作节点,存放数据块

2.2 数据管理策略

1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠

2.心跳检测

DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;

3.二级NameNode

当NameNode挂掉SecondaryNameNode会替代其位置

2.3 HDFS读取文件流程

客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;

客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;

 

3.MapReduce

3.1 MapReduce的原理

 mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.

1、mapreduce是一个并行计算的框架;

2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;

3、mapreduce的过程:input split->shuffle->output。

4、shuffle机制

  1. map task是由并发数决定的,有多少个切片就启动多少个map task
  2. 切片是逻辑概念,指文件中数据偏移量的范围
  3. 切片的具体大小应该根据文件的大小来调整

3.2 MapReduce的运行流程

MapReduce作业执行过程

MapReduce 容错机制

  1. 重复执行,一次任务失败,会进行重试,4次
  2. 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个

JobTracker 功能职责

  1. 作业调度
  2. 分配任务,监控任务执行进度
  3. 监控TaskTracker的状态

4.YARN

(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

5.Hadpoop生态

原文地址:https://www.cnblogs.com/Java-Starter/p/9842631.html