Hadoop框架

一、Hadoop是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2)主要解决，海量数据的存储和海量数据的分析计算问题。

3广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

二、Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

三、Hadoop的优势

1）高可靠性:Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

2）高扩展性:在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性:在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性:能够自动将失败的任务重新分配。

四、Hadoop组成（面试重点）

五、HDFS（Hadoop Distributed File System）的架构概述

1)NameNode(nn)∶存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验和。

3) Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

六、YARN架构概述

1) ResourceManager(RM)主要作用如下

(1）处理客户端请求；(2）监控NodeManager；(3）启动或监控ApplicationMaster；(4）资源的分配与调度

2) NodeManager(NM）主要作用如下

(1）管理单个节点上的资源；(2）处理来自ResourceManager的命令；(3）处理来自ApplicationMaster的命令

3) ApplicationMaster (AM）作用如下

(1）负责数据的切分；(2）为应用程序申请资源并分配给内部的任务；(3）任务的监控与容错

4) container

Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

七、MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

八、HDFS优缺点

优点：

1）高容错性

(1）数据自动保存多个副本。它通过增加副本的形式，提高容错性。

(2）某一个副本丢失以后，它可以自动恢复。

2）适合处理大数据

(1）数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;

(2）文件规模:能够处理百万规模以上的文件数量，数量相当之大。

3）可构建在廉价机器上，通过多副本机制，提高可靠性。

缺点：

1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。

2）无法高效的对大量小文件进行存储。

(1）存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的;

(2）小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。

3）不支持并发写入、文件随机修改。

(1）同一时间一个文件只能有一个用户执行写操作，不允许多个线程同时写;

(2）仅支持数据append(追加），不支持文件的随机修改。

九、HDFS组成架构

1) NameNode (nn):就是Master，它是一个主管、管理者。

(1）管理HDFS的名称空间;(2）配置副本策略;(3）管理数据块（Block）映射信息;(4）处理客户端读写请求。

2) DataNode:就是Slave。NameNode下达命令，DataNode执行实际的操作。

(1）存储实际的数据块;(2）执行数据块的读/写操作。

3)Client:就是客户端。

(1)文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传;

(2)与NameNode交互，获取文件的位置信息;(3)与DataNode交互，读取或者写入数据;

(4)Client提供一些命令来管理HDFS，比如NameNode格式化;

(5)Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作;

4)Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

(1）辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode;

(2）在紧急情况下，可辅助恢复NameNode。

十、HDFS文件块大小

十一、HDFS的数据流（面试重点）

十一.1、剖析文件写入

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求第一个 Block上传到哪几个DataNode服务器上。

4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。

5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

6）dn1、dn2、dn3逐级应答客户端。

7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

十一.2、HDFS读数据流程

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。

3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。

4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

十二、NameNode和SecondaryNameNode（面试开发重点）

十二.1、NN和2NN工作机制

思考：NameNode中的元数据是存储在哪里的？

首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

NN和2NN工作机制：

1. 第一阶段：NameNode启动

（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求。

（3）NameNode记录操作日志，更新滚动日志。

（4）NameNode在内存中对元数据进行增删改。

2. 第二阶段：Secondary NameNode工作

（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

（2）Secondary NameNode请求执行CheckPoint。

（3）NameNode滚动正在写的Edits日志。

（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件fsimage.chkpoint。

（7）拷贝fsimage.chkpoint到NameNode。

（8）NameNode将fsimage.chkpoint重新命名成fsimage。

NN和2NN工作机制详解：

Fsimage：NameNode内存中元数据序列化后形成的文件。

Edits：记录客户端更新元数据信息的每一步操作（可通过Edits运算出元数据）。

NameNode启动时，先滚动Edits并生成一个空的edits.inprogress，然后加载Edits和Fsimage到内存中，此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求，这些请求的操作首先会被记录到edits.inprogress中（查询元数据的操作不会被记录在Edits中，因为查询操作不会更改元数据信息），如果此时NameNode挂掉，重启后会从Edits中读取元数据的信息。然后，NameNode会在内存中执行元数据的增删改的操作。

由于Edits中记录的操作会越来越多，Edits文件会越来越大，导致NameNode在启动加载Edits时会很慢，所以需要对Edits和Fsimage进行合并（所谓合并，就是将Edits和Fsimage加载到内存中，照着Edits中的操作一步步执行，最终形成新的Fsimage）。SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并工作。

SecondaryNameNode首先会询问NameNode是否需要CheckPoint（触发CheckPoint需要满足两个条件中的任意一个，定时时间到和Edits中数据写满了）。直接带回NameNode是否检查结果。SecondaryNameNode执行CheckPoint操作，首先会让NameNode滚动Edits并生成一个空的edits.inprogress，滚动Edits的目的是给Edits打个标记，以后所有新的操作都写入edits.inprogress，其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地，然后将拷贝的Edits和Fsimage加载到内存中进行合并，生成fsimage.chkpoint，然后将fsimage.chkpoint拷贝给NameNode，重命名为Fsimage后替换掉原来的Fsimage。NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可，因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

十二.2、集群安全模式

十三、DataNode工作机制

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。

3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

4）集群运行中可以安全加入和退出一些机器。

十四、DataNode数据完整性

如下是DataNode节点保证数据完整性的方法。

1）当DataNode读取Block的时候，它会计算CheckSum。

2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。

3）Client读取其他DataNode上的Block。

4）DataNode在其文件创建后周期验证CheckSum。

十五、HDFS HA高可用

十五.1、HA概述

1）所谓HA（High Available），即高可用（7*24小时不中断服务）。

2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。

3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。

4）NameNode主要在以下两个方面影响HDFS集群

NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启

NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用

HDFS HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

十五.2、HDFS-HA工作机制

通过双NameNode消除单点故障

十五.3、HDFS-HA工作要点

1. 元数据管理方式需要改变

内存中各自保存一份元数据；

Edits日志只有Active状态的NameNode节点可以做写操作；

两个NameNode都可以读取Edits；

共享的Edits放在一个共享存储中管理（qjournal和NFS两个主流实现）；

2. 需要一个状态管理功能模块

实现了一个zkfailover，常驻在每一个namenode所在的节点，每一个zkfailover负责监控自己所在NameNode节点，利用zk进行状态标识，当需要进行状态切换时，由zkfailover来负责切换，切换时需要防止brain split现象的发生。

3. 必须保证两个NameNode之间能够ssh无密码登录

4. 隔离（Fence），即同一时刻仅仅有一个NameNode对外提供服务

十五.4、HDFS-HA自动故障转移工作机制

ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于ZooKeeper的以下功能：

1）故障检测：集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃，ZooKeeper中的会话将终止，ZooKeeper通知另一个NameNode需要触发故障转移。

2）现役NameNode选择：ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃，另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。

ZKFC是自动故障转移中的另一个新组件，是ZooKeeper的客户端，也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程，ZKFC负责：

1）健康监测：ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode，只要该NameNode及时地回复健康状态，ZKFC认为该节点是健康的。如果该节点崩溃，冻结或进入不健康状态，健康监测器标识该节点为非健康的。

2）ZooKeeper会话管理：当本地NameNode是健康的，ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态，ZKFC也保持一个特殊的znode锁，该锁使用了ZooKeeper对短暂节点的支持，如果会话终止，锁节点将自动删除。

3）基于ZooKeeper的选择：如果本地NameNode是健康的，且ZKFC发现没有其它的节点当前持有znode锁，它将为自己获取该锁。如果成功，则它已经赢得了选择，并负责运行故障转移进程以使它的本地NameNode为Active。故障转移进程与前面描述的手动故障转移相似，首先如果必要保护之前的现役NameNode，然后本地NameNode转换为Active状态。

十六、MapReduce优缺点

优点：1. MapReduce易于编程

它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写—个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。

2．良好的扩展性

当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

3．高容错性

MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不4．适合PB级以上海量数据的离线处理

4．适合PB级以上海量数据的离线处理

可以实现上千台服务器集群并发工作，提供数据处理能力。

缺点：1．不擅长实时计算

MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果。

2不擅长流式计算

流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。

3.不擅长DAG有向图）计算

多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

十七、MapReduce核心思想

1）分布式的运算程序往往需要分成至少2个阶段。

2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。

3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

总结：分析WordCount数据流走向深入理解MapReduce核心思想。

十八、MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程:

1)MrAppMaster:负责整个程序的过程调度及状态协调。

2)MapTask:负责Map阶段的整个数据处理流程。

3)ReduceTask:负责Reduce阶段的整个数据处理流程。

十九、hadoop种的压缩方式有哪些？哪些方式压缩文件支持切片？mr可以在哪些位置执行压缩？压缩的作用（优点）和原则是什么？默认是否开启了压缩，怎么开启map、reduce端的压缩功能？

(1) DEFLATE、Gzip、bzip2（支持切片）、LZO（支持切片）、Snappy
(2) 可以在mapreduce执行任务前（数据输入前的数据压缩）、任务中（map到reduce的数据传输过程中的数据压缩）、任务后（执行完毕后的数据压缩）
(3)压缩会占用一定的CPU资源，合理采用压缩可以减少磁盘io和网络数据传输，提高mr的整体运行效率原则：运算密集型任务少用压缩，IO密集型任务多使用压缩
(4)mr默认没有开启压缩功能
// 开启map端输出压缩
configuration.setBoolean("mapreduce.map.output.compress", true);
// 设置map端输出压缩方式
configuration.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);
//设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);
// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);

二十、YARN的组成部分，各角色的作用是是什么？任务调度器有哪些，默认是哪个，各任务调度器有什么特点？

(1)YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container组成
ResourceManager：1.处理客户端请求，2.监控NodeManager的节点状态 3.为任务开启一个ApplicationMaster，并监控 4.负责总资源的分配和调度
NodeManager：1.管理单个节点上的资源，2.负责接受并处理ResourceManager的命令
3.负责接受并处理ApplicationMaster的命令
ApplicationMaster：1.获取mr任务的切片信息、配置信息、jar包信息
2.向ResourceManager申请资源并分配给mr程序的内部任务 3.负责任务的监控和容错处理
Container：对NodeManager的节点资源(内存、CPU、磁盘、网络等)进行封装，提供给ApplicationMaster进行任务计算。
(2)FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler
FIFO：只有一条任务队列，job任务按照时间顺序，先进的排在前面优先处理，一次只能处理
一个任务
Capacity Scheduler：由多个FIFO队列组成，可以为队列进行资源的分配，任务在各队列中按照时间顺序排列，先进的排在前面优先处理，支持任务的并行执行。
Fair Scheduler：由多个队列组成，可以为队列进行资源的分配，任务在各队列中按照差额排列，差额越大，任务优先分配到资源优先执行，但是公平调度器会保证每个job任务都能分配到一定的资源执行任务，所以公平调度器同样支持任务的并行执行；但是要使用公平调度器集群服务器的性能一定高，不然任务分配的资源少，导致任务的执行效率低

二十一、mr运行过慢的原因有哪些？

MapReduce 程序效率的瓶颈在于两点：
1.计算机性能瓶颈，硬件配置低，服务器性能跟不上。
2.出现数据倾斜、Map和Reduce数设置不合理、处理大量小文件、大量的不可分块的超大文件、、Spill溢写次数过多、合并文件次数过多
以上原因都可能会造成mr运行过慢

二十二、小文存在的弊端（坏处）? 如何解决？

（1）HDFS上每个文件都要在NameNode上建立一个索引，每个索引约为150byte，当小文件比较多的时候，就会产生很多的索引文件，一方面大量占用NameNode的内存空间，索引文件过大使得索引速度变慢；并且每个文件的元数据也会占用namenode的磁盘空间，如果小文件太小在读取小文件的时候寻址时间远大于读取时间同样是不可取的。
（2）在数据采集的时候尽量避免出现小文件，无法避免就将小文件或小批数据合成大文件再上传HDFS
在业务处理之前，使用MapReduce程序对在HDFS上的小文件合并为sequencefile文件
在MapReduce处理时，可采用CombineTextInputFormat处理数据提高效率