namenode单节点解决方案

架构

NameNode：分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

SecondaryNameNode：合并fsimage和fsedits然后再发给namenode。

DataNode：是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data同时周期性地将所有存在的Block信息发送给NameNode。

Client：就是需要获取分布式文件系统文件的应用程序。

fsimage:元数据镜像文件（文件系统的目录树。）

edits：元数据的操作日志（针对文件系统做的修改操作记录）

NameNode、DataNode和Client之间通信方式：

client和namenode之间是通过rpc通信；

datanode和namenode之间是通过rpc通信；

client和datanode之间是通过简单的socket通信。

Client读取HDFS中数据的流程

1. 客户端通过调用FileSystem对象的open()方法打开希望读取的文件。

2. DistributedFileSystem通过使用RPC来调用namenode,以确定文件起始块的位置。[注1]

3. Client对输入流调用read()方法。

4. 存储着文件起始块的natanoe地址的DFSInputStream[注2]随即链接距离最近的datanode。通过对数据流反复调用read()方法，可以将数据从datanode传输到Client。[注3]

5. 到达快的末端时，DFSInputStream会关闭与该datanode的连接，然后寻找下一个快递最佳datanode。

6. Client读取数据是按照卡开DFSInputStream与datanode新建连接的顺序读取的。它需要询问namenode来检索下一批所需要的datanode的位置。一旦完成读取，调用FSDataInputStream调用close()方法。

[注1]：对于每一个块，namenode返回存在该块副本的datanode地址。这些datanode根据他们于客户端的距离来排序，如果客户端本身就是一个datanode，并保存有响应数据块的一个副本时，该节点从本地datanode中读取数据。

[注2]:Di是tribute File System类返回一个FSDataInputStream对象给Client并读取数据。FSDataInputStream类转而封装DFSInputStream对象，该对象管理datanode和namenode的I/O。

[注3]:如果DFSInputStream在与datanode通信时遇到错误，它便会尝试从这个块的另外一个最临近datanode读取数据。它也会记住哪个故障的natanode，以保证以后不回反复读取该节点上后续的块。DFSInputStream也会通过校验和确认从datanode发来的数据是否完整。如果发现一个损坏的块，它就会在DFSinputStream视图从其他datanode读取一个块的副本之前通知namenode。

1. Client调用DistributedFileSystem对象的create()方法，创建一个文件输出流

2. DistributedFileSystem对namenode创建一个RPC调用，在文件系统的命名空间中创建一个新文件。

3. Namenode执行各种不同的检查以确保这个文件不存在，并且客户端有创建该文件的权限。如果这些检查均通过，namenode就会为创建新文件记录一条记录，否则，文件创建失败，向Client抛出IOException，DistributedFileSystem向Client返回一个FSDataOutputStream队形，Client可以开始写入数据。

4. DFSOutputStream将它分成一个个的数据包，并写入内部队列。DataStreamer处理数据队列，它的责任时根据datanode列表来要求namenode分配适合新块来存储数据备份。这一组datanode构成一个管线---我们假设副本数为3，管路中有3个节点，DataStreamer将数据包流式床书到管线中第一个datanode，该dananode存储数据包并将它发送到管线中的第二个datanode，同样地，第二个datanode存储该数据包并且发送给管县中的第3个。

5. DFSOutputStream也维护着一个内部数据包队列来等待datanode的收到确认回执（ack queue）。当收到管道中所有datanode确认信息后，该数据包才会从确认队列删除。[注1]

6. Client完成数据的写入后，回对数据流调用close()方法

7. 将剩余所有的数据包写入datanode管线中，并且在练习namenode且发送文件写入完成信号之前。

[注1]：如果在数据写入期间，datanode发生故障，则：1.关闭管线，确认把队列中的任何数据包添加回数据队列的最前端，一去到故障节点下游的datanode不回漏包。2.为存储在另一个正常datanode的当前数据块指定一个新的标志，并将给标志传给namenode，以便故障datanode在恢复后可以删除存储的部分数据块。3.从管线中删除故障数据节点，并且把余下的数据块写入管线中的两个正常的datanode。namenode注意到副本量不足时，会在另一个节点上创建一个新的副本。

Hadoop中NameNode单点故障解决方案

Hadoop 1.0内核主要由两个分支组成：MapReduce和HDFS,这两个系统的设计缺陷是单点故障，即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题，这里只讨论HDFS的NameNode单点故障的解决方案。

[问题]

HDFS仿照google GFS实现的分布式存储系统，由NameNode和DataNode两种服务组成，其中NameNode是存储了元数据信息（fsimage）和操作日志（edits），由于它是唯一的，其可用性直接决定了整个存储系统的可用性。因为客户端对HDFS的读、写操作之前都要访问name node服务器，客户端只有从name node获取元数据之后才能继续进行读、写。一旦NameNode出现故障，将影响整个存储系统的使用。

[解决方案]

Hadoop官方提供了一种quorum journal manager来实现高可用，在高可用配置下，edit log不再存放在名称节点，而是存放在一个共享存储的地方，这个共享存储由若干Journal Node组成，一般是3个节点(JN小集群)，每个JN专门用于存放来自NN的编辑日志，编辑日志由活跃状态的名称节点写入。

要有2个NN节点，二者之中只能有一个处于活跃状态（active），另一个是待命状态（standby），只有active节点才能对外提供读写HDFS服务，也只有active态的NN才能向JN写入编辑日志；standby的名称节点只负责从JN小集群中的JN节点拷贝数据到本地存放。另外，各个DATA NODE也要同时向两个NameNode节点报告状态(心跳信息、块信息)。

一主一从的2个NameNode节点同时和3个JN构成的组保持通信，活跃的NameNode节点负责往JN集群写入编辑日志，待命的NN节点负责观察JN组中的编辑日志,并且把日志拉取到待命节点（接管Secondary NameNode的工作）。再加上两节点各自的fsimage镜像文件，这样一来就能确保两个NN的元数据保持同步。一旦active不可用，standby继续对外提供服。架构分为手动模式和自动模式，其中手动模式是指由管理员通过命令进行主备切换，这通常在服务升级时有用，自动模式可降低运维成本，但存在潜在危险。