HDFS 架构指南 2.6.0 译

HDFS 架构指南 2.6.0

本文是对下面链接中文字的翻译

http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

简介

HDFS 是一个可以运行在普通硬件上的分布式文件系统。跟现有的分布式系统相比，它有不少相似性。然而，区别也是很大的。 HDFS是高度容错性，设计的初衷就是可在低成本的硬件上部署。HDFS提供高吞吐量的访问，适用于拥有大容量数据集的应用。 HDFS突破了一些POSIX需求，允许了对文件系统数据的流式访问。HDFS的初衷是为Apache Nutch 网络搜索引擎项目作为基础。目前HDFS是一个Apache Hadoop 的子项目。项目链接是http://hadoop.apache.org/hdfs/.

假设和目标

硬件故障

硬件故障是常态，而不是例外。一个HDFS实例可能包含成千上万的服务器，每个服务器都保存着文件系统的部分数据。如此众多的组件以及每个组件都有可能发生故障，这个实际情况疑为这HDFS的一些组件总是不会正常工作的。因此，故障检测和快速，自动的恢复是HDFS核心的架构目标。

数据流式访问

运行在HDFS上的应用需要流式访问数据。没有通过目标的应用运行在通用的文件系统上。 HDFS设计上，侧重于批处理，而不是用户的交互式操作。强调的重点是大量数据访问的高吞吐速率，而不是数据访问的低延时。POSIX很多硬性的要求并不适用于运行在HDFS上的应用。 POSIX标准在一些关键领域已经做了修改，以提高数据吞吐速率。

大数据集

运行在HDFS上的应用处理大数据集。典型的HDFS上的文件大小从几个G到几个T。因此，HDFS为支持大文件做了优化。一方面要再一个集群中提供比较大的总的数据带宽，并能扩展到基本个节点，另一方面面一个实例应该能支持上千万个文件。

简单的聚合模型

HDFS应用对文件的访问模式是写一次，读多次。一旦一个文件创建，关闭，文件就不会在改变了。这个假定简化了数据聚合问题，方便了数据的高吞吐量访问。一个MapReduce应用或者一个网络爬虫应用就非常适合这种模式。当然，将来会支持后续附加的文件写模式，已经有一个开发计划。

“移动计算比移动数据要合算”

应用发起的计算在靠近数据的地方运行更加有效率，尤其是数据量巨大的时候，因为这样减少了网络拥塞，提高了系统总的吞吐效率。移动计算到数据，而不是移动数据到计算运行的地方。应用可以借助HDFS提供的接口，把自己移动到数据所在的地方。

跨多种硬件和软件平台的可移植性

HDFS的设计允许跨平台的移植性。这个设计促进大量的应用选择HDFS。

NameNode和DataNodes

HDFS 是一个主从架构。一个HDFS集群包含单个NameNode。 NameNode是一个主服务器，管理文件系统的名字空间，控制着客户端对于文件的访问。HDFS包含多个DataNodes，通常是一个集群中每个节点有一个DataNode。DataNode管理着数据。HDFS对外呈现的是一个文件系统的名字空间，用户的数据存放于文件之中。HDFS内部则是把一个文件分成一个或者多个文件块，存储于一组DataNodes中。NameNode负责执行文件系统的操作，比如打开文件，关闭文件，重命名文件或者目录，也决定了内部的文件块和DataNode的映射。DataNodes负责提供文件系统客户端的数据读写请求，和执行文件块的创建，删除，复制（响应NameNode指令）

NameNode和DataNode可以运行在普通机器上的软件。这些机器通常是运行GNU/Linux操作系统。HDFS用Java 语言编写。任何支持Java的机器都可以运行NameNode和DataNode。用Java这种感觉可移植性性的语言意味着HDFS可以部署在各种类型的机器上。一个典型的部署有一个单独的机器只运行NameNode，而其他集群中的机器每个运行一个DataNode。HDFS的架构并没有限制一台机器上可以运行多个DataNodes，但是，很少有这样部署的。

一个集群中只有一个NameNode极大地简化了系统的架构。NameNode控制和管理着所有的HDFS元数据。用户数据永远也不会存储到NameNode上。

文件系统的命名空间

HDFS支持传统的文件系统的层级架构。一个用户或者应用程序可以创建目录，进而在目录中存储文件。文件系统给的名字空间层级架构跟现有的文件系统非常类似。文件可以长久，删除，从一个目录移动到另一个目录，或者重命名。HDFS目前还没有实现用户的配额机制。HDFS不支持软硬链接，尽管架构上并没有限制这些功能的实现。

NameNode维护着一个文件系统的名字空间。对文件系统名字空间或者属性的任何改变都记录在NameNode中。应用能指定一个文件可以有多少个副本。一个文件副本的数目成为文件的复制因子，存储在NameNode中。

数据复制

在大的集群中，HDFS可以跨机器可靠地存储非常大的文件。每个文件被存储为一系列的块。除了最后以个块，其他所有的文件块大小都一样。为了容错，文件块会被复制。每个文件的块的大小和复制因子都可以单独配置。一个应用可以指定一个文件的副本的数目，复制因子既可以在文件创建的时候指定，也可以文件创建以后修改。HDFS中的文件只能写一次，任何时候只能有一个写的实例。

NameNode负责所有关于块的复制决定。它周期性地从集群中每个DataNode接收心跳信号和块汇报。心跳信号标记着DataNode工作正常，块汇报包含了DataNode上所有的文件块。

副本放置：首孩步骤

副本的放置对于HDFS的可靠性和性能至关重要。副本放置的优化是HDFS区别于其他分布式文件系统的重要标志。这个特性需要大量的调试和经验。机架感知的副本放置策略的目的是提高数据的可靠性，可用性，并能节省网络带宽的使用。目前的实现策略是朝着这个目标迈出的第一步。短期目的是在生产系统上验证，更多的了解其行为，为测试和研究更加复杂的策略打好基础。

大型HDFS应用实例运行在一个跨多个机架的计算机集群上。不同机架上的两个节点的数据交互需要通过交换机。大多数情况下，同一个机架上的两个节点之间的网络带宽高于不同机架上的带宽。

NameNode 根据Hadoop Rack Awareness 流程确定了每个DataNode的机架Id。一个简单可是不太优化的策略是把副本放在不同的机架上。在一个机架出故障的时候，数据不会丢失，而且，读取数据的时候，可以充分利用多个机架的带宽。这个策略可以平滑的把副本放置在集群中的机器上，在组件故障是容易实现负载均衡。然而，这个策略提高了写文件的成本，因为每次写操作都需要把文件块传输到多个机架。

通常情况下，当副本因子参数设为3的时候，HDFS放置的策略是吧一个副本放到同一个机架上的节点上，另外两个放到跟这个机架不同的同一个机架的两个不同节点上。这策略节省了跨机架的流量，提升了写文件的性能。机架出故障的概率远小于一个节点出故障的概率，因而该策略没有影响数据的可靠性和可用性。它减少了在读数据的时候网络带宽的使用，因为一个文件块放置在了两个不同的机架上，而不是说那个。在此策略下，文件的复制不会平滑的分布到不同的机架上。 1/3的副本在同一个节点上，2/3的副本在同一个机架上，另外的1/3平滑的分布在剩余的机架上。该策略提高了写的性能，但并没有牺牲数据的可靠性和读取的性能。

副本的选择

为了减少带宽的使用和读取的延迟，HDFS尽量读取跟reader接近的副本。同节点，同机架，同机房的副本优先读取。

安全模式

启动的时候，NameNode进入一个安全模式。在安全模式中，不会进行数据的复制。NameNode从DataNode接收心跳和块汇报信息。一个块汇报信息包含一个DataNode含有的所有的块的信息。每个块都有一个指定的最少数量的副本。只有当一个块指定的最少数量的副本都报道了，此块才认为是安全复制了。当一定比例的安全复制的块报道了，再过30秒后，NameNode退出安全模式。然后，它检查所有尚未安全复制的块，进而复制。

文件系统元数据的持久化

NameNode存储了HDFS的名子空间。NameNode用一个事务记录(EditLog)来持久性地记录文件系统的每一次改变。比如，在HDFS中新建一个文件时，NameNode会在EditLog中插入一条记录。同样，改变复制参数也会在EditLog中增加一条记录。NameNode会在本地文件系统中存储EditLog。整个文件系统的名字空间，包含文件块和文件的映射，以及文件系统给的属性，保存在一个叫FsImage的文件中，同样存储于本地文件系统中。

NameNode在内存中维护着整个文件系统命名空间的文件块映射。关键元数据有较紧凑的设计，比如，一个4GB的RAM可以存储大量的文件和目录。当NameNode启动的时候，它先读取FsImage和EditLog，把所有的事务施加到FsImge上。然后，存储一个新的FsImge。然后丢掉旧的EditLog，因为之前所有的事务都已经固化到FsImage中。这个过程成为一个checkpoint. 目前的实现，checkpoint只在NameNode 启动的时候执行。周期性的checkpoint是以后要实现的功能。

DataNode在本地文件系统中存储HDFS数据。DataNode没有HDFS文件的概念，它只是在本地文件系统中保存了每个文件块的数据。DataNode不会在同一个目录中创建所有的文件，而是用启发式的确定每个目录有多少个文件合适。当一个DataNode启动的时候，它首先扫描本地的文件系统，生成一个含所有HDFS数据块的列表发送给NameNode,这就是块报告 BlockReport

通讯协议

所有的HDFS通讯协议基于TCP/IP. 一个客户端通过一个可配置的TCP端口号与NameNode机器建立连接协议是 ClientProtocol。 DataNode和NameNode之间的协议是DataNode protocol。一个RPC抽象隐藏了这两种协议。 NameNode从不会发起RPC请求，总是响应来自于DataNode和客户端的请求。

健壮性

HDFS组要的目标是实现数据存储的可靠性，即使在发生故障的时候。这里主要说三种故障： NameNode故障， DataNode故障，和网络分割 partitions。

数据磁盘故障，心跳和重新复制

每个DataNode为周期性地给NameNode发送心跳信号。一个网络故障能引起一组DataNode失去跟NameNode的连接。NameNode检测到这种情况，标记响应的DataNode为失效，后面就不会转发新的Io请求道失效的DataNode上去了。任何在失效的DataNode上的数据都不能访问了。失效的DataNode可能会导致一些文件块的复制因子远小于指定的值，这时，NameNode 会触发新的复制。重新复制的必要性有多种原因：一个DataNode不能访问了，一个副本损坏了，一个硬盘出故障了，或者一个文件的复制因子提高了

集群再平衡

HDFS架构跟数据的再平衡是兼容的。数据可能从一个DataNode移动到另外一个，如果剩余的空间到了一定的门槛。对某个文件的读取请求突然大幅提升的时候，更多的副本可能会创建出来。这些还没实现呢。

数据完整性

从DataNode中提取的数据可能是损坏的。原因可能是存储设备的故障，网络问题，或者软件问题。HDFS客户端实现对HDFS数据的校验。当客户端创建一个HDFS时，它会为每一个块算一个校验码，并把校验码存储在一个单独的隐藏的文件中。当客户端取得文件内容时，校验码会重新计算，并跟之前存储的校验码比较。如果不一致，客户端就从另外一个DataNode读取数据块。

元数据磁盘故障

FSImge和EditLog 是HDFS的中心数据结构。这两个文件出问题，会使得HDFS实例出问题。处于这样的原因，NameNode能配置成支持维护多个FsImage和EditLog。任何的FsImage、EditLog的更改，都同步到其他的副本上去。这种同步可能会降低HDFS的性能，然而，这是可以接受的，因为HDFS是大量数据操作，而不是大量元数据操作。当NameNode启动时，他选择最近的一致的FsImage和EditLog使用。

在2.6 时， NameNode仍旧是single point of failure

快照

HDFS目前不支持Snapshot

数据的组织：

数据块

HDFS设计支持非常大的文件。使用HDFS的应用会处理非常大的数据。这些应用一次写好数据后，读取多次，而且需要这些读取有流式读取的速度。HDFS 支持一次写，多次读。一个典型的块尺寸是64M。因此，HDFS文件被分割成64M的块，分部在不同的DataNode上。

Staging 分布

一个客户端要求创建一个文件并不能立即能够访问到NameNode。实际上，HDFS首先把文件数据缓存到本地的临时文件中。应用的写操作被重定向到这些临时文件。当本地文件大小达到一个数据块的尺寸的时候，客户端对NameNode发起请求。NameNode把文件名字放到文件层级中，并分配一个文件块。 NameNode回复客户端，返回的数据包含DataNode的标志和目标数据块。然后客户端把数据从临时文件存储到DataNode上。当一个文件关闭的时候，剩余的尚没有写入文件块的临时文件中的数据会被转移到DataNode中。客户端然后告诉NameNode文件关闭了。这时，NameNode把文件的创建操作固定下来。如果NameNode出故障先于文件关闭，文件就丢失了。

选择上面的方法经过了对运行于HDFS的应用的深思熟虑。这些应用需要流式写操作到文件。如果一个文件直接写一个远程文件，没有客户端的缓存，那么，网络速度和拥塞会影响写入操作的吞吐量。当然，这个方法也不是首创的，早先的分布式文件系统， AFS，已经用客户端缓存来提高性能。为了实现数据传输更高的性能，POSIX规范没有完全遵守。

复制的流水线

当一个客户端写数据到HDFS文件中是，像上文介绍的，数据先写到一个本地文件中。加入HDFS文件有个复制参数为3。当本地文件积累到一个块的数据后，客户端从NameNode获取一组DataNode信息。客户端就把数据写到第一个DataNode。第一个DataNode开始接收数据，一部分一部分的，先写到当地的文件，然后把数据转移到第二个DataNode。第二个DataNode如法炮制。最后，第三个DataNode把数据写入本地文件系统。所以，一个DataNode可以从流水线中前面的DataNode接收数据，同时，把数据转发到流水线中的另外DateNode。

可访问性

应用程序可以用多种方式访问HDFS中的数据。原生的，HDFS提供了文件系统JavaAPI http://hadoop.apache.org/docs/current/api/. C语言的包转也有。而且，HTTP浏览器也可以浏览HDFS中的文件。 WebDAV协议的支持正在构建之中。

FS Shell

HDFS可以让用户数据组织为文件和目录。它提供了一个命令行的接口，叫做FS Shell。用户可以通过FS Shell与HDFS中的数据交互。语法于其他shell 类似。

创建 /foodir bin/hadoop dfs –mkdir /foodir

删除/foodir bin/hadoop dfs –rmr /foodir

看一个文件内容 /foodir/myfile.txt bin/hadoop dfs –cat /foodir/myfile.txt

FS Shell 主要为脚本语言用来与存储的数据交互。

DFSAdmin

DFSAdmin命令主要管理HDFS集群。这些命令是HDFS管理员使用的。

把集群置于安全模式 bin/hadoop dfsadmin –safemode enter

生成DataNode的列表 bin/haddop dfsadmin –report

刷新DataNode bin/haddop dfsadmin –refershNodes ？？？

浏览器接口

通常HDFS会配置一个网络服务器，通过一个TCP端口可以访问HDFS命名空间。用户可以通过浏览器浏览HDFS目录，产看文件内容

空间回收

文件删除和反删除

当用户或者应用删除一个文件时，文件并不会立即从HDFS中删除。而是，先被重命名到/trash目录。只要它还在transh目录，就可以很快恢复。留在该目录中的时间可以配置。时间过了后，NameNode从名字空间中删除。进而跟文件对应的文件块释放。需要注意的是，从一个文件被是用户删除到HDFS系统空间增加会有相当的延迟。

用户可以恢复一个文件，只要它还在/trash目录中。方法是进入/trash 目录，访问文件。Core-site.xml中的fs.trash.interval 参数控制着文件在/trash目录中的时间。

降低副本因子

当副本因子减小的时候，NameNode选择可以删除的多出来的副本。下一次心跳的时候，就把这个信息传递到DataNode。DateNode就删除相对应的文件块。

References

Hadoop JavaDoc API.

HDFS source code: http://hadoop.apache.org/version_control.html