HDFS相关内容

HDFS定义：是一个文件系统，用于存储文件、通过目录树来定位文件，其次，他是分布式得，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS主要使用场景：一次写入，多次读取。一个文件经过创建、写入和关闭之后就不需要改变。

HDFS特性：

hdfs是一个分布式的文件系统，用于存储文件，通过统一的命名空间目录树来定位文件;
采用 master/slave（主从）架构。有一个 namenode 和多个 datanode 组成，各司其职;
分块存储，默认大小在Hadoop2.x版本中是128M；
namenode 元数据管理，负责维护整个hdfs文件系统的目录树结构，以及每个文件所对应的 block 块信息（block 的 id，及所在的 datanode 服务器）。
DataNode 数据存储文件的 block 具体存储由 datanode承担，datanode 定时向 namenode 汇报自己持有的 block 信息
副本机制，为了容错，文件的所有block 都会有副本
HDFS 的设计为适应一次写入，多次读取，且不支持文件的修改。

HDFS优点：

(1) 高容错性

1) 数据自动保存多个副本。它通过增加副本的形式，提高容错性。

2) 某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。

(2) 适合批处理

1) 它是通过移动计算而不是移动数据。

2) 它会把数据位置暴露给计算框架。

(3) 适合大数据处理

1) 数据规模：能够处理数据规模达到 GB、TB、甚至PB级别的数据。

2) 文件规模：能够处理百万规模以上的文件数量，数量相当之大。

3) 节点规模：能够处理10K节点的规模。

(4) 流式数据访问

1) 一次写入，多次读取，不能修改，只能追加。

2) 它能保证数据的一致性。

(5) 可构建在廉价机器上

1) 它通过多副本机制，提高可靠性。

2) 它提供了容错和恢复机制。比如某一个副本丢失，可以通过其它副本来恢复。

2、 HDFS 缺点：

(1) 不适合低延时数据访问；

1) 比如毫秒级的来存储数据，这是不行的，它做不到。

2) 它适合高吞吐率的场景，就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的，比如毫秒级以内读取数据，这样它是很难做到的。

改进策略

(2) 无法高效的对大量小文件进行存储

1) 存储大量小文件的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。

2) 小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。改进策略

(3) 并发写入、文件随机修改

1) 一个文件只能有一个写，不允许多个线程同时写。

2) 仅支持数据 append（追加），不支持文件的随机修改。