HDFS简介

HDFS概述

　　　　简介:根据Google的GFS的开源实现，Hadoop分布式文件系统，是一个分布式文件存储系统。

优点

　　　1，高容错性：数据自动保存为多个副本，副本丢失后自动恢复，（block元数据信息+心跳），多副本，提供容错机制，副本丢失或宕机自动恢复，默认存3份。

　　　2，适合批处理：移动数据而非移动计算，数据位置暴露给计算框架（Block偏移量）

　　　3，适合大数据处理：GB，TB甚至PB的级别的数据

　　　　　　　　　　　　 HDFS的Block机制适合大数据,HDFS默认会将文件分割成Block，Block默认64M，将Block按键值对存储到HDFS上，并将键值对的映射存储到内存中。小文件太多，NameNode内存压力会大。

　　　　　　　　　　　　百万规模以上的文件数量

　　　　　　　　　　　　10K+节点

　　 4，可构建在廉价机器上：通过多副本提高可靠性，提供了容错和恢复机制

缺点

　　 1 低延迟数据访问：比如毫秒级，低延迟与高吞吐率

　　　 2 小文件存取：占用NameNode大量内存，寻道时间超过读取时间

　　　3 并发写入，文件随机修改：一个文件只能有一个写者，只支持append，如何使用Append实现数据的CRUD？追加+标记+删除更改

版本

　　 HDFS1.0，HDFS1.0:SecondaryNameNode

　　 HDFS2.0，HDFS2.0:主备设计(active/standby)

HDFS存储模型:Block

　　1 文件线性切割成块(Block)：偏移量offset(byte)

　　2 Block分散存储在集群节点中

　　3 单一文件Block大小一致，文件与文件可以不一致

　　4 block可以设置副本数，副本分散在不同的节点中，副本数不要超过节点数

　　5 文件上传可以设置Block大小和副本数

　　6 已经上传的文件Block大小和副本数可以调整，大小不变

　　7 只支持一次写入多次读取，同一时刻只有一个写入者

　　8 可以Append追加数据