HDFS简介

HDFS概述

    简介:根据Google的GFS的开源实现,Hadoop分布式文件系统,是一个分布式文件存储系统。

优点

   1,高容错性:数据自动保存为多个副本,副本丢失后自动恢复,(block元数据信息+心跳),多副本,提供容错机制,副本丢失或宕机自动恢复,默认存3份。

   2,适合批处理:移动数据而非移动计算,数据位置暴露给计算框架(Block偏移量)

   3,适合大数据处理:GB,TB甚至PB的级别的数据

             HDFS的Block机制适合大数据,HDFS默认会将文件分割成Block,Block默认64M,将Block按键值对存储到HDFS上,并将键值对的映射存储到内存中。小文件太多,NameNode内存压力会大。

            百万规模以上的文件数量

            10K+节点

    4,可构建在廉价机器上:通过多副本提高可靠性,提供了容错和恢复机制

缺点

      1 低延迟数据访问:比如毫秒级,低延迟与高吞吐率

    2 小文件存取:占用NameNode大量内存,寻道时间超过读取时间

   3 并发写入,文件随机修改:一个文件只能有一个写者,只支持append,如何使用Append实现数据的CRUD?追加+标记+删除更改

版本

   HDFS1.0,HDFS1.0:SecondaryNameNode

   HDFS2.0,HDFS2.0:主备设计(active/standby)

HDFS存储模型:Block

  1 文件线性切割成块(Block):偏移量offset(byte)

  2 Block分散存储在集群节点中

  3 单一文件Block大小一致,文件与文件可以不一致

  4 block可以设置副本数,副本分散在不同的节点中,副本数不要超过节点数

  5 文件上传可以设置Block大小和副本数

  6 已经上传的文件Block大小和副本数可以调整,大小不变

  7 只支持一次写入多次读取,同一时刻只有一个写入者

  8 可以Append追加数据

  

 

    

            
  

    

原文地址:https://www.cnblogs.com/QuestionsZhang/p/10025601.html