hadoop

基于谷歌的论文

GFS ----hdfs

MAP-Reduce

做的实现 Hadoop 解决的问题如何存储及分析

Bigtable ---Hbase(列式数据库) PB级别

具体应用网盘基于 hdfs

一、HDFS优点

高容错性 1.数据自动保存多个副本（随机存放）2.副本丢失后，自动恢复

适合批处理

适合大数据处理 1.GB,TB,PB 2.10K节点 3.百万规模以上的文件数据

二、缺点

不适合小文件例如几M，因为先要寻址占用时间较长

不支持修改内容（因为一个文件有多个副本，文件大小变化，切分规则也会变化）

支持append (生产中一般不用)

元数据信息--NameNode（文件的一些属性信息存在内存中）占用150b左右

数据存放在DataNode（至少三台）

HDFS数据存储单元（block）文件被切分成固定的数据块默认64M

默认每个block默认都有三个副本，block 大小不可更改，个数可以更改

NameNode 只有一个是active

接受客户端的读写服务

元数据信息包括

1.文件的权限信息

2.文件包含哪些BLOCK

3.BLOCK 保存在哪个DataNode

（元数据持久化叫）fsimage 持久化包括1,2

edits记录包括操作日志

SeconddaryNameNode （1.X， 2.x没做高可用的时候有) 主要工作合并fsimage和edits，减少NameNode启动时间

SeconddaryNameNode 只能备份一部分NameNode信息

触发合并

1在配置文件中配置，默认3600秒

2edits 达到64M

启动DataNode时会自动想NameNode汇报block信息

通过向NameNode发送心跳（3秒一次），如果10分钟没有收到，会copy其上的block到其他DN