HDFS架构概述

1、概念
HDFS,它是一个文件系统(window电脑磁盘是NTFS),用于存储文件,通过目录树来定位,其次它是分布式的,由很多服务器联合起来实现其功能,由很多服务器联合起来实现其功能
HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过namenode申请来进行的
HDFS的设计是个一次写入,多次读写的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用(因为不方便进行修改,延迟大,网络开销大,成本较高)
HDFS文件块的默认大小在2.x版本中是128M,老版本是64M,如果文件过大则分成若干块,每一个文件块都有自己的id方便查找分析

2、组成
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等,可以理解为目录
2)DataNode(dn):在本地文件系统存储文件块数据,负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本,以及块数据的校验(判断数据是否有损坏)
3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
热备份:b是a的热备份,如果a坏掉,那么b马上运行代替a的工作
冷备份:b是a的冷备份,如果a坏掉,那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失

原文地址:https://www.cnblogs.com/danyuzhu11/p/15711282.html