HDFS数据流——写数据流程

假设文件ss.avi共200m，其写入HDFS指定路径/user/atguigu/ss.avi流程如下：

1）客户端向namenode请求上传文件到指定路径，namenode通过元数据（编辑日志edits和镜像文件fsimage）检查目标文件是否已存在，父目录是否存在。（先执行edits，再看fsimage中是否存在）

2）namenode返回是否可以上传。

3）客户端请求第一个 block上传到哪几个datanode服务器上。

4）namenode返回3个datanode节点（根据副本数和节点距离），分别为dn1、dn2、dn3。

5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成

6）dn1、dn2、dn3逐级应答客户端

7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存Bytebuffer），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答

8）当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步请求第二个block）

【注意】一致性模型

写入数据时，DataNode的数据还没写入完成时被其他client读取（该client距离这个DataNode最近），此时数据与其他节点上读取出现不一致

调用如下方法清理客户端缓冲区数据，使数据被其他client立即可见

FsDataOutputStream.hflush();           //清理客户端缓冲区数据，被其他client立即可见

文件上传过程的编辑日志edit过程：

1）OP_ADD：生成文件名.类型名._COPYING_，记录副本数，客户端信息、文件信息……

2）OP_ALLOCATE_BLOCK_ID：分配BlockID（机架感知）

3）OP_SET_GENSTAMP_V2：设置时间戳

4）OP_ADD_BLOCK：添加Block

5）OP_CLOSE：操作结束关闭

6）OP_RENAME_OLD：将文件名改为原文件名.类型名