大数据 week2 Hadoop and HDFS

https://www.cse.unsw.edu.au/~cs9313/20T2/slides/L2.pdf

https://drive.google.com/drive/folders/13_vsxSIEU9TDg1TCjYEwOidh0x3dU6es

第二节课花了40分钟讲,如果dataNode坏掉之后,block丢失的概率,以及每个Block的数量设置为3的科学之处;剩余10分钟讲了HDFS文件的create write read.

1. Block的存储

  1)每个Block设置为3个,分别存放于不同的DataNode中,第一份存放于local DataNode,其他两份存放于不同于第一份的rack中的两个dataNode 这样防止出现电力事故造成的数据丢失。

   2)为什么每个block数量要设置为3

  设有4000个nodes,三百万个blocks,每个Node便有750个blocks,每日丢失一个node

  这些计算好无聊啊 - - 

  

  

   

   

   

   

HDFS独写:

1. write

  1)先向分DFS申请空间,然后DFS向NameNode发出申请

  2)Client经过FSDataOutputStream 开始在Pipeline of datanodes里面写三份

  3)  写完之后 经过FSDataOutputStream关闭,并告诉NameNode 结束

  

  1) 对于一份文件同时只能一个人写

  2)blocks可以同时进行写

  

  

 read:

原文地址:https://www.cnblogs.com/ChevisZhang/p/13132049.html