hadoop学习---hdfs

hdfs默认基本存储单元为64mb，hdfs的块比磁盘的块大得多，是为了减少寻址开销。如块大小是100mb，寻址时间在10ms，传输速率是100mb/s，则寻址时间是传输时间的1%

HDFS适合做：

HDFS不适合做：

实时数据获取。如果有这个需求可以用HBase。
很多小文件。因为namenode要存储HDFS的metadata（比如目录的树状结构，每个文件的文件名、ACL、长度、owner、文件内容存放的位置等等信息），所以HDFS上文件的数目受到namenode内存的限制。
并发环境下的写入和修改。

hdfs的三个重要角色：client，datanode，namenode

namenode相当于hdfs中的管理者，管理文件系统的命名空间。它维护着这个文件系统树以及树内所有的文件和索引目录。它会存储文件系统的metadata在内存中。

NameNode将数据块映射到DataNode，处理来自客户端的读写请求。

datdanode相当于hdfs中的工作者，是文件存储的基本单元。周期性地向namenode报告它所存储的block的列表

client就是获取hdfs文件的应用程序，通过与namenode、datanode交互来访问整个文件系统，client提供一个类似posix（可移植操作系统界面）的文件系统接口，因此用户在编程时不需要知道namenode、datanode及其功能。

（1）文件写入

（2）文件读取

（3）block复制