hadoop /etc/Hadoop/slaves文件解析【转】

slaves文件里面记录的是集群里所有DataNode的主机名，到底它是怎么作用的呢？slaves文件只作用在NameNode上面，比如我在slaves里面配置了
host1
host2
host3
三台机器，这时候如果突然间新增了一台机器，比如是host4，会发现在NN上host4也自动加入到集群里面了，HDFS的磁盘容量上来了，这下子不是出问题了？假如host4不是集群的机器，是别人的机器，然后配置的时候指向了NN，这时候NN没有做判断岂不是把数据也有可能写到host4上面？这对数据安全性影响很大。所以可以在hdfs-site.xml里面加限制。

dfs.hosts
/home/hadoop-2.0.0-cdh4.5.0/etc/hadoop/slaves
这相当于是一份对于DN的白名单，只有在白名单里面的主机才能被NN识别。配置了这个之后，就能排除阿猫阿狗的DN了。其实slaves文件里不一定要写主机名，最终的都是通过IP来判断，完全可以写一个IP就行。

我还尝试了配置了上面的dfs.hosts项之后，然后在slaves删除一个节点，然后
$ hadoop-daemon.sh stop namenode
$ hadoop-daemon.sh start namenode
这时候NN就拒绝了那个被删除了的DN数据，而NN会自动把DN上丢失的数据重新备份，通过其他的备份来copy，这里是很智能的过程。