机器突然宕机导致hdfs启动一直超时的行为

今天手里其中一个集群几个机器突然宕机，启动hdfs一直超时。

clouder-scm-agent主要报了这个错RROR: Unexpected error 'getpwuid(): uid not found: 1001'

看了挺久发现这个机器可能权限可能有问题，修改了cloudera-scm和其他正常机器一样，还是启动不起来，中间也测试修改了host等动作都不行

于是改变思路，把这个机器解除授权从集群中删除又添加进来（还好是测试机器，就采用这个动作，按理hdfs也不受影响才对）

重新添加后，不报超时错误，启动hdfs角色 hdfs log报了目录权限错误

[root@slave1 dfs]# chown -R hdfs:hadoop dn 第一个是DN目录也就是hdfs的linux实体存储路径。权限被改成了flume用户。于是调整过来

[root@slave1 run]# chown -R hdfs:hadoop hdfs-sockets 第二个是hdfs的socket目录也是同样被改成了flume用户。也调整过来

启动hdfs正常

思路：用户权限问题这类有时候会突然发生砸linux机器挂了的时候。这时候启动后可以试着和其他机器进行对比然后再解决。机器解除授权再加入也是个办法