机器突然宕机导致hdfs启动一直超时的行为

今天手里其中一个集群几个机器突然宕机,启动hdfs一直超时。

clouder-scm-agent主要报了这个错RROR: Unexpected error 'getpwuid(): uid not found: 1001'

看了挺久发现这个机器可能权限可能有问题,修改了cloudera-scm和其他正常机器一样,还是启动不起来,中间也测试修改了host等动作都不行

于是改变思路,把这个机器解除授权从集群中删除又添加进来(还好是测试机器,就采用这个动作,按理hdfs也不受影响才对)

重新添加后,不报超时错误,启动hdfs角色 hdfs log报了目录权限错误

[root@slave1 dfs]#  chown -R hdfs:hadoop dn 第一个是DN目录也就是hdfs的linux实体存储路径。权限被改成了flume用户。于是调整过来

[root@slave1 run]#  chown -R hdfs:hadoop hdfs-sockets 第二个是hdfs的socket目录也是同样被改成了flume用户。也调整过来

启动hdfs正常

思路:用户权限问题这类有时候会突然发生砸linux机器挂了的时候。这时候启动后可以试着和其他机器进行对比然后再解决。机器解除授权再加入也是个办法

原文地址:https://www.cnblogs.com/yaohaitao/p/11667906.html