Hadoop集群datanode死掉或者secondarynamenode进程消失处理办法

当Hadoop集群的某单个节点出现问题时,一般不必重启整个系统,只须重启这个节点,它会自动连入整个集群。 

在坏死的节点上输入如下命令即可:

hadoop-daemon.sh start datanode

hadoop-daemon.sh start secondarynamenode

案例如下:

hadoop节点死机,能ping通,ssh连接不上

案例:

时间:2014/9/11 上午

表现:hadoop的web界面上TC-hadoop018节点dead

症状:节点TC-hadoop018的ssh连接不上

解决办法:

通知机房管理员重启机器,

关闭防火墙 查看状态:/etc/init.d/iptatbles status 关闭:/etc/init.d/iptables stop

hadoop-daemon.sh stop datanode

hadoop-daemon.sh stop tasktracker

hadoop-daemon.sh start datanode

hadoop-daemon.sh start tasktracker

至此,启动成功

【慎用】必要的时候,查看web界面,如果没有正在运行的job,直接重启整个集群。

Hadoop的secondarynamenode端口50090不通

案例:

时间:2014/9/11 下午

表现:sos2报警提示123.125.244.6_50090端口报警

症状:jps命令123.125.244.6机器上SecondaryNameNode进程没有

解决办法:

hadoop-daemon.sh stop secondarynamenode

hadoop-daemon.sh start secondarynamenode

至此,启动成功

原文地址:https://www.cnblogs.com/zhzhang/p/3966368.html