Hadoop集群datanode死掉或者secondarynamenode进程消失处理办法

当Hadoop集群的某单个节点出现问题时，一般不必重启整个系统，只须重启这个节点，它会自动连入整个集群。

在坏死的节点上输入如下命令即可：

hadoop-daemon.sh start datanode

hadoop-daemon.sh start secondarynamenode

案例如下：

hadoop节点死机，能ping通，ssh连接不上

案例：

时间：2014/9/11 上午

表现：hadoop的web界面上TC-hadoop018节点dead

症状：节点TC-hadoop018的ssh连接不上

解决办法：

通知机房管理员重启机器，

关闭防火墙查看状态：/etc/init.d/iptatbles status 关闭：/etc/init.d/iptables stop

hadoop-daemon.sh stop datanode

hadoop-daemon.sh stop tasktracker

hadoop-daemon.sh start datanode

hadoop-daemon.sh start tasktracker

至此，启动成功

【慎用】必要的时候，查看web界面，如果没有正在运行的job，直接重启整个集群。

Hadoop的secondarynamenode端口50090不通

案例：

时间：2014/9/11 下午

表现：sos2报警提示123.125.244.6_50090端口报警

症状：jps命令123.125.244.6机器上SecondaryNameNode进程没有

解决办法：

hadoop-daemon.sh stop secondarynamenode

hadoop-daemon.sh start secondarynamenode

至此，启动成功