记一次nodemanager无法启动的情况

早上看CDH发现有一个nodemanager挂掉

然后查看对应的日志。发现在日志里面并没有错误。，然然后发现服务器的磁盘满了，赶紧清理磁盘空间

清理磁盘的时候发现主要是/tmp目录下面生成了很多

类似这种的日志。

清理完空间之后重启nodemanager。发现还是启不来

到这里之后发现就停住了。。。。然后CDH页面就挂了nodemanager还是起不来。

继续查看

发现8042端口注册不上。然后继续追述上个日志只要nodemanager启动就会recovering application

所以 find 一下

find /* -name *application application_1560341746674_1515*

发现 /data/yarn/nm/usercache/root/appcache/* 目录下面很多类似的文件，时间为头一天晚上7点过，继续看zabbix监控发现

内存不足，

然后晚上九点过显示磁盘空间不足，解决办法

rm -fr /data/yarn/nm/usercache/*

删除cache之后重启nodemanager正常

并且删除

/var/lib/hadoop-yarn/yarn-nm-recovery/*

问题分析：由于这台机器上跑大任务，导致内存不足，内存不足 yarnnodemanager会一直报警写到 /tmp目录下，产生很多大文件，进而导致磁盘不足，

删除/tmp 下面的日志之后启动node 但是一直起不来，yarn会去cache里面 recovering任务，但是这些任务已经过时导致一直起不来，解决办法就是删除这些cache

详细信息可以参考