linux系统空间不足,lsof看到异常的delete状态的文件。

#20191101更新---这篇文章适用于产生僵尸文件的进程是可kill的状态参考,就是这个进程死亡不影响业务，那么另外一种情况，也是我现在管理的项目中生产环境中出现过的情况，产生僵尸文件的进程是webapp应用，不能被kill，kill后，将会影响生产环境业务，但是磁盘也已经满了，那么可以参考此种另一篇文章处理（不影响进程的情况下清理系统空间):

https://www.cnblogs.com/xiaodai12138/p/11102660.html

今天在工作中遇到一个小问题，刚处理好了，赶紧把解决思路存起来。

入职新公司1个月多了，对整体的项目不能说是完全熟悉，今天收到短信说服务器的硬盘空间不足了。

异常的时候忘记截图了，处理完毕后又找不到异常时候的资源占用状态，这是讲系统盘处理完毕后的状态，异常时系统盘占用率高达96%

我发现磁盘空间不足后，刚开始的思路是到/下通过du -sh 来查找大文件，删了几个备份文件和一些没用的日志记录之后，虽然可以将占用降到80%左右，但是还是挺高的（红框是nfs挂载）

除去nfs挂载的文件，其余文件怎么可能将20G占用的所剩无几呢

得知这个方案不可行后，考虑了其他查询方案，看是否有状态为delete的文件

(僵死文件。这些文件实际上已经被删除，但是有服务程序在使用这些文件，导致这些文件一直被占用，无法释放磁盘空间，使用如下命令可以查看死文件占用情况）

lsof |grep deleted //在opt目录下执行lsof |grep deleted

如附件，表红区域为这个僵死文件的大小（单位为字节Bytes）。

当时在这里我可以看到几个很大的文件是delete状态，一下就点通了我。

就在准备kill掉他的时候，又出现一个问题，delete状态的文件最终指向一个端口监听，并且有几十个已建立的连接，我不知道这个端口的作用，通过ps命令看到这个端口的进程id，跟一个项目是有关联的，但是这个项目已经停止使用了，且早就被我shutdown了。

这个端口监听我死活找不到是哪个项目监听的这个端口，由于是项目不是完全熟悉了，不知道这是什么个情况，起初还以为有其他的项目使用着这个项目的配置文件啥的，但是想了想有不太可能，跟之前运维确定了没有过这个端口的使用后，就将其kill了，kill后，系统盘占用立马恢复正常，恢复到了开头的那个状态，这个情况可能是tomcat的某些bug导致，虽然项目停止，但是连接还是建立着，这个项目停止了有几天了，这些已建立的连接还是已建立（难道client端不发送连接断开请求，不关机吗）。。
由于tomcat内部机制并不了解，这个话题就到此结束。

这样起来处理数据盘资源占用就轻松多了

占用数据盘资源的是一个运行中的jar包，这个jar包以nohup形式运行，之前运维没有关闭nohup.out的输出导致出现了这么大的僵死文件。

我的做法是将其kill后再次启动，将结果送到回收站，以后可以避免出现这些问题。

 nohup java -jar SocketServer.jar  >/dev/null 2>&1 &

>/dev/null 表示将标准输出信息重定向到"黑洞"

2>&1 表示将标准错误重定向到标准输出(由于标准输出已经定向到“黑洞”了，即：标准输出此时也是"黑洞"，再将标准错误输出定向到标准输出，相当于错误输出也被定向至“黑洞”)

完后问题解决完毕，磁盘占用恢复正常。