服务器上运行程序Out of memory 解决办法

 ****** 服务器上跑过程序经常能遇到out of memory 这个问题,下面是我经常在实验室碰到的解决方法。

1.使用命令nvidia-smi,看到GPU显存被占满:

2.尝试使用 ps aux|grep PID命令查看占用GPU内存的线程的使用情况。如下

解决办法:

1.根据以上操作即可确认同与你使用一台服务器的其他人是谁在占用GPU。与对方沟通后如果程序已经跑完但是仍在占用显存可KILL掉该进程。

***因服务器资源有限,大家在使用过程中及时互相沟通,保证机器利用效率。

2.多GPU的服务器在程序训练EPOCH 较多的时候应该指定GPU_DEVICE,不要占用全部资源。

3.使用jupyter的同学在程序结束后应当及时在RUNNING界面将程序shutdown,否则该程序还会一直占用资源。(如下)


 

原文地址:https://www.cnblogs.com/E-Dreamer-Blogs/p/10507015.html