记录一次实验室显卡服务器崩溃事件(Ubuntu18.04 server系统,4块NVIDIA的特斯拉显卡)

系统报错(显示屏上的错误):

系统中的日志文件中所有的log文件都没有记录这次崩溃事件。

不过根据屏幕上显示出的报错,大致估计为显卡的问题:

重启后查看显卡地址:

发现报错的显卡是  0号显卡。个人估计就是实验室的很多本科生不太会指定显卡号,所以0号显卡上运行的程序较多,导致冲突,不过这也只是猜测。同时这个问题也可能是显卡的工作模式设置不当等原因产生的,于是将显卡的工作模式调为 Persistence-M (Persistence Mode) ,具体解释看前文:https://www.cnblogs.com/devilmaycry812839668/p/14799016.html  。

如果驱动可以一直加载到系统中,直观感觉应该会减少显卡工作报错的现象,不过这也只是猜测。

=============================================

本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注者,如有侵权请与博主联系。
原文地址:https://www.cnblogs.com/devilmaycry812839668/p/14799092.html