显存不足造成nan错误

用MMDetection训练过程中,全连接层(Fully Connected Layers,FC)出现nan错误,但是全连接层只是线性组合,而且数值也不大,也没有计算损失函数,怎么可能出现nan错误?

经过研究发现,原来是显存不足造成的,由于显存不足,有些tensor没有了,就造成了nan错误,进行了如下设置:

samples_per_gpu=1,
workers_per_gpu=1,

把1个GPU训练2个samples,改成了1个GPU训练1个sample,这个错误就消失了.

原文地址:https://www.cnblogs.com/mstk/p/14988201.html