17标签数据集重新训练过程中遇到的问题及解决方案

问题一:训练好的模型在使用test.py测试时报错:Failed to get convolution algorithm. This is probably because cuDNN failed to initialize

原因分析:根据提示,误认为时cuDNN的问题,各种尝试均失败,最后在网上看到以为大神@史丹利复合田 说可能时GPU内存暂用不足的问题。 nvidia-smi 检测显卡占用后发现并没有问题,估计是内存分配的问题。

解决方案:于是按照大神的建议,给test.py脚本添加了一段让GPU按需分配的代码,亲测问题解决。代码如下

from tensorflow.compat.v1 import ConfigProto
from tensorflow.compat.v1 import InteractiveSession

config = ConfigProto()
config.gpu_options.allow_growth = True
session = InteractiveSession(config=config)

问题二: 使用Ctrl·+Z强制停止训练后,再次训练会报错,提示

Resource exhausted: OOM when allocating tensor of shape.......

原因分析:

显存不足,查看显卡占用情况,发现python仍在占用。

解决方案:

sudo killall -9 python

不断补充ing

原文地址:https://www.cnblogs.com/vincent212212/p/13748568.html