[问题] 分类模型泛化能力不好

这个问题在各个领域的分类问题上都会出现,根本上还是数据集的问题。就像是做视频剪辑的人说的,真正做视频的高手会在录制视频时下更多的功夫,而不是在后期处理上,视频质量的好坏很大程度决定于录制视频的手法。类似的,数据集分布过于杂合交错,训练出的模型连在本地测试集上效果都不好;而数据集分布过于单一明了,训练出的模型在实际应用时会有很大的不适应。

目前做的性别分类和年龄估计应用,就出现了泛化能力不好的问题。它们选取的数据集来源于以下几处:男女成人声音来源于广播节目里的对话,特点是背景声明显;小孩声来源于幼儿园实际录制,有噪声小的,也有噪声很大的,没有噪声适中的。以这样的数据集训练出的模型,对专业播音员无噪音环境下录制的声音进行测试,识别效果很差,表明该分类模型的泛化能力不好。但是,一旦加入一定量的数据到训练集,对该无噪音播音声的识别效果就会明显提高,而且对其它测试的识别效果不会降低太多。

所以结论是,遇到测试效果不好的数据,选取一部分该数据加入训练集,会对模型的泛化能力有帮助;然而这一做法的最大问题就是,并不是个elegant的做法,而且不是长久之计。

原文地址:https://www.cnblogs.com/littletail/p/5305704.html