[问题] 分类模型泛化能力不好

这个问题在各个领域的分类问题上都会出现，根本上还是数据集的问题。就像是做视频剪辑的人说的，真正做视频的高手会在录制视频时下更多的功夫，而不是在后期处理上，视频质量的好坏很大程度决定于录制视频的手法。类似的，数据集分布过于杂合交错，训练出的模型连在本地测试集上效果都不好；而数据集分布过于单一明了，训练出的模型在实际应用时会有很大的不适应。

目前做的性别分类和年龄估计应用，就出现了泛化能力不好的问题。它们选取的数据集来源于以下几处：男女成人声音来源于广播节目里的对话，特点是背景声明显；小孩声来源于幼儿园实际录制，有噪声小的，也有噪声很大的，没有噪声适中的。以这样的数据集训练出的模型，对专业播音员无噪音环境下录制的声音进行测试，识别效果很差，表明该分类模型的泛化能力不好。但是，一旦加入一定量的数据到训练集，对该无噪音播音声的识别效果就会明显提高，而且对其它测试的识别效果不会降低太多。

所以结论是，遇到测试效果不好的数据，选取一部分该数据加入训练集，会对模型的泛化能力有帮助；然而这一做法的最大问题就是，并不是个elegant的做法，而且不是长久之计。