如何避免维度灾难与过拟合

简而言之，当训练样本数量不变，分类器性能会随着选取的特征维度的增大先增大后减小，也就是说只有在特征维度数量和样本数量稳定在一定范围内，分类器性能才会最优，但目前没有什么固定的方法去计算二者之间的关系。

过拟合就是当训练样本数量不变，分类器性能随着特征维度增大而减小，直观的体现就是测试训练样本分数很高，一旦测试新数据分数就下降。

如何避免维度灾难？

那些对于非线性边界能拟合很好的分类器一般泛化性比较差，而且容易过拟合。所以当使用这些分类器时，特征的数量尽量保持小些（如神经网络、KNN、决策树等）。如果使用一些易泛化的分类器，那么特征数可以用多些（如朴素贝叶斯、线性分类器等）