机器学习十讲——第八讲学习总结

维度灾难:随着维度(如特征或自由度)的增多,问题的复杂性(或计算算代价)呈指数级增长的现象。

高维空间的反直觉示例:单位球体积:

一维,二维,三维的 长度/面积/体积 都有公式计算,而高维的计算公式是这样的:

d维空间半径为r的球体体积公式:

单位球体积维度之间的关系图示:

在高维空间中,球体内部的体积与表面积处的体积相比可以忽略不计,大部分体积都是分布在边界的:

高维空间中的欧式距离:d维空间样本x1和x2的欧式距离为:

随着维数增加,单个维度对距离的影响越来越小,任意样本间的距离趋于相同:

由于距离在高维空间中不再有效,因此一些基于距离的机器学习模型就会收到影响。

基于距离的机器学习模型:K近邻(样本间距离),支持向量机(样本到决策面距离),K-Means(样本到聚类中心距离),层次聚类(不同簇之间的距离),推荐系统(商品或用户相似度),信息检索(查询和文档之前的相似度)。

稀疏性与过度拟合:

过度拟合:模型对已知数据拟合较好,新的数据拟合较差。极端例子:训练集准确率越来越高,而使用测试集测试模型准确率依然维持在0.5左右。

稀疏性:高维空间中样本变得极度稀疏,容易会造成过度拟合问题。

Hughes现象:随着维度增大,分类器性能不断提升直到达到最佳维度,继续增加维度分类器性能会下降。

高维空间计算复杂度指数增长,因此只能近似求解,得到局部最优解而非全局最优解。

举例——决策树:选择切分点对空间进行划分。每个特征m个取值,候选划分数量m^d(维度灾难)

举例——朴素贝叶斯:

应对维度灾难:特征选择和降维

特征选择:选取特征子集。

降维:使用一定变换,将高维数据转换为低维数据,PCA,流形学习,t-SNE等。

正则化:减少泛化误差而不是训练误差

核技巧:

判断机器学习模型是否存在维度灾难问题:

不存在维度灾难问题的模型:随机特征模型,两层神经网络,残差神经网络等

原文地址:https://www.cnblogs.com/Aming-/p/14941419.html