pca(主成分分析)

pca主成分分析:

可以把高纬度数据在损失最小的情况下转化为低维度数据。显然,PCA可以对数据进行压缩,可以在可控的失真范围内提高运算速度。

PCA主要参数:

n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目
whiten :判断是否进行白化,就是对降维后的数据的每个特征进行归一化
svd_solver:即指定奇异值分解SVD的方法

常用方法:

输出方差比:每个主成分占数据的百分比

随着你添加越来越多的主成分作为训练分类器的特征,你认为它的性能会更高还是更低?

 更好。因为更多的特征可以使我们对数据更加了解,从而提高分类器的性能。

PCA注意:

  1. 压缩数据,主成份一般在90%,95%和99%几档,根据实际需要选取
  2. 加速模型建模,缩短时间(PCA处理后,建模,需要保留转换向量P,并用P处理预测数据)
  3. 可视化,如果前两个或三个数据可以表示90%以上的成分,那么可以进行可视化
  4. PCA处理数据之前需要确保每个列的均值为0(mean normalization),同时需要确保量纲相同(scaling),否则数值较大的几个变量会占据主要成分。
  5. 不要将PCA作为解决过拟合的方法,虽然使用PCA后,确实可以减少过拟合,但是原因可能是feature减少了。采用regulations缓解过拟合。
  6. 设计ML系统时,不要一开始就期望使用PCA,提高模型性能。只有当所有非PCA方法无法达到效果时,在使用PCA。PCA处理数据时没有考虑到y,会损失部分有价值信息
  7. pca的主成分分析出来后,应用于训练集和测试集。而不是多次进行主成分分析。
原文地址:https://www.cnblogs.com/HL-blog/p/8961623.html