PCA-1.降维原理

主成分分析(Principal Component Analysis)

  • 一个非监督的机器学习算法
  • 主要用于数据的降维
  • 通过降维,可以发现更易于人类理解的特征
  • 其他应用:可视化,去噪

降维


上图为含有两个特征的样本空间,数据的维度为2,可以忽视一个不明显的特征,保留一个相对差距明显的特征进行降维

显然选择特征1效果好一点
我们也可以选择一条更适合的直线(方差最大),把所有的点映射到这个直线上,来达到降维的目的

方差定义:(Var(x) = frac{1}{m}sum(x_i - ar{x})^2).

第一步:将所有样本的均值归0(demean)

假设某轴(w = (w1,w2)),使得所有的样本映射到(w)上,有:

[Var(X_p) = frac{1}{m}sum_{i=1}^{m}left | X^i_p ight |^2最大 ]

其中(X^i_p)代表映射在此轴的样本
根据向量点乘的定义,又因为(w)是方向向量,膜为1 :

所以: $$left | X^i_p ight | = X^i cdot w$$
目标:求(w),使得:

[Var(X_p) = frac{1}{m}sum_{i=1}^{m}(X^i cdot w)^2 最大 ]

一个目标函数的最优问题,采用梯度上升法

原文地址:https://www.cnblogs.com/shuai-long/p/11220793.html