主成分分析 Principle Component Analysis

 

一、主要思想

利用正交变换把可能线性相关变量表示的观测数据,转换为由少数几个线性无关变量(主成分)表示的数据。(重构原始特征空间;线性降维)

要尽可能保留原始数据中的信息,两个思路:最大投影方差、最小投影距离。

完全的无监督,只需要通过方差来衡量信息量(但也是一种局限性)。各个主成分正交,降维后不同维度特征之间不再有相关性(但失去维度的具体含义)。

 

二、数据矩阵的SVD分解

对样本方差矩阵的特征值分解  等价于  对数据矩阵的SVD分解

也就是说,要用 PCA 降维直接对 HX 做 SVD 分解就行了

 

三、主坐标分析

主成分分析是先找到各主成分方向,再求原数据在主成分方向的坐标(对 P x P 维的样本方差矩阵 S = XTX 特征值分解)

主坐标分析是直接求原数据在主成分方向的坐标(对 N x N 维的 T = XXT 特征值分解,其特征向量就是数据在对应主成分方向上的坐标)

 

四、概率PCA

重构的变量 Z 看作隐变量,从概率角度理解PCA。(属于线性高斯模型)

先把 Z,X | Z,X 的分布搞清楚了(假设 Z 和 ε 服从高斯,令X = WZ + μ + ε,则X|Z,X 都服从高斯分布,通过 MLE 或者 EM 估计参数 W,μ,σ)。

降维就是求P(Z|X),在给定X的情况下找到概率最大的 Z 作为降维的结果。

 

原文地址:https://www.cnblogs.com/chaojunwang-ml/p/11187243.html