概率主成分分析

前面介绍了主成分分析,概率主成分分析是对主成分分析在概率上的一种推广。概率的引入,为主成分分析带来极大的好处。下面简单介绍概率主成分分析的导出以及和主成分分析的关系。在概率主成分分析里面，假设预测数据x是由一个隐变量z生成的,并且隐变量z以及条件概率p(x|z)均服从高斯分布。

$p(z) = N(z|0, I)$

$p(x|z) = N(x|Wz, \sigma^2I)$

根据高斯分布的性质,x的边缘分布p(x)也服从高斯分布,

$p(x) = N(x|0, WW^T + \sigma^2I)$

因为有了概率,我们可以从全新的角度去理解主成分分析了, 在该模型中,我们有两个参数W和σ,参数可

以用极大似然估计求出。对数似然函数如下,

$ln p(X|W, \sigma) = -\frac{N}{2}(D\ln(2\pi) + \ln|C| + Tr(C^{-1}S))$

其中

$Tr(C^{-1}S)) = \sum_{n=1}^N Tr(C^{-1}u_nu_n^T) = \sum_{n=1}^N Tr(u_n^TC^{-1}u_n) = \sum_{n=1}^N u_n^TC^{-1}u_n$

上面用到了迹的循环不变性的性质。我们忽略具体求解过程,分析一下它的解的形式,

$W_{ML} = U_M(L_M - \sigma^2I)^{1/2}R$

其中 $U_M$ 表示数据协方差矩阵最大的M个特征值所对应的特征向量, $L_M$ 是一个对角矩阵，对角线上的元素对应相应的特征值 , R是一个任意一个正交矩阵,现在可以看作是 $I$ 。

$W_{ML} = U_M(L_M - \sigma^2I)^{1/2}$

对比标准主成分分析的映射关系,

$x = Wz = U_ML_M^{1/2}z$

可以看到二者只相差 $\sigma^2I$ ,标准主成分分析是概率主成分分析σ 为0时的特殊情况。并且我们看到新的伸缩矩阵 $L_0 = (L_M - \sigma^2I)^{1/2}$ 在每个方向上都比原矩阵减小了一个因子 $\sigma^2$ ,概率主成分分析因为噪音的存在,使得伸缩程度变小了。

$\sigma_{ML}^2 = \frac{1}{D-M}\sum_{m=M+1}^D \lambda_m$

在主成分分析中我们用M个主向量去近似的我们的数据,即把其余非主成分向量的数据看作噪音丢掉。上面的式子正好表达了这个观点, 即方差等于其它非主成分空间的方差的平均值,也就是把噪音平均分配到每个方向上。它可以直观给出观测数据在主成分空间上方差的组成成分,一方面来自噪音 $\sigma^2$ ,另一方面来自隐变量空间 $\sigma_0^2 = \lambda - \sigma^2$ 。假设u是我们主成分空间的一个特征向量,那么该方向的方差可以表示为

$&u^TCu = u^T(W^TW + \sigma^2I)u \\= (u^TU_M(L_M - \sigma^2)U_M^Tu) + \sigma^2 \\= (u\sum_{m+1}^M\lambda_mu_mu_m^Tu - \sigma^2) + \sigma^2 = (\lambda - \sigma^2) + \sigma^2 = \lambda$

最后一步正好表达了，主成分向量方差由隐空间的 $\lambda - \sigma^2$ 和噪音 $\sigma^2$ 两部分组成。

1. pattern recognition and machine learning Christopher M.Bishop