第四章降维

0 写在前面

所谓的降维就是用一个低维度的向量表示原始高维度的特征。常见的降维方法有主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。

01 PCA最大方差理论

Q1：如何定义主成分？从这种定义出发，如何设计目标函数使得降维达到提取主成分的目的？针对这个目标函数，如何对PCA问题进行求解？

A1：PCA旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。证明过程详见P75-77

02 PCA最小平方误差理论

Q1：PCA求解的其实时最佳投影方向，即一条直线，这与数学中线性回归问题的目标不谋而合，能否从回归的角度定义PCA的目标并相应地求解问题呢？

A1：线性回归问题就是求解一个线性函数使得对应直线能够更好地拟合样本集合。如果从这个角度定义PCA的目标，那么问题就会转化为一个回归问题。证明见P79-81

03 线性判别分析

LDA是目前机器学习、数据挖掘领域中经典热门的一种算法。相比于PCA，LDA可以作为一种有监督的降维算法。在PCA中，算法没有考虑数据的标签（类别），只是把原数据映射到一些方差比较大的方向上而已。

Q1：对于具有类别标签的数据，应当如何设计目标函数使得降维的过程中不损失类别信息？在这种目标下，应当如何进行求解？

A1：LDA首先是为了分类服务的，因此只要找到一个投影方向w，使得投影后的样本尽可能按照原始类别分开。

LDA的中心思想----最大化类间距离和最小化类内距离。由于模型过于简单，表达能力有一定局限性，我们可以通过引入核函数扩展LDA方法以处理分布较为复杂的数据。

04 线性判别分析于主成分分析

Q1：LDA和PCA作为经典的降维算法，如何从应用的角度分析其原理的异同？从数学推导的角度，两种降维算法在目标函数上有何区别与联系？

A1：从目标出发，PCA选择的是投影后数据方差最大的方向，而LDA选择的是投影后类内方差小类间方差大的方向。

　　从应用的角度，可以掌握一个基本的原则-----对无监督的任务使用PCA进行降维，对有监督的则应用LDA。