排序

PCA主元件分析，主成分分析

FA因子分析

CA对应分析

===========================================

主元件分析，主成分分析

主成分分析(PCA)是一种用于数据的压缩和分类的技术。其目的是通过查找新的变量集(样本)来降低数据集(样本)的维数，这些变量集比原始变量集小，但保留了大多数样本的信息。

我们所说的信息是指由原始变量之间的相关性给出的样本中的变化。新的变量，称为主成分(PC)，是不相关的，并按每个信息保留的总信息的比例排序。

原始数据：

给定n维空间中的m点，对于大n，如何将m点投影到1维空间上？

选择一条适合于数据的线，这样点就会沿着这条线很好地分布。

正式地，最小化与线路的距离平方和

为什么是平方和？因为它允许快速最小化

对于一个数据点和一条通过点(0，0)的直线，最小化距离到这条线的平方和等于最大化这条线上投影的平方和。

=============================================

PCA：一般方法

从K个原始变量

产生k个新变量

是主成分

尽可能多地解释数据集的原始差异

尽可能多地解释剩余的差异

===============================================

图释:

第一主成分，Y1

第二主成分Y2

====================================

特征值：

第一主成分就是，就是第一特征值

第二主成分就是，就是第二特征值

如果矩阵是标准化的，则平均λj=1。

是协方差矩阵的第一特征向量和第一主成分系数

是协方差矩阵的第二特征向量，是第二主成分的系数。

第k个协方差矩阵的特征向量和第k个主要成分的系数

======================================

PCA术语

第j主成分是所有变量的线性组合

系数，ajk，是特征向量的元素，并将原始变量（X）（标准化，如果使用相关矩阵）与分量（y）相关联。

分数是分量（x）上单位的值(使用系数产生)，即系数值与相对应的X变量相乘之后的值。第j个主要部件第i个单位的数值。

按分量计算的方差数按特征值、λ表示。

按分量计算的方差比例由λj/Σλ给出。

因为变量与分量的系数相关性，产生了主成分上K原始变量的加载。

=====================================

原始数据：

PCA处理后每个主成分的系数值

PCA处理后每个主成分的score值：

===========================================

PCA：潜在问题

可以变量间缺乏独立性，因为没有问题

可以缺乏正态，因为正态是可取的，但不是必要的

在任何两个变量之间不单调，应对是使用对应分析，即

数据矩阵中的多个零点，应对是使用对应分析。

==============================================

注意：

主要成分取决于用于测量原始变量的单位以及它们所承担的值的范围。

我们通常在使用PCA之前对数据进行标准化。

=============================================

因子分析FA是一种数据降维工具。--（因子分析就是数据降维）

从一组相关变量中删除冗余或重复，把相关的变量放在一个因子中，实在不相关的因子有可能被删掉。用一组较小的“派生”变量表示相关变量，这个派生就是新的因子。形成彼此相对独立的因素，就是说新的因子彼此之间正交。

两种类型的“变量”：

1.潜在变量，即因素，就是降维后的因素。

2.观测变量，就是拿到的真实变量。

===========================================

因子分析的一些应用分析--（应用：筛选变量）

1.确定基本因素：

A.聚类变量为齐次集

B.创建新变量，就是创造出了因子

C.使我们能够洞察类别

2.变量筛选

A.标识分组，使我们能够选择一个变量来表示多个变量，就是一个因子来表示多个变量。

B.在回归中有用(回忆共线性)，在多元回归中我们删去有共线性的X变量。

3.总结：允许我们使用几个因素来描述许多变量。

4.物体的聚类：帮助我们根据他们的因素分数将对象（人员）放入类别中

===================

数据矩阵----（1.构建数据矩阵，该数据矩阵是相关矩阵，PCA之后变为因子矩阵）

因子分析完全依赖于变量之间的相关性，建立相关矩阵之后

因子分析总结了相关结构。

===================================

选择因素数

直观看，是将X的分量线性相关组成因子后，不相关因子的的数量。

只有当因素数小于X的变量数时才有用(回忆“数据约简”)。即要求因子矩阵为瘦长型表格。

使用“主成分”来帮助决定

因素的数量等于变量的数量

每个因素都是输入变量的加权组合，即score总和：

============================

特征值：

若要选择要使用的因素，请从主成分分析中考虑特征值。

两种解释：

系数等于变量数的特征值

特征值等于方差在数据中的描述因子。

须遵守的规则：

因子数>1

碎石图判断，断崖前一个比后一个表示的强太多。

解释方差比例，选择解释方差最多的前几个。

找好解释的因子

注：特征值之和等于项目数，即特征值数等于系数个数。

===================================

因子分析中的步骤

因素分析通常分四个步骤进行。

计算所有变量的相关矩阵，而PCA用的是特征矩阵
要素提取，仅在此处需要使用PCA
要素轮换
就基本因素的数量作出最后决定

==================================