PCA/FCA

 
      在大二的时候接触PCA和FCA的,当时也是看着别人的操作,在软件中照猫画虎,不知道Why,这多么痛苦呀,有幸接触了一下多元统计的相关资料,才在中找到了证明过程,由于公式在这个里面很难显示,只能用话语说明一下:
      也就是在这个空间中,也不知道在那里,我写过在Spss等统计软件中,一列一变量,一行一样本,这也是统计数据的组织形式,不知道对不对?

主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1 包含的信息越多。因此在所有的线性组合中选取的F1 应该是方差最打的,故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2 即选第二个线性组合,为了有效地反映原来信息,F1 已有的信息就不需要再出现再F2 中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2 为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分。




但是这些表示的数据是经过标准化处理的而不是原始数据/或者称为无量纲化处理过的数据。

    为了或者尽量是信息保存,我们要求我们构造的新的变量能最大表示原来数据的信息,这个变量的方差最大(为什么)

  然后结合求方差和最大值以及拉格朗日定理最终得出了一个在线性代数上所见过的式子,特征值和特征向量那一节的东西Rα i =λiα。

但是Spss中并没有直接给出特征向量,而是给出了一个因子载荷


我们说过特征向量的模等于1,但是我们手动以计算并不是这个,其实这个平方和之后在开方,发现了什么,居然等于特征值,DPS中不是这个样子的,而是给出了特征向量。

  那么怎么得到特征向量呢?



左边的就是Spss中给出的因子载荷,而右边的aij就是相应的特征向量中的一个,因此我们就很容易计算特征向量了。

FCA

有一组古典文学、法语、英语、数学和音乐的测验成绩,从它们的相关性表明存在一个潜在的智力因子(F1)。而另一组变量,表示身体健康的得分,只要有效就可以对应另一个潜在的因子(F2)。记这些变量为(X1,…,Xp). 我要寻求下面这样的结构:





因子分析法的基本思想

  因子分析的基本思想:通过变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数.几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,只得同组内的变量之间相关性较高,但不同组的变量相关性较低。
因子旋转,在实际应用因子分析中出现了难以解释的现象,根本原因是模型同实际数据的矛盾,而其直接原因表现在因子对变量的贡献不明确。于是设想在不改变因子协方差结构的情况下,通过旋转坐标轴来实现这一目的。
因子分析方法的计算步骤:
第一步:将原始数据标准化。
第二步:建立变量的相关系数R。
第三步:求R的特征根极其相应的单位特征向量。
第四步:对因子载荷阵施行最大正交旋转。
第五步:计算因子得分。

特征向量和标准化的数据相乘便得到得分,在Spss中因子得分只不过是一个选项而已,当然我们可以自己自己算,综合因子得分就是由上面的构造,在计算综合因子得分的时候用到了方差贡献率作为权重。注意权重为提取的特征值所占的比例。




Fj=bj1X1+…+ bj5X5 ,
j=1,2








原文地址:https://www.cnblogs.com/zuiyirenjian/p/1488664.html