【ML】【转】关于主成分分析的五个问题

http://blog.sina.com.cn/s/blog_66035a700100hupi.html

 

主成分分析是一种多元分析中最常见的降维和赋权方法。然而,在实际的应用中,许多人在没有搞清楚方法的意义时就大胆使用,很有点好分析不求甚解的味道。要知道这样的行为不仅害人而且害己。所谓害人,就是害了阅读你报告的人;所谓害己,就是你会一而再,再而三的犯错。

第一问:为什么要降维?

在实际分析问题时,研究者往往选择很多的指标。这些指标之间经常会存在一定程度的线性相关,这样就会导致信息的重叠。直白说就是用多个指标分析一个 问题,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真。例如衡量学生成绩时,成绩表里有语文、数学、物理、 化学。可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。那么计算总分的时候,如果不把几个化学成绩降维成一个化学成绩,就会由于信息的 重叠导致结果失真。

第二问:线性相关就一定是信息重叠吗?

这个不一定吧。我们举个例子。比如:要衡量经济发展的影响因素,理论上讲,刺激经济发展的三驾马车是投资、消费和出口,那么我们用于衡量经济发展程 度是不是就把这三个指标主成分一下?肯定不是。正确的做法应该是这三个相加,纵然他们之间可能存在相关,甚至是高度相关,也不能使用主成分。因为这种相关 不是信息的重叠。所以这里记住一点,线性相关并不意味着信息重叠。

第三问:降维一定要用主成分吗?

这个答案更容易回答,相信很多人都会说否。但实际中却一直这么操作。因为觉得其他降维方法不会呀,而且主成分貌似很高深,用它倍有面子。其实,实际 中使用主成分是因为从主观上没有办法删减变量,如果主观上就能区别出哪些是核心原因,哪些不是,直接将不是的删了就行了,没必要搞个神秘的主成分来把问题 复杂化。要知道主成分使用时,第一步是标准化,这样一来很多指标的意义就模糊了。这种删减指标的降维方法估计人人都会,可实际中统计专业的达人们却不屑使 用。总觉得用这个方法太没面子了。所以这里再强调点,使用方法是为了有效解决问题。有效才是解决问题的关键,面子屁都不是。

第四问:使用主成分时,相关变量一起上吗?

答案依然为否。在使用主成分前,应该先对指标大致分类,将指标中同一类型或者衡量同一个方面的指标归为一类,这样在分类的基础上进行研究。这里有点 验证性因子分析的意思。别跟我说这样太主观,其实主观比客观有效的多。如果只有客观,软件就可以解决问题,要人干吗?再说,在人类社会中基本没有绝对客观 的东西,所有的客观分析都建立在主观的基础上。高考客观吗?卷子是主观出的。GDP客观吗?指标是主观定的……

第五问:主成分加权很科学吗?

主成分加权是一种广泛采用的客观赋权方法。赋权的依据是各个主成分的方差贡献率。但是方差大权重就应该大吗?重要性的判定应该依据指标的实际意义或者作用,而不应该简单地依靠方差大小来判定吧。所以在没有弄清楚主成分意义的情况下而盲目加权是不是有点太武断了!

作者简介:舍得,一直致力于商业数据分析与挖掘,力求通过深入的数据分析,指导营销管理。用数据说话,说真话,说实话!

原文地址:https://www.cnblogs.com/549294286/p/2842520.html