一个主成分回归中隐藏的思维陷阱
最近在对某些经济数据应用主成分回归时遇到一件怪事:变量 (X_1)、(X_2) 和 (X_3) 做 (Y) 的解释变量,回归系数是显著的,提取 (X_1)、(X_2) 和 (X_3) 的首个主成分 (P_1),(P_1) 做 (Y) 的解释变量却是不显著的,咄咄怪事。
事后想明白了,这其实是应用主成分回归的过程中隐藏的一个思维陷阱。
应用主成分回归的常规流程
- 根据业务知识或者回归分析找到因变量 (Y) 的若干解释变量 (X_1,X_2, dots)
- 提取解释变量排名靠前的少数主成分 (P_1,P_2,dots)
- 用 (P_1,P_2,dots) 做解释变量,对 (Y) 应用回归分析
上述三步便是应用主成分回归的常规流程,但是其中隐藏里一个思维陷阱,即 (Y) 必然可以和排名靠前的少数主成分建立起回归关系,这其实是一个先入为主的错误观念。
事实上,(Y) 可能只能和排名靠后的主成分建立起回归关系。
构造一个例子
(P_1)、(P_2) 和 (P_3) 是三个独立的随机变量,方差依次降低。(X_1)、(X_2) 和 (X_3) 均是 (P_1)、(P_2) 和 (P_3) 的线性组合:
[egin{bmatrix}
X_1\
X_2\
X_3
end{bmatrix}
= A imes
egin{bmatrix}
P_1\
P_2\
P_3
end{bmatrix}
]
其中 (A) 是可逆的矩阵。
如果对 (X_1)、(X_2) 和 (X_3) 做主成分分析的话,得到的主成分就是 (P_1)、(P_2) 和 (P_3)。
如果 (Y = P_3 + varepsilon),(varepsilon) 和 (P_1)、(P_2) 和 (P_3) 独立。很显然,(X_1)、(X_2) 和 (X_3) 和 (Y) 可以建立起回归关系,但是 (Y) 和第一个主成分 (P_1) 是不存在任何关系的。
应对办法
为了避免跌落陷阱,对提取出来的所有主成分做“逐步回归”可能是一个不错的办法,由于主成分之间的正交性,逐步回归的结果应该会非常稳健。