多重共线性

多重共线性的概念:模型解释变量之间存在完全线性相关或不完全线性相关关系


产生的原因:
(1)特征变量之间的内在联系
(2)特征变量在时间上有同方向变动的趋势
(3)某些变量的滞后


检验的方法:
(1)相关性分析
(2) 方差膨胀因子
​方差膨胀因子(Variance Inflation Factor,VIF):容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0<VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性
(3)条件系数检验

带来的影响:
(1)ols估计量的方差增大
(2)难以区分每个解释变量的单独影响
解释变量之间的相关性,无法‘保证其它变量不变’
(3)变量的显著性检验失去意义
在多重共线性的影响下,系数估计标准差的增大将导致t统计量值的减小,是原来显著的t值变成不显著的,容易将重要的解释变量误认为是不显著的变量。
(4)回归模型缺乏稳定性
不同样本对模型的影响较大,若出现不合理的系数,首先考虑是否存在多重共线性

处理方法:
(1)删除不重要的自变量
偏相关系数检验证实为共线性原因的那些变量中删除.。
(2)追加样本信息
多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。
(3)利用非样本先验信息
(4)改变解释变量的心酸
改变解释变量的形式是解决多重共线性的一种简易方法,例如对于横截面数据采用相对数变量,对于时间序列数据采用增量型变量。
(5)逐步回归法(有效,常用)
逐步回归(Stepwise Regression)是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。
第一:建立全部变量的回归方程
第二:分别建立单独的回归方程,依照t检验和拟合度依次加入各变量来构建回归方程
第三:判断新引入的变量,对于之前的系数影响是否显著,是否符合实际以及对于拟合度的变量,来选择是否将变量引入模型中。
(6)主成分回归
主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间。当采取主成分提取了新的变量后,往往这些变量间的组内差异小而组间差异大,起到了消除共线性的问题。

原文地址:https://www.cnblogs.com/wymlnn/p/4571932.html