(转载)SPSS之相关分析与线性回归模型（图文+数据集）

SPSS之相关分析与线性回归模型（图文+数据集）

在讲解线性回归模型之前，先来学习相关分析的知识点，因为相关分析与回归有着密切的联系

§线性趋势

§独立性

§样本量

§根据经验，记录数应当在希望分析的自变量数的20倍以上为宜

§实质上样本量和模型的决定系数有关，可通过迭代的方法进行计算

§正态性

§方差齐性

§如果只是探讨自变量与因变量间的关系，则后两个条件可以适当放宽

备注：由于是连续变量，不可能事先分组描述，分组检验，我们一般做事后残差分析来看检验模型的正态性及方差齐性

线性回归模型分析步骤

1.考察数据的分布，进行必要的预处理。即分析变量的正态性、方差齐等问题

2.进行直线回归分析

3.残差分析

残差间是否独立（Durbin-Watson检验)

残差分布是否为正态（图形或统计量）

如何进行残差分析

图一是正常的残差图

图二残差随着自变量的变大而增大，证明方差不齐，我们可以使用变量转换的方法或者加权最小二乘法（同理随着自变量的变大而减小也是）

图三可能是没有把高次项或者交互项放进模型建模分析

案例

§某专门面向年轻人制作肖像的公司计划在国内再开设几家分店，收集了目前已开设的分店的销售数据(Y，万元)及分店所在城市的16岁以下人数(X1，万人)、人均可支配收入(X2，元)，试进行统计分析。

§实际上拟合的模型如下：（回归里面一般不考虑交互项，想加的话可以作为一个新变量x1*x2加进来）

数据集如下

17.44 6.85 1670
16.44 4.52 1680
24.42 9.13 1820
15.46 4.78 1630
18.16 4.69 1730
20.75 6.61 1820
15.28 4.95 1590
16.32 5.20 1720
14.54 4.89 1660
13.72 3.84 1600
24.19 8.79 1830
19.11 7.28 1710
23.20 8.84 1740
14.53 4.29 1580
16.11 5.25 1780
20.97 8.57 1840
14.64 4.13 1650
14.40 5.17 1630
23.26 8.96 1810
22.41 8.27 1910
16.65 5.23 1600

首先作所有自变量---因变量散点图

作散点图作用有三个：

1.观察有无趋势

2.是否是线性趋势

3.有无强离群点

图形----图表构建程序

选择散点图

发现销售收入--年轻人数有线性趋势，无强离群点

同理销售收入--人均可支配收入有线性趋势，可能有离群点，我们最后结合残差分析

建模（分析----回归---线性）

结果解读

决定系数R2（无限接近于1越好，简单来说衡量模型可用性与模型信息量的表达）

相应的相关系数的平方，用R2表示，它反映因变量y的全部变异中能够通过回归关系被自变量解释的比例

看sig.，加入sig.<0.05证明用这些因变量来预测是有价值的，但是具体哪一个变量有价值，要结合下面这张表格来看

年轻人人数、人均可支配收入sig.<0.05，证明都有意义，B就是回归模型的偏回归系数，标准系数就是偏回归系数消除量纲影响进行标准化

所以我们回归的方程为

y=-6.886+1.455*x1+0.009*x2

残差分析

检验残差之间的独立性（Durbin-Watson检验）

分析--回归--线性--统计量

在结果的

一般Durbin-Watson取值在[0,4]

当Durbin-Watson为2时残差完全独立

当1<=Durbin-Watson<=3时，没有什么大问题

当Durbin-Watson<1 或者Durbin-Watson>3就有问题了

残差分布是否为正态（图形或统计量）

作标准化残差图

正态性，由于样本量少，就不强求其正态分布了

P-P图也是检验其正态性的，数据要靠近那条线越好

最重要是这张图形，标准化残差图，我们可以从这图看数据有无极端值，一般在[-3,3]以没什么大问题

还有查看变量之间的相关性以及多重共线性

多重共线性（VIF>10或者条件索引>100就可能存在多重共线性）

所以分析到这里，这个案列就完成了

逐步回归

由于刚才那个案例两个自变量是我们定死的，一定要扔进去建模的，但是正常会有很多自变量，需要我们做变量的挑选

逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

多变量的筛选策略较稳妥的方式

单自变量回归模型，筛掉那些显然无关联的候选变量
尝试建立多自变量模型，可手动、也可利用自动筛选方法，但使用后者时要谨慎
多自变量和单自变量模型结果相矛盾时，以前者为准
结果不符合专业知识时，尽量寻找原因

案例：固体垃圾排放量与土地种类的关系

本例来自Golueke and McGauhey 1970年对美国40个城市的固体垃圾排放量(吨)的调查资料，所关心的问题是不同种类土地使用面积（单位，英亩）与固体垃圾排放量之间的关系。可能的影响因素有：indust（工业区土地面积的大小）、metals（金属制造企业用地面积）、trucks（运输及批发商业用地面积）、retail（零售业用地面积）、restrnts（餐馆与宾馆用地面积）。试作逐步回归分析。

数据集如下

102.0 69.0 133.0 125.0 36.0 0.3574
 
1220.0 723.0 2616.0 953.0 132.0 1.9673
 
139.0 138.0 46.0 35.0 6.0 0.1862
 
221.0 637.0 153.0 115.0 16.0 0.3816
 
12.0 0.0 1.0 9.0 1.0 0.1512
 
1.0 50.0 3.0 25.0 2.0 0.1449
 
1046.0 127.0 313.0 392.0 56.0 0.4711
 
2032.0 44.0 409.0 540.0 98.0 0.6512
 
895.0 54.0 168.0 117.0 32.0 0.6624
 
0.0 0.0 2.0 0.0 1.0 0.3457
 
25.0 2.0 24.0 78.0 15.0 0.3355
 
97.0 12.0 91.0 135.0 24.0 0.3982
 
1.0 0.0 15.0 46.0 11.0 0.2044
 
4.0 1.0 18.0 23.0 8.0 0.2969
 
42.0 4.0 78.0 41.0 61.0 1.1515
 
87.0 162.0 599.0 11.0 3.0 0.5609
 
2.0 0.0 26.0 24.0 6.0 0.1104
 
2.0 9.0 29.0 11.0 2.0 0.0863
 
48.0 18.0 101.0 25.0 4.0 0.1952
 
131.0 126.0 387.0 6.0 0.0 0.1688
 
4.0 0.0 103.0 49.0 9.0 0.0786
 
1.0 4.0 46.0 16.0 2.0 0.0955
 
0.0 0.0 468.0 56.0 2.0 0.0486
 
7.0 0.0 52.0 37.0 5.0 0.0867
 
5.0 1.0 6.0 95.0 11.0 0.1403
 
174.0 113.0 285.0 69.0 18.0 0.3786
 
0.0 0.0 6.0 35.0 4.0 0.0761
 
233.0 153.0 682.0 404.0 85.0 0.8927
 
155.0 56.0 94.0 75.0 17.0 0.3621
 
120.0 74.0 55.0 120.0 8.0 0.1758
 
8983.0 37.0 236.0 77.0 38.0 0.2699
 
59.0 54.0 138.0 55.0 11.0 0.2762
 
72.0 112.0 169.0 228.0 39.0 0.324
 
571.0 78.0 25.0 162.0 43.0 0.3737
 
853.0 1002.0 1017.0 418.0 57.0 0.9114
 
5.0 0.0 17.0 14.0 13.0 0.2594
 
11.0 34.0 3.0 20.0 4.0 0.4284
 
258.0 1.0 33.0 48.0 13.0 0.1905
 
69.0 14.0 126.0 108.0 20.0 0.2341
 
4790.0 2046.0 3719.0 31.0 7.0 0.7759