回归分析

2017/6/23 19:03:33

一、概述

回归分析统计方法研究变量之间的关系并对其构建模型。回归的应用领域广泛，几乎遍及所有学科。

在几乎所有的回归领域中，回归方程只是实际函数关系的逼近。实际的函数关系通常以人们对理论中潜在机理的了解为基础产生的，这类模型称之为机理模型。而回归分析却不同，人们将其视为经验模型。

(一) 由来

英国统计学家 F.Galton 和他的学生 K.Pearson 在研究父母身高与其子女身高的遗传问题时，将每对夫妇的平均身高作为 x（单位：英寸），而取他们的一个成年儿子的身高作为 y，将结果在平面直角坐标系上绘成散点图，发现趋势近乎一条直线。计算出的回归直线方程为

$hat{y}=33.73+0.516x$

Galton 引入了“回归”这个名词来描述父辈身高 x 和子代身高 y 的关系。

从 1809 年，Guass 提出最小二乘法算起，回归分析的历史已有二百年，它所研究的内容已十分丰富，主要包括

线性回归
回归诊断
回归变量的选择
参数估计方法的改进
非线性回归
含有定性变量的回归
非参数回归

(二) 回归模型的一般形式

如果变量 $x_1,x_2,cdots,x_p$ 与随机变量 y 之间存在相对关系，通常意味着每当 $x_1,x_2,cdots,x_p$ 取定值之后，y 便有相应的概率分布与之对应，即

$y=f(x_1,x_2,cdots,x_p)+varepsilon$

其中，随机变量 y 称为被解释变量（因变量）， $x_1,x_2,cdots,x_p$ 称为解释变量（自变量），ε 为随机误差， $f(x_1,x_2,cdots,x_p)$ 为一般变量 $x_1,x_2,cdots,x_p$ 的确定性关系。当 $f(x_1,x_2,cdots,x_p)=eta_0+eta_1x_1+cdots+eta_px_p$ 时候，我们称之为“线性回归”。

(三) 模型适用性检验

回归分析的下一阶段称为模型适用性检验。模型适用性检验研究模型的适当程度，确定拟合质量的高低。模型适用性检验有两种可能的结果，要么表明模型是合理的，要么表明我们必须修正原来的拟合方案。因此，回归分析是一个反复的过程。

二、一元线性回归

(一) 数学形式

考虑以下式子

$y=eta_0+eta_1x+varepsilon$

假定 $varepsilon sim N(0,sigma^2)$ ，那么有

$E(y)=eta_0+eta_1x$

我们称上式为回归方程。

回归分析的主要任务就是通过 n 组观测值 $(x_i,y_i),i=1,2,cdots,n$ 对 $eta_0,eta_1$ 进行估计。一般使用 $hat{eta_0},hat{eta_1}$ 分别表示 $eta_0,eta_1$ 的估计值，则称

$hat{y}=hat{eta_0}+hat{eta_1}x$

为 y 关于 x 的一元经验回归方程。

(二) 回归参数 $eta_0,eta_1$ 的估计

下面使用普通最小二乘估计（ordinary least squares estimate, OLSE），进行参数估计。

设 $hat{y_i}$ 为 $y_i$ 的估计（ $hat{y_i}=hat{eta_0}+hat{eta_1}x_i$ ），称

$e_i=y_i-hat{y_i}$

为 $y_i$ 的残差。残差刻画了在一个样本点上估计值与实际值的偏差，而残差平方和 Q

$Q=sum_{i=1}^n e_i^2=sum_{i=1}^n (y_i-{eta_0}-hat{eta_1}x_i)^2$

则是从整体上刻画 n 个样本观测点到回归直线距离的 $hat{y}=hat{eta_0}+hat{eta_1}x$ 大小。

使得残差平方和 Q值最小的那一组 $eta_0,eta_1$ 便是回归参数 $eta_0,eta_1$ 的最小二乘估计，即

$hat{eta_0},hat{eta_1}=mathop{argmin}_{eta_0,eta_1} Q(eta_0,eta_1)$

根据微积分中求极值的原理， $hat{eta_0},hat{eta_1}$ 应满足下列方程组

$egin{cases} frac{partial{Q}}{partial{eta_0}}|_{eta_0=hat{eta_0},eta_1=hat{eta_1}}=0\ \ frac{partial{Q}}{partial{eta_1}}|_{eta_0=hat{eta_0},eta_1=hat{eta_1}}=0\ end{cases}$

解得

$egin{cases} hat{eta_0}=ar{y}-hat{eta_1}ar{x}\ \ hat{eta_1}=frac{sum_{i=1}^{n}(x_i-ar{x})(y_i-ar{y})}{sum_{i=1}^{n}(x_i-ar{x})^2}\ end{cases}$

其中， $ar{x}=frac{1}{n}x_i,ar{y}=frac{1}{n}y_i$ 。

(三) 斜率和截距的假设检验

由于误差 $varepsilon sim N(0,sigma^2)$ ...

三、多元线性回归

$y_i=eta_0+eta_1x_1+cdots+eta_kx_k+varepsilon_i$

对于上面的式子，我们假设

$extbf{y}=egin{bmatrix}y_1\y_2\vdots\y_nend{bmatrix}, extbf{X}=egin{bmatrix}1&x_{11}&x_{12}&cdots&x_{1k}\ 1&x_{21}&x_{22}&cdots&x_{2k}\ vdots&vdots&vdots&&vdots\ 1&x_{n1}&x_{n2}&cdots&x_{nk}end{bmatrix}, oldsymbol{eta}=egin{bmatrix}eta_0\eta_1\vdots\eta_kend{bmatrix}, oldsymbol{varepsilon}=egin{bmatrix}varepsilon_1\varepsilon_2\vdots\varepsilon_nend{bmatrix}$

于是，我们得到

$extbf{y}= extbf{X}oldsymbol{eta}+oldsymbol{varepsilon}$

残差平方和 Q

$Q=oldsymbol{varepsilon^Tvarepsilon=(y-Xeta)^T(y-Xeta)=y^Ty-2eta^TX^Ty-eta^TX^TXeta}$

最小二乘估计量必须满足

$frac{partial{Q}}{partial{oldsymbol{eta}}}|_{eta=hat{eta}}=oldsymbol{-2X^Ty+2X^TXhat{eta}}=0$

得

$oldsymbol{hat{eta}=(X^TX)^{-1}X^Ty}$

...(未完)

参考文献

[1] 何晓群，闵素芹. 实用回归分析（第二版）. 高等教育出版社. 2014
[2] 道格拉斯 C.蒙哥马利等. 线性回归分析导论[M]. 王辰勇译. 机械工业出版社. 2016.