普通最小二乘OLS

https://www.datalearner.com/blog/1051539312290417

在统计学中，普通最小二乘法（OLS）是一种用于在线性回归模型中估计未知参数的线性最小二乘法。 OLS通过最小二乘法原则选择一组解释变量的线性函数的参数：最小化给定数据集中观察到的因变量（被预测变量的值）与预测变量之间残差的平方和。这篇博客将简要描述其参数的求解过程（模型的表示参考：最小二乘法简介）。

我们以一个二元数据为例，假设有一组数据 $X={(x_1,y_1),cdots,(x_m,y_m)}$ ，我们希望求出一条直线，来拟合这一组数据：

$eta_0$

残差平方和：

$sum_{i=0}^m (y_i - x_ieta - eta_0)^2$

我们要求出 $β$ 和 $eta_0$ 使得上述目标函数取得最小值，显然，可以通过对 $β$ 和 $eta_0$ 分别求偏导得到：

$sum_{i=1}^m2(y_i-x_ieta-eta_0)(-x_i) \ \ & = sum_{i=1}^m(-2)(x_iy_i - x_i^2eta - eta_0x_i) \ \ & = 2sum_{i=1}^m(x_i^2eta+eta_0x_i - x_iy_i) \ end{aligned}$

$S(eta)}{partialeta_0} &= sum_{i=1}^m2(y_i-x_ieta-eta_0)(-1) \ \ & = sum_{i=1}^m(-2)(y_i - x_ieta - eta_0) \ \ & = 2sum_{i=1}^m(x_ieta+eta_0 - y_i) \ \ & = 2(meta frac{sum_{i=1}^m(x_i)}{m} + meta_0 - mfrac{sum_{i=1}^my_i}{m}) \ end{aligned}$

令 $frac{sum_{i=1}^m(x_i)}{m}$ ， $ar{y}=frac{sum_{i=1}^my_i}{m}$

那么，上述第二个偏导结果：

$S(eta)}{partialeta_0} = 2 m (eta ar{x} + eta_0 - ar{y})$

令第二个偏导等于0：

$eta_0 - ar{y}) &= 0 \ \ eta_0 = ar{y} - etaar{x} end{aligned}$

令上述第一个偏导结果等于0，并带入上述 $eta_0$ 有：

$0\ \ 2sum_{i=1}^m[x_i^2eta+(ar{y} - etaar{x})x_i - x_iy_i] &= 0 \ \ eta(sum_{i=1}^mx_i^2 - ar{x}sum_{i=1}^mx_i) &= sum_{i=1}^mx_iy_i - ar{y}sum_{i=1}^mx_i \ \ eta &= frac{sum_{i=1}^mx_iy_i - ar{y}sum_{i=1}^mx_i}{sum_{i=1}^mx_i^2 - ar{x}sum_{i=1}^mx_i}\ \ eta &= frac{sum_{i=1}^mx_iy_i - ar{y}sum_{i=1}^mx_i - mar{y}ar{x} + m ar{y}ar{x}}{sum_{i=1}^mx_i^2 - 2ar{x}sum_{i=1}^mx_i+ ar{x}sum_{i=1}^mx_i} \ \ eta &= frac{sum_{i=1}^mx_iy_i - ar{y}sum_{i=1}^mx_i - sum_{i=1}^my_iar{x} + m ar{y}ar{x}}{sum_{i=1}^mx_i^2 - 2ar{x}sum_{i=1}^mx_i+ mar{x}^2} \ \ eta &= frac{sum_{i=1}^m(x_iy_i - ar{y}x_i - y_iar{x} + ar{y}ar{x})}{sum_{i=1}^m(x_i - ar{x})^2} \ \ eta &= frac{sum_{i=1}^m(x_i-ar{x})(y_i - ar{y})}{sum_{i=1}^m(x_i - ar{x})^2} \ end{aligned}$

这样， $β$ 和 $eta_0$ 就可以求出来了。

对于多元形式，则可以运用矩阵运算来求解。如上所述，我们的目标函数是：

$sum_{i=1}^m |y_i - sum_{j=1}^n x_{ij}eta_j|^2 = ||y- old{X} old{eta}^T||^2$

如果要使上述目标函数最小，显然其结果为0，即：

$old{eta}^T = 0$

也就是说：

$old{X}eta^T &= y \ \ old{X}^Told{X}eta^T &= old{X}^Ty \ \ (old{X}^Told{X})^{-1}old{X}^Told{X}eta^T &= (old{X}^Told{X})^{-1}old{X}^Ty \ \ eta^T &= (old{X}^Told{X})^{-1}old{X}^Ty \ end{aligned}$