最小一乘回归

最小一乘回归

背景

我们都非常熟悉传统的最小二乘回归,但是最小二乘回归容易受到个别极端值的影响,设想一下不带变量的情形下的最小二乘回归,即

[operatorname{argmin}_{eta}sum_{i=1}^n(y_i-eta)^2 ]

容易知道这时的最小二乘估计(hat{eta}=ar{y})

假设我们的数据为(1,2,3,4,5)代表着班上某5个同学的零花钱,则我们的估计值是(3),但如果这时候第5个同学的数据没收集到,收集到的是另外一个土豪同学的数据,他的零花钱是100,则我们的数据为(1,2,3,4,100),此时估计值就成了(22),也就是说这时候我们对班上其他同学的零花钱估计为(22),但事实上可能这个班除了这个土豪同学有高达100的零花钱外,其他同学零花钱都很少,此时我们这个估计就显得不靠谱了。这种现象在统计学中叫做不稳健(not robust)。设想还是上述例子,但如果我们采用中位数做估计,那么其实两次的估计都是(3),这时候是不是好很多了,一定程度上抵御了某些个别的极端值对估计的影响。

正是基于这样的思想,人们提出了最小一乘回归,即

[operatorname{argmin}_{eta_0,cdots,eta_p}sum_{i=1}^{n}|y_{i}-eta_0-sum_{i=1}^{p}eta_{i} x_{i}| ]

如果考虑不带变量的情形下的最小一乘回归,即

[operatorname{argmin}_{eta}sum_{i=1}^n|y_i-eta| ]

则容易知道这时的最小二乘估计(hat{eta}=operatorname{med}_i{{y_i}}),即数据的中位数

最小一乘回归的求解

  1. 对变量个数多时,转化为线性规划问题,容易验证原始最小一乘回归优化问题,等价于如下的线性规划

    [egin{align*}&operatorname{argmin}_{eta_0,cdots,eta_p}sum_{i=1}^{n}d_i^++d_i^-\& ext{s.t} y_{i}-eta_0-sum_{i=1}^{p}eta_{i} x_{i}-(d_i^+-d_i^-)=0 i=1,cdots,nend{align*} ]

  2. 对变量个数少时,可以采用另外一种办法,可以参看文献1,2,3

参考文献

  1. 陈希孺. 最小一乘线性回归(上)[J]. 数理统计与管理, 1989(05):48-55.
  2. 陈希孺. 最小一乘线性回归(下)[J]. 数理统计与管理, 1989(05):48-55.
  3. 李仲来. 最小一乘法介绍[J]. 数学通报, 1992(02).
原文地址:https://www.cnblogs.com/sanmujun/p/12688349.html