机器学习笔记—局部权重线性回归

看下面三幅图，x 轴是房间面积，y 轴是房价。

左图是 y = θ₀ + θ₁x 拟合数据集的结果。可以看到数据并不贴靠在直线上，所以拟合并不好。

中图是 y = θ₀ + θ₁x + θ₂x² 拟合数据集的结果，拟合得还不错。

右图是 y = θ₀ + θ₁x + θ₂x² + θ₃x³ + θ₄x⁴ + θ₅x⁵拟合数据集的结果，虽然曲线跟数据拟合得极好，但我们这是一个好的预测。

左图被称为欠拟合，数据并没有被模型捕获。右图被称为过拟合。

由以上例子可见，特征的选择对于保证学习算法好的性能是很重要的。当我们讲到模型选择时，会看到自动选择特征集合的算法。

这次我们先讲局部权重线性回归算法，使得特征的选择没那么重要，怎么做到的呢？请往下看。

在原始的线性回归算法中，要在 x 点做一个预测，我们会执行：

1、变动 θ 以最小化 ∑_i(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²

2、输出 θ^TX

在局部权重线性回归算法中，做法稍有不同：

1、变动 θ 以最小化 ∑_iw⁽ⁱ⁾(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²

2、输出 θ^TX

多了个 w⁽ⁱ⁾，是做什么用的呢？

w⁽ⁱ⁾是非负值的权重，直观上看，当 w⁽ⁱ⁾ 很大时，那么在选择 θ 时，我们会尽量使 x⁽ⁱ⁾点的值 (y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²小，也就是更加重视 x⁽ⁱ⁾点的预测准确度，当 w⁽ⁱ⁾ 很小时，那么 x⁽ⁱ⁾点的准确度我们就不那么在乎， (y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²的误差大也无所谓，也可以说不在乎 x⁽ⁱ⁾点。

权重通常定义为：

可以看到权重大小决定于我们要评估的 x 点的位置，当 x⁽ⁱ⁾ 离 x 点很近，即 |x⁽ⁱ⁾-x| 很小接近于 0 时，那么 w⁽ⁱ⁾ 就接近 1；当 x⁽ⁱ⁾ 离 x 点很远，即 |x⁽ⁱ⁾-x| 很大时，那么 w⁽ⁱ⁾ 就变得很小。所以在 θ 的选择上给予查询点 x 附近的训练集更高的权重。τ 是控制 x⁽ⁱ⁾ 的权重随着离 x 距离变远而变小的速度。

局部权重线性回归算法是我们介绍的第一个非参数算法。之前我们介绍的线性回归算法是参数学习算法，因为它有固定、有限个数的参数 θ，一旦我们找到合适的 θ，在预测新数据是，就不再需要训练数据集。而局部权重线性回归算法，做预测时，就需要用到整个训练集。术语 ”非参数“ 实际上就是为了表示假设 h，我们需要保持的负担量随训练集大小呈线性增长。

参考资料：

1、http://cs229.stanford.edu/notes/cs229-notes1.pdf