Lecture 9：Linear Regression

9.1 Linear Regression Problem

图 9-1

现在用机器学习来决定给用户信用卡的额度。如图 9-1 所示，输入的是一系列用户相关的特征，输出的是信用卡额度。本例采用 Linear Regression

图 9-2 2D Linear Regression

如图 9-2 所示，一般用距离的平方来评估 Regression 的误差。对于 N Dimension 的 Linear Regression， E_in 如图 9-3 所示

图 9-3

现在的问题就是如何 Minize E_in(W)?

图 9-4

如图 9-4 所示，推导出的 E_in 是凸函数。在导数为 0 的是可以取到 mini value

图 9-5

此时，要分二种情况。一种是 X^TX invertible （often but not always），则可以取到 unique W。否则 W 有很多解

图 9-6

y = Xw 和 w_LIN = X⁺y 带入到公式 9-1，可以得出如图9-7 所示的结论

$$ E_{in}(W_{LIN}) = frac{1}{N}Vert y - hat{y} Vert^2 $$

图 9-7

E_in 的均值有个特殊的表达式，如图 9-8 所示。我们不做证明，简单想象一下，假设数据集是线性可分的，我们将样本空间中的所有数据都用计算 E_in。 E_in 的表达式肯定是和 Noise level 有关的（参考第八节课关于 Nosie 的定义）。

这样我们就可以接受图 9-8 的中表达式

图 9-8

现在我们来从思考图 9-7 中 ÿ （不知道怎么打出 y hat 字符～）的几何意义。从下面的公式可以看出最终的 ÿ 由 y 的线性组合加上某个 ⊥ y 所在平面的向量（如何没有这个 ⊥向量，E_in 就能等于0 如果你的计算资源足够多）。

求解 ÿ 的过程也等于是求 ⊥ 平面向量的过程。

图 9-9 图 9-10

课件中在讨论几何意义时，也顺便了证明了图9-9所示的结论。在前面的笔记中就贴出了类似图 9-10 的图片，当时没有做过多的解释

记得 VC Bound 是有关 in-sample 和 out-sample Error 的公式，图 9-10 是也是关于 in-sample 和 out-sample Error。后续的笔记还有 in-sample 和 Augment Error 关系

Linear Classification 的 E_in 很难 minized（不可导，不能用现有的方法）， Linear Regression 的 E_in 很容易被优化。

而且图 9-11 所示，Lineare Regression 的损失函数要大于 Linear Classification 所以可用 LIneare Regression 来做分类

图 9-11

最好要贴上本章最有一页截图

图 9-12

T1：先看图 9-12，图 9-12 是第十三节讨论 Noise 时展示的 in-sample 和 out-sample 的 Nosie Level。

结合图 9-12 和图 9-10 这两张图，不知道大家有没有发现有个好玩的东西？下面我来讲一下我发现的好玩的东西：

1. 图 9-10 和图 9-12 很像

2. 图 9-10 所示结论是针对 Linear Regression 得出的，且这个结论要借助 Linear Regession 解析解的几何意义（即最佳的 ÿ 等于⊥ x span 的向量 Plus x span 内一个向量）来证明。

3. 图 9-12 则是截取于第十三节，对所有算法都成立（基本上吧），不局限于 Linear Regression。那么图 9-12 中的结论是不是很有趣，是不是也有类似 Linear Regression 的几何意义？是不是也有矩阵 trace 迹？

图 9-12 十三节 Noise