机器学习基石笔记9——机器可以怎样学习(1)

Lecture 9:Linear Regression

9.1 Linear Regression Problem

                                         图 9-1

         现在用机器学习来决定给用户信用卡的额度。如图 9-1 所示,输入的是一系列用户相关的特征,输出的是信用卡额度。本例采用 Linear Regression

图 9-2 2D Linear Regression

      如图 9-2 所示,一般用距离的平方来评估 Regression 的误差。对于 N Dimension 的 Linear Regression, Ein 如图 9-3 所示

               图 9-3

     现在的问题就是如何 Minize Ein(W)?

                                                      图 9-4

      如图 9-4 所示, 推导出的 Ein 是凸函数。在导数为 0 的是可以取到 mini value

                               图 9-5

   此时,要分二种情况。一种是 XTX invertible (often but not always), 则可以取到 unique W。否则 W 有很多解

                                         图 9-6      

9.2 Linear Regression Algorithm

        y = Xw 和 wLIN = X+y 带入到公式 9-1, 可以得出如图9-7 所示的结论

$$ E_{in}(W_{LIN}) = frac{1}{N}Vert y - hat{y} Vert^2  $$ 

                                             图 9-7 

9.3 Generalization Issue

     Ein 的均值有个特殊的表达式,如图 9-8 所示。我们不做证明,简单想象一下,假设数据集是线性可分的,我们将样本空间中的所有数据都用计算 Ein。 Ein 的表达式肯定是和 Noise level 有关的(参考第八节课关于 Nosie 的定义)。

这样我们就可以接受图 9-8 的中表达式

                                        图 9-8   

   现在我们来从思考图 9-7 中  ÿ (不知道怎么打出 y hat 字符~)的几何意义。从下面的公式可以看出最终的 ÿ 由 y 的线性组合加上某个 ⊥ y 所在平面的向量 (如何没有这个 ⊥向量,Ein 就能等于0 如果你的计算资源足够多)。

求解 ÿ 的过程也等于是求 ⊥ 平面向量的过程。

   

                                        图 9-9                                                                                                                               图 9-10

       课件中在讨论几何意义时,也顺便了证明了 图9-9所示的结论。在前面的笔记中就贴出了类似图 9-10 的图片,当时没有做过多的解释

记得 VC Bound 是有关 in-sample 和 out-sample Error 的公式,图 9-10 是也是关于 in-sample 和 out-sample Error。后续的笔记还有 in-sample 和 Augment Error 关系

9.4 Linear Regression for Binary Classification

       Linear Classification 的 Ein 很难 minized(不可导,不能用现有的方法), Linear Regression 的 Ein 很容易被优化。

而且图 9-11 所示,Lineare Regression 的损失函数要大于 Linear Classification 所以可用 LIneare Regression 来做分类

                                                      图 9-11

最好要贴上本章最有一页截图

                                          图 9-12

题外话:

       T1:先看图 9-12, 图 9-12 是第十三节讨论 Noise 时展示的 in-sample 和 out-sample 的 Nosie Level。

结合图 9-12 和图 9-10 这两张图,不知道大家有没有发现有个好玩的东西?下面我来讲一下我发现的好玩的东西:

1. 图 9-10 和 图 9-12 很像

2. 图 9-10 所示结论是针对 Linear Regression 得出的,且这个结论要借助 Linear Regession 解析解的几何意义(即 最佳的 ÿ 等于⊥ x span 的向量 Plus x span 内一个向量)来证明。

3. 图 9-12 则是截取于第十三节,对所有算法都成立(基本上吧),不局限于 Linear Regression。那么图 9-12 中的结论是不是很有趣,是不是也有类似 Linear Regression 的几何意义? 是不是也有 矩阵 trace 迹?

                   图 9-12   十三节 Noise 

  

原文地址:https://www.cnblogs.com/tmortred/p/8065360.html