机器学习基石笔记15——机器可以怎样学得更好(3)

Lecture 15: Validation

15.1  Model Selection Problem

略过!

用 Ein 来选择模型不靠谱,要用验证集

15.2  Validation

略过!

15.3  Leave-one-out Cross Validation

现在还有一个问题,Eloocv 是很多模型的Error 的均值。就算 Eloocv 效果很好。我们还是不知道用那个模型? 难道是训练 n 个模型,然后用投票法?居然真的是这样,如果是 loocv 组合 svm 岂不是嗨爆!还是 k 交叉验证更靠谱点

另外, leave-one-out cross validation 也算是 bagging 算法 (类似的还有 RF 中的 oob ),不过 leave-one-out cross validation 变的是训练数据,bagging 中模型参数会变。《西瓜书》关于 bagging 模型模型稳定的定性解释也能用于解释 leave-one-out  cross validataion!

 

                                    图 15-1

  图 15-2 中关于 eave-one-out cross validation error  约等于  out-sample error 的证明也是奇特 !

如果样本数特别多,就没有做 leave-one-out cross validation 了

 

                                   图 15-2

可以很直观的看出 Eloocv 的效果要比 Ein 要好(那么还需不需要更新 VC Dimension ?)

15.4  V-Fold Cross Validation

 略过

题外话:

        1. 第三小节的内容要参考《西瓜书》和网络资料

        2. 想个无关本节的问题, 对于 bagging 而言。假设有个模型 A 在 in-sample 数据上表现的很好,而且在 out-sample 表现的也很好。此时如果用 bagging 算法计算的结果还不如单独用模型 A 计算出的结果。那么为什么还有用 bagging 呢? 仅仅是我们不知道如何将模型 A 挑选出来?

        3. 前面写笔记时谈的都是 Ein 和 Eout ,要更新了前面的笔记

        4. 如图 15-2 所示,有关特征数量和错误率间的关系还需要查找其它资料学习(本节出现这段内容也算是突兀的很)

原文地址:https://www.cnblogs.com/tmortred/p/8108356.html