机器学习基石笔记15——机器可以怎样学得更好（3）

Lecture 15： Validation

15.1 Model Selection Problem

略过！

用 E_in 来选择模型不靠谱，要用验证集

15.2 Validation

略过！

15.3 Leave-one-out Cross Validation

现在还有一个问题，E_loocv 是很多模型的Error 的均值。就算 E_loocv 效果很好。我们还是不知道用那个模型？难道是训练 n 个模型，然后用投票法？居然真的是这样，如果是 loocv 组合 svm 岂不是嗨爆！还是 k 交叉验证更靠谱点

另外， leave-one-out cross validation 也算是 bagging 算法（类似的还有 RF 中的 oob ），不过 leave-one-out cross validation 变的是训练数据，bagging 中模型参数会变。《西瓜书》关于 bagging 模型模型稳定的定性解释也能用于解释 leave-one-out cross validataion！

图 15-1

图 15-2 中关于 eave-one-out cross validation error 约等于 out-sample error 的证明也是奇特！

如果样本数特别多，就没有做 leave-one-out cross validation 了

图 15-2

可以很直观的看出 E_loocv 的效果要比 E_in 要好（那么还需不需要更新 VC Dimension ？）

15.4 V-Fold Cross Validation

略过

题外话：

1. 第三小节的内容要参考《西瓜书》和网络资料

2. 想个无关本节的问题，对于 bagging 而言。假设有个模型 A 在 in-sample 数据上表现的很好，而且在 out-sample 表现的也很好。此时如果用 bagging 算法计算的结果还不如单独用模型 A 计算出的结果。那么为什么还有用 bagging 呢？仅仅是我们不知道如何将模型 A 挑选出来？

3. 前面写笔记时谈的都是 E_in 和 E_out ，要更新了前面的笔记

4. 如图 15-2 所示，有关特征数量和错误率间的关系还需要查找其它资料学习（本节出现这段内容也算是突兀的很）