《机器学习》笔记第2章——模型评估与选择：经验误差与过拟合、评估方法、性能度量、比较检验方法、偏差与方差

留出法 hold-out
1. 将数据集D划分为两个互斥的集合 S和T, 在S上训练得出的模型在T上进行评测
2. 注意数据分布的一致性, 避免数据划分过程引入额外的偏差而对最终结果产生影响
  1. 从采样(sampling)角度来看, S和T中的正反例分布要保持相等,
  2. 分层采样: 即是保留类别比例的采样方式
  3. 一般采用: 若干次随机划分/重复进行试验求平均值作为留出法的评估结果
交叉验证法 cross validation
1. K折交叉验证: 随机使用不同的划分方法重复P次, 最终取均值; 例如: 10次的0折交叉验证
留一法 (LOO方法)
1. 设数据集大小为n, 令k=n, 即N折交叉验证, n-1:1 的比例进行训练模型, 训练n-1次, 得出n-1个模型
2. 更准确: 只比原始数据集少了一个数据
3. 开销昂贵, 比如数据规模达到百万级别, +调参的耗费
4. 没有免费的午餐, 大量的噪点也加入了进来
自助法（bootstrapping）
1. 减少训练样本规模下降带来的整体差异
2. 设总数据集合为D，每次又放回抽取出1个，直至M个，m取极限值，大概36.8%的数据抽取不到——这部分总是没有抽取到的数据作为训练集
  极限公式为:
3. 适用于：数据集规模较小、难于有效划分训练集和测试集
调参与最终模型
1. 验证集：将训练集再分为训练集和验证集，验证效果较好后，再拿测试集得到输出结果

假设检验
1. t检验（t-test）：假设我们得到了k个测试错误率
2. 二项检验
交叉验证t检验
1. 成对t检验(paired t-tests), 基本思想是，若两个学习的性能相同，则他们使用相同的训练、测试集得到的测试错误率应该相同
2. 交叉验证t检验
3. McNemar检验
4. Friedman检验与Nenenyi后续检验

偏差与方差
1. 偏差-方差分解 (bias-variance decomposition) 解释学习算法泛化性能的一种重要工具
  1. 偏差：期望输出与真实标记的差别成为偏差
  2. 泛化误差：偏差、方差与噪声之和
2. 偏差的意义：度量了学习算法的期望预测与真实结果的偏离程度，即可以刻画学习算法的本身的拟合能力
3. 方差的意义：度量了同样大小的训练集的变动所导致学习性能（错误率和精度）的变化，即刻画了数据扰动带来的影响
4. 噪声的意义：编导了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度
5. 总结：偏差-方差分解说明，泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所功能组成决定的

你不逼自己一把，你永远都不知道自己有多优秀！只有经历了一些事，你才会懂得好好珍惜眼前的时光！