机器学习基石笔记:13 Hazard of Overfitting

原文地址:https://www.jianshu.com/p/f9de73aecd22

图1 泛化能力差和过拟合

引起过拟合的原因有:

  • 过度VC维(模型复杂度高) ------ 确定性噪声;
  • 随机噪声;
  • 有限的样本数量(N)

图2 确定性噪声1
图3 确定性噪声2

通过具体实验来看模型复杂度(Q_f)/确定性噪声、随机噪声(sigma^2)、样本数量(N)对过拟合的影响:

图4 过拟合实验1
图5 过拟合实验2
图6 过拟合实验3
图7 过拟合实验4

避免过拟合的常用方法:

  • 从简单模型开始:降低模型复杂度;
  • data cleaning/data pruning:去noise;
  • data hinting(线索):增加样本数量;
  • regularization:正则化;
  • validation:验证。

图8 数据清洗/修剪
图9 数据增强

原文地址:https://www.cnblogs.com/cherrychenlee/p/10800212.html