七、正则化

7.1 过拟合问题

在这里插入图片描述

过拟合：overfitting，模型有很多特征，使得假设模型可能会千方百计的去拟合训练集，努力地扭曲从而符合每个训练样本，虽然能让曲线的代价函数值很低，甚至为0，但这种情况会导致无法泛化到新的样本中，无法预测新样本的价格；

泛化：一个假设模型应用到新样本的能力，新样本数据就是训练集之外的数据；

在这里插入图片描述
Q：如何解决过拟合的问题？

1、减少特征变量：通过人工判断决定删除部分相干性低的变量，或者使用一些算法来剔除某些信息量少的特征；这个方法虽然能有效降低过拟合的发生，但可能会因为部分变量的剔除使得曲线拟合程度降低，或者我们并不想舍弃那部分信息；
2、正则化：能保留所有变量，通过减少量级来防治过拟合的发生，当特征很多的时候，每个特征都会对预测得y值或多或少的产生一点影响，我们不想舍掉它们，那么正则化就是最理想的方法；

7.2 代价函数

在这里插入图片描述
正则化的思想：在θ₃和θ₄前面加入惩罚项，即通过增大代价函数中θ₃和θ₄前面系数的大小来扩大两者对代价函数的影响，由于我们要使代价函数取最小，那么θ₃和θ₄必然取最小值（接近于0），那么，高次项的θ^TX就转化成了低次项的，从而简化模型，成功避免过拟合问题；
在这里插入图片描述
当特征很多时，我们无法确定哪个特征的相关性高，哪个相关性低，哪个是高次项，哪个是低次项，所以我们只能先将常数项之外所有的θ（θ₁到θ_n）都作为正则项；