模型评估与机器学习诊断法

一、如何改进一个机器学习算法
假设你已经训练出一个机器学习算法，但是效果不太好，那么有以下几种改进方法：
1、获得更多的训练数据
2、选用更少的特征
3、增加特征量
4、增加高次项
5、增大或减小正则化参数lambda的值
很多人只是随机选择上述方法的一种，即浪费时间又没有效果。所以接下来会介绍模型的评估及机器学习的诊断法。

二、模型评估(Evaluating a Hypothesis)
1、评估假设：
一个训练误差最小的假设有时并不是一个好的假设，而且当特征过多时，我们很难画出假设函数来观察。
有一种标准方法，将训练数据分成两部分，第一部分是训练集，第二部分是测试集，一般是7:3左右。

2、具体步骤：
那么我们训练模型的流程可以有如下两个部分：
（1）使用训练集来训练模型参数θ，（最小化代价函数Jtrain(Θ)）
（2）使用测试集来计算误差Jtest(Θ)
对于线性回归来说，误差：

在这里插入图片描述

对于逻辑回归来说，误差：

在这里插入图片描述
三、模型选择和训练、验证、测试集（Model selection and train/validation/test sets）
1、不使用验证集的模型选择：

在这里插入图片描述

一般的，是选择J最小的那个模型，但是这样只能使得模型对于测试集数据的误差较小，而对于其他数据的泛化效果并不好。因而这种方法并不能很好的验证误差。

2、使用验证集（Cross Validation Set）**
为了解决泛用性问题，我们引入了第三个数据集，交叉验证集。将其作为训练集和验证集之间的中间层来训练多项式次数d，然后用测试集进行测试，我们就能得到一个没有针对测试集“特殊优化”过的误差。比例为：训练集60%，交叉验证集20%，测试集20%。

在这里插入图片描述

三种数据集的误差如下：

在这里插入图片描述
四、诊断偏差与方差（Diagnosing Bias vs. Variance）
在这一节里，我们要寻找多项式次数d与欠拟合、过拟合之间的关系。
首先，我们需要确认，偏差与方差是否是影响我们取得好结果的问题因素：
高偏差意味着欠拟合，是形容数据分散程度的，对象是单个模型
高方差意味着过拟合，形容数据跟我们期望的中心差得有多远，对象是多个模型
我们需要找到一个好方法来平衡他们。

那么我们根据下图可以量化地判断过拟合、欠拟合，以及找出参数d的最优解。

在这里插入图片描述
五、正则化和偏差、方差（Regularization and Bias/Variance）
这一节，我们要寻找正则化参数λ与偏差、方差的关系。
较大的λ：高偏差（欠拟合）
适中的λ：没有大问题
较小的λ：高方差（过拟合）
一个大的λ值惩罚了所有θ参数，这极大地简化了函数曲线，所以会导致欠拟合。