【机器学习】周志华读书笔记第二章模型评估与选择

过拟合，欠拟合

对于overfitting常用regularization正则化

参见machine learning

Regularization is designed to address the problem of overfitting.

There are two main options to address the issue of overfitting:

1) Reduce the number of features:

a) Manually select which features to keep.

b) Use a model selection algorithm (studied later in the course).

2) Regularization

Keep all the features, but reduce the parameters J .

Regularization works well when we have a lot of slightly useful features.

2. 一个数据集，并且既要训练，又要测试的评估方法

留出法：当只有一个数据集的时候，用一部分来训练，一部分来测试。而且训练数据和测试数据没有交集。通常会用60%到80%的数据作为训练集，剩下的作为测试集。需要注意的是，在选择训练集（或者测试集）的时候要采用分层抽样的方法。就像刷题一样，训练集和测试集都要有相近比例的题型，不能训练集全是选择题，测试集全是论述题，应该训练集和测试集都包含选择题和测试题，而且比例要一致，都是八成选择题，两成论述题。

一次的训练-测试结果可能不够科学，最好划分不同的训练集和测试集，做多次训练-测试，将测试结果（错误率、查准率之类的）取平均。

交叉检验法：这是在“留出法”的基础上改进的方法。先将数据集分为k个大小相似的互斥子集（当然，每个子集的产生都要用分层抽样进行）。每次用k-1个子集作为训练集，剩下的一个作为测试集。这样就可以进行k次训练-测试。k的测试结果的平均值就是最终的测试结果。

自助法：上述两种方法都是在原本作为训练集的数据中抽出一部分作为测试集，因此训练集的规模不可避免地减少了，训练效果也就受到了影响。自助法则是一中比较好的缓解方法。假设有一个包含m个样本的数据集D。对这个数据集进行m次有放回的抽样，则得到了一个含有m个样本的数据集D'。D'相对于原数据集D，规模没有减少，只是D'中有部分样本是重复出现的。所以在抽样中没有抽到的样本就作为测试集，D'就作为训练集。按照概率论推导可知，一般来说抽样中国会有三分之一的样本没有被抽到，也就是说测试集大小为数据集D大小的三分之一。