1、简介

机器学习的目的是通过对训练数据的训练，能够对未知的数据有很好的应用效果。

1.1 训练误差和测试误差

训练误差是模型对训练集的计算损失，测试误差是模型对测试集的计算损失，听起来好像是废话。举个栗子，一个数据集有100条，其中80条用来做训练集，20条用来做测试集，用模型对这80条数据进行训练，得到最终模型，用这个最终模型对80条数据进行测试，其中60个正确，20个错误，假设损失函数是0-1损失，那么训练误差就可以用20/80=0.25，对测试集进行测试，有10个正确，10个错误，则测试误差就是10/20=0.5。

1.2、过拟合与欠拟合

过拟合和欠拟合指示的是模型的泛化能力，过拟合是指模型由于过于复杂，经过训练，导致其在训练集效果上很好，但是在测试集效果很差。欠拟合就是指训练集和测试集效果都很差。

2、模型选择

2.1、正则化

正则化是指我们在损失函数的后面加入一个调整项，这个调整项本质上是防止模型陷入过拟合。

(lambda)表示调整两者的参数。

2.2、简单交叉验证

简单交叉验证就是指我们暴力的将数据集分成训练集和测试集，这里的比例我们自己可以定。

2.3、S折交叉验证

S折交叉验证表示我们将数据集分成S份，取其中S-1份进行训练，用留出的那一份进行测试，这样进行多次，算出每个模型的平均误差，选择误差最小的当作最终的模型。

2.4、自助方法

这种方法是我们每次取出数据集中的一条数据并放回，这样我们随机的取m次，用这些取出来的数据当作训练集，其余的当作测试集。这样某样本不会被抽到的概率是

上面的数据集大小是m，一次没抽到的概率是(1-(1/m))进行m次，所以就是m次方。

3、模型评估

3.1、准确率和错误率

对于分类来讲，准确率就是对100条数据进行测试，90条正确，10条错误，则准确率是90%，错误率就是10%。准确率+错误率=1

3.2、查准率，查全率，F1

这两个指标是针对二分类来说，同时，也可以将他们扩展到多分类，假设我们有正例60和负例40，其中有40个正例被预测为正例，20个正例被预测为负例，15个负例被预测为负例，25个负例被预测为正例，则查准率（P）=40/(40+25),查全率（R）=40/(40+20)，由于这两者一般情况下不会同时增大，所以我们用F1值来进行度量，F1 = （2 * P * R）/ （P + R）

3.3、ROC和AUC

ROC曲线的横坐标是假正FP，纵坐标是真正TP，两者曲线的面积是AUC值。