ML：交叉验证Cross-Validation

PRML中首章绪论的模型选择，提到两个方法：

1、交叉验证（Cross-Validation）

2、赤池信息准则（Akaike Information Criterion），简称：AIC。

交叉验证是模型选择的一种方法，若有模型选择问题，就可以用交叉验证。例如做线性回归，你有 10 个变量，就有（2的10次方=）1024 个模型需要选择，就可以使用交叉验证或者 AIC。

使用交叉验证是从预测的角度去做，使用 AIC 是从模型的复杂度与模型的拟合角度去做。

交叉验证：

　　（ref-baidu ：在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。）

　　如果模型的设计使用有限规模的数据集迭代很多次，那么对于验证数据会发生一定程度的过拟合，因此保留一个第三方的测试集是很有必要的。

例如一个 “五折交叉验证”，

将数据划分为5组，分别为 G1、G2、G3、G4、G5。

① 取G1组作为测试组，其余4组作为训练组；

② 取G2组作为测试组，其余4组作为训练组；

③ 取G3组作为测试组，其余4组作为训练组；

④ 取G4组作为测试组，其余4组作为训练组；

⑤ 取G5组作为测试组，其余4组作为训练组。

对5轮运行结果的表现得分求平均值。