机器学习的基本概念

交叉验证：为了得到较为可靠的测试结果，测试集的样本数量不能太少，但在总体样本数量较少的情况下，如果拿出足够数量的样本组成测试集，则训练集样本会不足，此时可以使用交叉验证的方法（轮流取不同的样本做测试集），就不必担心测试集样本太少，极端情况下可取测试集样本数量为一，称为留一法。使用交叉验证可以在总样本数量不变的情况下，最大化训练集样本数量。

几率(odds)：该事件发生的概率与该事件不发生的概率的比值。

函数间隔：样本点(x,y)到超平面(w,b)的距离为 ||y(w*x+b)|| / ||w||，超平面(w,b)关于样本点(x,y)的函数间隔为 y(w*x+b)

经验风险：模型在训练集上的平均损失函数值。

结构风险：添加了正则项的经验风险。

期望风险：模型在全体样本上的平均损失函数值，精确的计算要用到样本的概率分布。期望风险真正代表了模型的性能优劣，在实际中期望风险不容易计算，可以通过模型在测试集上的平均损失函数值来近似。

一句名言：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。