机器学习的基本概念

交叉验证:为了得到较为可靠的测试结果,测试集的样本数量不能太少,但在总体样本数量较少的情况下,如果拿出足够数量的样本组成测试集,则训练集样本会不足,此时可以使用交叉验证的方法(轮流取不同的样本做测试集),就不必担心测试集样本太少,极端情况下可取测试集样本数量为一,称为留一法。使用交叉验证可以在总样本数量不变的情况下,最大化训练集样本数量。

几率(odds):该事件发生的概率与该事件不发生的概率的比值。

函数间隔:样本点(x,y)到超平面(w,b)的距离为 ||y(w*x+b)|| / ||w||,超平面(w,b)关于样本点(x,y)的函数间隔为 y(w*x+b)

经验风险:模型在训练集上的平均损失函数值。

结构风险:添加了正则项的经验风险。

期望风险:模型在全体样本上的平均损失函数值,精确的计算要用到样本的概率分布。期望风险真正代表了模型的性能优劣,在实际中期望风险不容易计算,可以通过模型在测试集上的平均损失函数值来近似。

一句名言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

原文地址:https://www.cnblogs.com/bill-h/p/13277790.html