Machine Learning --- Structure risk & VC dimension

Machine Learning --- Structure risk & VC dimension

一、结构风险

结构风险=经验风险+置信风险

经验风险=分类器的训练误差

置信风险=分类器的测试误差

其中置信风险由样本数量N与分类函数的VC维h决定。样本数量越多模型越接近真实分布，置信风险越小；VC维越大，模型越复杂推广性差，置信风险越大。结构风险公式如下：

二、VC维

定义：若h个样本能被分类函数按所有可能的2^h种形式分开，则称分类函数能把h个样本打散。分类函数的VC为就是它能打散的最大样本数h。若分类边界为线性，则h=D+1，D为特征维数。

[例]2维平面内只能找到3个点被直线打散分成两堆。设A、B、C表示三个点，+1，-1表示堆的类别。

当h=3时，有8种打散方式：

当h=4时，只有14种打散方式（应该有2⁴=16种）

因此VC维等于3。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/jizhiyuan/p/3426947.html