感知机模型的对偶形式[转载]

1.区分一下易混淆的两个概念，梯度下降和随机梯度下降：

梯度下降：一次将误分类集合中所有误分类点的梯度下降；

随机梯度下降：随机选取一个误分类点使其梯度下降。

2.对于误分类的数据来说，当w*xi + b>0时，yi = -1,也就是，明明是正例，预测成负例。因此，误分类点到超平面的距离为：

因此所有误分类点到超平面的总距离为:

忽略1/||w||,我们就可以得到感知机学习的损失函数。

3.损失函数

4.对偶形式

对偶形式的一般性描述：

输出Ni,b; 感知机模型为：

(1)Ni = 0

(2)在训练集中选取数据(xi,yi)

(3)若

则更新：

(4)转至(2)直到没有误分类的数据。

为了方便后期的计算，可先求出Gram矩阵。

例如，正例：x1 = (3,3)^T, x2 = (4,3)^T, 负例： x3 = (1,1)^T

那么Gram矩阵就是：

因为对偶形式中会大量用到xi*xj的值，所以提前求出Gram矩阵会方便很多。