感知机模型的对偶形式[转载]

转自:https://blog.csdn.net/jaster_wisdom/article/details/78240949#commentBox

1.区分一下易混淆的两个概念,梯度下降和随机梯度下降:

        梯度下降:一次将误分类集合中所有误分类点的梯度下降;

        随机梯度下降:随机选取一个误分类点使其梯度下降。

2.对于误分类的数据来说,当w*xi + b>0时,yi = -1,也就是,明明是正例,预测成负例。因此,误分类点到超平面的距离为:

 因此所有误分类点到超平面的总距离为:

 忽略1/||w||,我们就可以得到感知机学习的损失函数。

 3.损失函数

4.对偶形式

 对偶形式的一般性描述:

输出Ni,b; 感知机模型为:

(1)Ni = 0

(2)在训练集中选取数据(xi,yi)

(3)若

则更新:

 (4)转至(2)直到没有误分类的数据。

为了方便后期的计算,可先求出Gram矩阵。

                                 

 例如,正例:x1 = (3,3)^T, x2 = (4,3)^T, 负例: x3 = (1,1)^T

  那么Gram矩阵就是:

因为对偶形式中会大量用到xi*xj的值,所以提前求出Gram矩阵会方便很多。

原文地址:https://www.cnblogs.com/BlueBlueSea/p/10061004.html