机器学习-李航-统计学习方法学习笔记之感知机(2)

在机器学习-李航-统计学习方法学习笔记之感知机(1)中我们已经知道感知机的建模和其几何意义。相关推导也做了明确的推导。有了数学建模。我们要对模型进行计算。

感知机学习的目的是求的是一个能将正实例和负实例完全分开的分离超平面。也就是去求感知机模型中的参数w和b.学习策略也就是求解途径就是定义个经验损失函数，并将损失函数极小化。我们这儿采用的学习策略是求所有误分类点到超平面S的总距离。假设超平面s的误分类点集合为M,那么所有误分类点到超平面S的总距离为

显然损失函数L(w,b)是非负的，如果没有误分类点，那么损失函数的值就是0，因为损失函数的定义就是求误分类点到平面的距离，误分类点都没有，那么损失函数的值肯定是0.

感知机学习算法是误分类驱动，采用随机梯度下降法。首先，任意选取一个超平面w,b,然后极小化目标函数。相关定义在作者的书中都有给出。不在啰嗦了。

感知机学习算法的原始形式

对例子2.1做详细推导。作者其实已经给出了推导。对于很多基础知识扎实的人来说已经足够了。但对于一些大学期间高数忘了差不多的我们来说，理通作者思路也要仔细手写推导一下。

解构建最优化问题：，按照算法2.1求解w,b,学习η=1

取初值w₀=(0,0)^T(这里w₀是初始的法向量，如果是三维空间应该是(0,0,0)^T,这儿二维平面就够用了w₀=(0,0)^T。所以,w₀=(0,0)^T)

b₀=0.

对x₁=(3,3)^T,因为是正分类点,所以y₁=1带入分离超平面公式

y₁(w₀•x₁+b₀)

　　　　　　　　　　　　　　　=　 1((0,0)^T•(3,3)^T+0) --------公式1.0

其中T代表矩阵的转置，也就是把(0,0)竖过来。同时这儿的(0,0)^T和(3,3)^T也是向量的表示。中间的圆点代表求两个向量的内积。我们看一下向量内积的定义

在线性代数中有对此的明确定义。所以(0,0)^T和(3,3)^T的内积就为0*3+0*3=0.

所以公式1.0的值为0.因为要把所有的正实例和负实例分开，这儿该正实例在分离超平面上，显然不符合要求。所以我们要更新w,b.

w₁=w₀+y₁x₁ 这儿更新w法向量的意义是移动分离超平面的方向，对于二维空间就是更改直线的斜率，更新b就是移动斜线的截距。

我们首先把这儿几个实例点表示出来x₁y₁=((3,3)^T,1 ) x₂y₂=((4,3)^T,1 ) x₃y₃=((1,1)^T,-1 )

求得w₁=(0,0)^T+(3,3)^T=(3,3)^T　b₁=b₀+y₁=1

所以线性模型为

因为我们使用函数间隔来衡量是否被正确分类的，也就是在线性模型前面加上参数y_i 因为正确分类时候y_i=1，误分类的时候y_i=-1,所以可以两者的乘积只要大于0就可以表示正确分类了，不需要更新函数参数。小于等于0就表示要更新参数。

新的线性模型对于点x₁y₁=((3,3)^T,1 ) x₂y₂=((4,3)^T,1 )显然都大于0，也就是可以被正确分类。对于 x₃y₃=((1,1)^T,-1 ),带入后函数间隔小于0代表函数未被正确分类。所以需要更新函数。

w₂=w₁+y₁x₁

对于感知机求解的一般形式，很简单，仔细看书，了解几个数学概念就很容易明白。不在赘述。

感知机学习算法的收敛性

大体浏览了下，感觉不是很重要，也不是很难理解，可能是我没自己手动推导一下的原因。想研究的可以直接看作者的推导。

感知机学习算法的对偶形式

下面是作者书中给出的例子，但是没有具体的推导过程。

我们推导如下。从原始形式中我们可以知道。w的更新过程。

第一次更新是x₁y₁=((3,3)^T,1 ) _{点不能是函数模型大于零,所以 w₁=w₀+x₁y₁}

第二次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₂=w₁+x₃y₃

第三次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₃=w₂+x₃y₃

第四次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₄=w₃+x₃y₃

第五次更新是x₁y₁=((3,3)^T,1 )点不能使其大于零，所以 w₅=w₄+x₁y₁

第六次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₆=w₅+x₃y₃

第七次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₇=w₆+x₃y₃

然后我们得到

从上面可以总结出w₇=w₆+x₃y₃

w₇=w₅+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₄+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₂+x₃y₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₁+x₃y₃ +x₃y₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₀+x₁y₁ +x₃y₃ +x₃y₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

所以我们可以得出最终w₇的值为两次x₁y₁ +五次x₃y₃

也就等于在对偶形式中的

同理也可以得出b,例2.2中的误分条件我们还可以写成如下形式。

从上面的公式中对比作者给出的求解迭代过程。我们应该可以很容易理解对偶形式的感知机算法，推导后发现只是换了一个简便的计算形式。至此关于统计学习方法中的感知机篇章结束。

可参考机器学习-李航-统计学习方法学习笔记之感知机(1)

本文地址：http://www.cnblogs.com/santian/p/4351756.html

博客地址：http://www.cnblogs.com/santian/

转载请以超链接形式标明文章原始出处。