【机器学习具体解释】SVM解二分类,多分类,及后验概率输出

转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/51073885

C S D N - 勿 在 浮 沙 筑 高 台

支持向量机(Support Vector Machine)以前在分类、回归问题中非常流行。支持向量机也称为最大间隔分类器，通过分离超平面把原始样本集划分成两部分。

首先考虑最简单的情况：线性可分支持向量机。即存在一个超平面能够把训练样本分开。

1.线性可分支持向量机

1.考虑一个线性二分类的问题；例如以下左图，在二维平面上有两种样本点x，目标值分别标记为{-1,1}。能够作出无数条直线wTx+b=0,直线上方的点标记为{+1}的带入直线公式会得到wTx+b>0,下方的点。标记为{-1}带入直线公式会得到wTx+b<0，因此能够用wTx+b的符号决定点的分类，写成决策函数为f(x,w,b)=sign(wTx+b)把两类点分开。可是个採用哪个直线最好呢？
2.一般来说，当样本点离直线越远。则分类正确的确信度越大；例如以下右图所看到的，A,B,C三个样本点都被预測分类到‘×’类中。可是对于A的分类正确的确信度比C大。因为点C里分类直线wTx+b=0非常近，当直线的斜率稍一点变化，即会导致C被分到还有一类中。
综上。我们想要得到的直线是离样本点最远。同时又能保证正确划分的直线。

这里写图片描写叙述

1.1函数间隔与几何间隔

由二维直线wTx+b=0扩展到高维被称为超平面(w,b)。

一个点距离超平面的远近能够表示分类预測的确信程度。在超平面wTx+b=0确定的情况下，|wTx+b|能够相对地表示点x距离超平面的远近。并且假设分类正确。则y(i)与wTx(i)+b的符号一致,即y(i)(wTx(i)+b)>0，同一时候表示分类的正确性以及确信度。
函数间隔：超平面(w,b)关于样本点(x(i),y(i))的函数间隔为

函 数 间 隔 : γ^(i) = y (i) (w T x (i) + b)

定义超平面关于样本集S的函数间隔为超平面(w,b)与S中全部样本点的函数间隔的最小值

γ^= m i n i = 1, 2, . . . m γ^(i)

定义

γ^是为了最大化间隔，

γ^表示关于超平面与训练集中样本的函数间隔最小值，以下仅仅要最大化

γ^就可以。
注意到函数间隔实际上并不能表示点到超平面的距离，因为当超平面

(w,b)參数扩大同样的倍数后，如

(2w,2b)，超平面的位置并没有改变，可是函数间隔也变大了同样的倍数

2γ^(i).
几何间隔：
这里写图片描写叙述

如上图所看到的：设样本点A坐标为

x(i),点A到超平面的垂直距离记为

γ(i),分离超平面

wTx(i)+b=0的单位法向量为

w||w||,因此点B的坐标为

x(i)−γ(i)w||w||，且点B在直线上，带入直线公式有：

w T (x (i) - γ (i) w | | w | |) + b = 0 ； 解 得 : γ (i) = ( w T x ( i ) + b ) | | w | |

假设点被正确分类。

y(i)与

(wTx(i)+b)||w||的符号一致，由此

同 理 定 义 几 何 间 隔 : γ (i) = y (i) (w T x ( i ) + b | | w | |)

超 平 面 与 样 本 集 S 的 几 何 间 隔 为 γ = m i n i = 1, 2, . . . m γ (i)

几何间隔不随着超平面參数的变化而变化，比如超平面參数(w,b)变为(2w,2b)。函数间隔

γ^(i)变为

2γ^(i),而几何间隔

γ(i)保持不变。
函数间隔与几何间隔的关系：

γ(i)=γ^(i)||w||；

γ=γ^||w||，若||w||=1,函数间隔与几何间隔同样。

1.2间隔最大化

如上所述。支持向量机的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。γ表示分离超平面与训练集中样本的几何间隔的最小值。为了间隔最大化。仅仅须要最大化γ，同一时候全部样本的几何间隔必须满足γ(i)≥γ,i=1,2,...,m;

m a x w, b γ

s . t . y (i) (w T x ( i ) + b | | w | |) \geq γ

上述问题，能够转变为一个凸二次规划问题。这是支持向量机的一个重要属性，局部极值即为全局最值。
考虑函数间隔与几何间隔的关系：
这里写图片描写叙述

上述优化问题中，当超平面參数(w,b)同一时候变为(2w,2b)，函数间隔也会变为

2γ^,目标函数的解并不会变化。即

γ^的取值不影响优化问题的解。因此令

γ^=1。目标函数变为最大化

1||w||，即最小化

||w||2。为了后面的求解方便，加入因子

12也不影响目标函数的解；
这里写图片描写叙述

上述问题为一个凸优化问题，通过某些优化算法能够求解。

以下继续介绍拉格朗日对偶算法，能够更进一步优化上述问题，同一时候自然引入核函数，推广到高维数据。

1.3拉格朗日对偶性

有时考虑解决原始问题的对偶问题会更高效。

原始问题
f(w),gi(w),hi(w)均为连续可微：
这里写图片描写叙述
写出拉格朗日函数。当中αi≥0,β≥0称为拉格朗日乘子：

定义关于w的函数θP(w)=maxα,βL(w,α,β);能够证明假设w满足上述约束条件gi(w)≤0,hi(w)=0，则有θP(w)=f(w)

由此原始问题的约束最优化问题变为极小极大问题：
这里写图片描写叙述
设原始问题的最优解记为p∗=minwf(w)=minwθp(w).
对偶问题
把上述极小极大问题minw maxα,βL(w,α,β),改为极大极小变为对偶问题，即：
定义：

设此极大极小问题的最优解记为d∗,能够证明

为了使得对偶问题与原始问题的最优解相等d∗=p∗，必须满足下述几个条件。称为KKT条件
这里写图片描写叙述

1.4最优间隔分类器

回想原始问题：
这里写图片描写叙述
写成拉格朗日函数。因为仅仅有不等式约束所以仅仅包括拉格朗日乘子αi：

原始问题最优解p∗=minw,b maxαL(w,b,α);对偶问题的最优解d∗=maxα minw,bL(w,b,α)
对偶问题先求关于參数w,b的最小值，再求关于參数α的最大值。

首先，分别对w,b求偏导数并令为0。得：
这里写图片描写叙述

把上述结果带入拉格朗日函数L(w,b,α)

注意到上述是仅仅关于參数α的函数，记为W(α),由对偶函数。下一步即最大化W(α)

以下的目的是解决上述优化问题。通常採用SMO算法，本篇文章暂不做介绍。假如已经得到最优解α=(α1,α2,...,αm),带回到上面对w求偏导得到的公式，能够得到w的值。以下要求得b得值，考虑KKT条件有：αi[y(i)(wTx(i)+b)−1]=0。i=1,2..m,当中必定存在一个αj≠0,（否则w=0,不是原始解）。

当αj≠0时y(i)(wTx(i)+b)=1,能够解出b的代数式。b=y(j)−∑mi=1αiy(i)(x(i),x(j))，也能够对全部採用满足条件的b加和求平均；然后就可以得到最佳分类超平面：
这里写图片描写叙述
依据KKT条件有αi[y(i)(wTx(i)+b)−1]=0，i=1,2..m，当αi>0时,必定有y(i)(wTx(i)+b)=1，即该样本点的函数间隔为1。例如以下图所看到的，落在直线wTx+b=±1上。此向量即称为支持向量。对于落在直线wTx+b=±1以内的点，函数间隔y(j)(wTx(j)+b)>1,必定有αj=0，当计算函数最优切割超平面參数w,b时。这些点相应的αj=0。所以对參数没有影响。仅仅有支持向量，即落在wTx+b=±1上数据影响着最优超平面的计算。

这里写图片描写叙述

2.线性支持向量机

以上讨论的内容是建立在数据是线性可分的情况。即存在一个分离超平面能够把训练数据分为两部分。实际上数据并不会这么理想，例如以下图所看到的。即存在某些样本点不能满足函数间隔大于等于1这个条件。
这里写图片描写叙述
这时能够为每一个数据点设置一个松弛因子ξi≥0,使得函数间隔γi加上松弛因子ξi大于等于1.即y(i)(wTx(i)+w0)≥1−ξi,同一时候对每一个松弛因子ξi支付一个代价ξi。由此原始问题变为：

C称为惩处參数(C>0)。C值越大对误分类的惩处越大。因为当C为无穷大时，即成为了线性可分问题。
採用与线性可分同样的过程。建立拉格朗日函数：
这里写图片描写叙述