机器学习笔记—

机器学习笔记——SVM

SVM(Support Vector Machine)。中文名为支持向量机。就像自己主动机一样。听起来异常神气。最初总是纠结于不是机器怎么能叫“机”,后来才知道事实上此处的“机”实际上是算法的意思。

支持向量机一般用于分类，基本上，在我的理解范围内。全部的机器学习问题都是分类问题。而据说，SVM是效果最好而成本最低的分类算法。

SVM是从线性可分的情况下最优分类面发展而来的，其基本思想能够用下图表示：

(最优分类面示意图)

图中空心点和实心点代表两类数据样本，H为分类线，H1、H2分别为过各类中离分类线近期的数据样本且平行与分类线的直线。他们之间的距离叫做分类间隔(margin)。

最优分类线，就是要求分类线不但能将两类正确的分开，使训练错误率为0。并且还要使分类间隔最大。

推广到高维空间，最优分类线就叫做最优分类面了。

设 $(x{i},y{i}),i=1,...,n,x{i}\in R^{d},y{i}\in \{+1,-1\}$ 为两类线性可分的样本集合。

相应的线性判别函数的一般形式为 $f(x)=\omega \cdot x+b$ ,相应的分类方程为 $\omega \cdot x+b=0$ 。将判别函数进行归一化。使全部样本都满足 $|f(x)|\geqslant 1$ ,此时离分类面近期的样本 $f(x)= 1$ ,要求分类面对全部样本都能正确分类，即满足 $y{i}[(\omega \cdot x{i})+b]-1\geqslant 0,i=1,\cdots ,n$ (记为A),

此时分类间隔等于 $2/\left | \left | \omega \right | \right |$ 。间隔最大等价于 $\left | \left | \omega \right | \right |^{2}$ 最小。

最优分类线H就是满足式A且使 $\frac{1}{2}\left | \left | \omega \right | \right |^{2}$ 最小的分类面。

两类数据样本中立分类面近期的样本，且平行于分类面H的超平面 $H{1}$ 、 $H{2}$ 上的数据就是式A中使等号成立的那些数据样本。这些数据样本叫做支持向量(support vector,SV)。

由上可知，最优分类面问题能够表示为约束优化问题。在式A的约束下，求例如以下函数的最小值

$\varphi (\omega )=\frac{1}{2}\left \| \omega \right \| ^{2}$

为此。定义例如以下Lagrange函数

$L(\omega ,b,a)=\frac{1}{2}\left \| \omega \right \|^{2}-\sum_{i=1}^{n}\alpha _{i}[y_{i}(\omega \cdot x_{i}+b)-1]$ (记为式B)

式中， $\alpha_{i}$ 为拉格朗日函数的乘子（Lagrange Multiplier) 。 $\alpha_{i\geqslant }0$ 。要求式B的最小值，对各个參数求偏导数。且偏导数为0。结果例如以下

$\left \{ \begin{gathered} \frac{\partial L}{\partial \omega }=0\Rightarrow \sum_{i=1}^{n}\alpha _iy_ix_i \hfill \\ \frac{\partial L}{\partial \omega }=0\Rightarrow \sum_{i=1}^{n}\alpha _iy_ix_i \hfill \\ \frac{\partial L}{\partial a_i }=0\Rightarrow a_i[y_i(\omega \cdot x_i+b)-1] \hfill \\ \right. \end{gathered}$

依据A式和B式的约束条件，能够将上述分类面的求解问题问题转化为例如以下凸优化的问题

$\left \{ \begin{gathered} max\sum_{i=1}^{n}\alpha _i-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha _i\alpha_jy_iy_j(x_ix_j) \hfill \\ s.t.\alpha\geq 0,i=1,\cdots ,n \hfill \\ \sum_{i=1}^{n}\alpha _iy_i=0 \hfill \\ \right. \end{gathered}$

式中， $\alpha_i$ 相应的为拉格朗日乘子，这是一个二次寻优问题。存在唯一解。若 $\alpha_i^{*}$ 为最优解，则有

$\omega ^{*}=\sum_{i=1}^{n}\alpha_i^{*}y_ix_i$

式中。 $\alpha_i^{*}$ 为不为0的样本。即为支持向量。

因此。最优分类面的权系数向量是支持向量的线性组合。

设 $b^{*}$ 为分类阀值，可由约束条件 $\alpha_i[y_i(\omega\cdotx+b)-1]=0$ 求解。解上述问题后得到的最优分类面函数为

$f(x)=sgn\left \{ (\omega \cdot x)+b \right \}=sgn\left \{ \sum_{i=1}^{n}\alpha_i^{*}y_i(x_i\cdot x\x)+b^{*} \right \}$

若 $f(x)=1$ ，x就属于该类，否则不属于。

概括地说，SVM就是首先通过用内积函数定义的非线性变换将输入控件变换到一个高维空间。然后在这个空间中求广义的最优分类面。