支持向量机SVM 初识

虽然已经学习了神经网络和深度学习并在几个项目之中加以运用了，但在斯坦福公开课上听吴恩达老师说他(在当时)更喜欢使用SVM，而很少使用神经网络来解决问题，因此来学习一下SVM的种种。

先解释一些概念吧：

矩阵二范数：

||w|| = sqrt(w'w)

跟室友探讨了一下，觉得对于n维列向量来说，二范数的意义是它到零点的距离。

支持向量机——即最优间隔分类器：

最优间隔分类器的最终目标就是让边界与数据点之间的间隔(距离)最大，间隔的标度有两种：

1. 函数间隔　　γ^(i) = y(i) * (w'x + b)　　　　　　,　　γ^ = min(γ^(i))

2. 几何间隔　　γ (i) = y(i) * (w'x/||w|| + b/||w||) ,　　γ = min(γ (i))

如果给定限定条件||w|| == 1，则两种间隔等价。

对于m个样本计算出的m个单点间隔，取最小值做为间隔，即使间隔的最小值最大。

但是，这样的描述并不能将问题转换为一个凸问题，不好优化求解，因此转换：

固定γ^ = 1,即要求满足 y(i) * (w'x + b) == 1 且同时使得 ||w|| 的值最小的问题，像不像线性规划？

将问题转化之后，我们便可以使用拉格朗日乘子法来求解这类带约束的规划问题。(细节略去)

以上的方法是针对可以线性分成两类的数据来说的，但如果数据不能完美的分成两类，或是无法采用线性方式来分割改怎么办呢？

这就要引入卷积核Kernel的概念。

卷积核：K(x, z) = <Φ(x), Φ(z)> , 将<x, z>转换为<Φ(x), Φ(z)>，其中Φ(x)式x向量在高维的投影对应的函数。

简单来说，通过引入卷积核，将线性SVM中的内积运算( <x, z> )全都替换成 K(x, z) 的卷积核运算( <Φ(x), Φ(z)> )，便可以将向量投影到更高维度，类似于把空间扭曲、折叠，这样，在高维度中，便能够找到线性的分类方法了。

常用的卷积核：

高斯核　　　　K(x, z) = -||x-z||^2 / (2σ^2)　　　　维度：无限维

多项式核　　K(x, z) = (x'z + c) ^ d 　　　　维度：C(N+d, d)

等等。

在对SVM做了以上改进之后，我们便要回归本源——如何求解那个类似线性规划的问题？

使用已知条件以及KKT条件等，我们可以采用坐标上升法的变种， SMO，来更快速的求得最后解——每次固定n-2个参数，只调整其中两个，发现是一个二次函数，直接使用求根公式即可，经过多次迭代，所有参数都会接近极值。在此问题中，这种方法比梯度下降法或是牛顿法来的更快。

软间隔SVM：减少特殊坏点对于分类结果的影响