支持向量机数学推导 Part1

支持向量机的目的是什么？

支持向量机的目标是找到使训练数据的边缘最大化的最优分离超平面。
支持向量机需要训练数据，是一种监督学习算法。
支持向量机也是一种分类方法。
举个简单的例子：
我们根据身高和体重在图1中画出点，可以通过这些点区分男女。给出一个点，能不能判断男女。
比如size=180，weight = 75，那么这个点代表的人是男还是女？

什么是分离超平面？

回答上面的问题，我们可通过划一条线分开代表男的点和代表女的点，如下图

那么为什么叫超平面？明明就是一条直线。
这是因为这里的数据只有两维的，三维的时候是平面，更高维我们就称之为超平面，支持向量机能够处理任意数量的维度。

最优分离超平面

还是上面的例子，你可以找到分离超平面（如下图），但是它不一定是最优的。

假如我们选择绿线作为分离超平面，这是会出现错误。有三个女性被归类为男性。

fig4

如果我们选择黑线，结果会更好。这就就我们为什么要找最优的分离超平面。

fig5

什么是余量和如何使用余量找到最优分离超平面？

如上图，当给定一个超平面，数据点到平面的距离就能够求得。超平面到距离最近的数据点的距离就是余量。
余量是无人区，在余量里面不包含任何的数据点。如图margin A. 那么下图的margin B不也可以吗？可以是可以的，但是你会发现它余量小。超平面到数据点的距离也大，余量越大。因此，我们找的最优分离超平面就是一个距离数据点余量最大的那个。

fig7

怎么计算余量？

支持向量机，这里先拿出跟数学相关的两个字“向量”。
所以这里会介绍一些向量的东西并介绍怎么使用向量作为工具去计算余量。不是很理解的朋友建议回去翻翻高数，不过都是基本的知识。

向量是什么

向量就是给定一个点A，连接原点到点A，并具有由O到A方向的连线，表示为 $\vec{O A}$ . 书本的定义：向量就是具有大小和方向东西。

大小(magnitude)

向量的大小(magnitude)写作 $‖ x ‖$ ,称为模(norm).
通过（Pythagoras’ theorem）毕达哥拉斯定理求模如下图，
${O A}^{2} = {O B}^{2} + {A B}^{2}$
${O A}^{2} = 3^{2} + 4^{2}$
$‖ x ‖ = 5$

方向（direction）

定义向量 $u (u_{1}, u_{2})$ 的方向为向量 $w (\frac{u_{1}}{‖ u ‖}, \frac{u_{2}}{‖ u ‖})$ 。如下图：

可以看到：

c o s (θ) = \frac{u_{1}}{‖ u ‖}

c o s (α) = \frac{u_{2}}{‖ u ‖}

所以向量

u (3, 4)

方向向量是

w (0.6, 0.8)

。方向向量的模为1.如下图

两个向量的加法

任意给给两个向量 $u (u_{1}, u_{2})$ ， $v (v_{1}, v_{2})$ 两个向量相加： $u + v = (u_{1} + v_{1}, u_{2} + v_{2})$

两个向量的减法

任意给给两个向量 $u (u_{1}, u_{2})$ ， $v (v_{1}, v_{2})$ 两个向量相减： $u - v = (u_{1} - v_{1}, u_{2} - v_{2})$ 。方向指向被减数的方向。

向量的点积（dot product）

$x \cdot y = ‖ x ‖ ‖ y ‖ c o s (θ)$ , $θ$ 为两个向量的夹角。
推导过程如下：

根据前面的分析我们知道，

c o s (β) = \frac{a d j a c e n t}{h y p o t e n u s e} = \frac{x_{1}}{‖ x ‖}

s i n (β) = \frac{o p p o s i t e}{h y p o t e n u s e} = \frac{x_{2}}{‖ x ‖}

c o s (α) = \frac{a d j a c e n t}{h y p o t e n u s e} = \frac{y_{1}}{‖ y ‖}

s i n (α) = \frac{o p p o s i t e}{h y p o t e n u s e} = \frac{y_{2}}{‖ y ‖}

从图片中得到

θ = β - α

, 那么

c o s (θ) = c o s (β - α)

c o s (β - α) = c o s (β) c o s (α) + s i n (β) s i n (α)

于是，

c o s (θ) = c o s (β - α) = c o s (β) c o s (α) + s i n (β) s i n (α)

c o s (θ) = \frac{x_{1}}{‖ x ‖} \frac{y_{1}}{‖ y ‖} + \frac{x_{2}}{‖ x ‖} \frac{y_{2}}{‖ y ‖}

c o s (θ) = \frac{x_{1} y_{1} + x_{2} y_{2}}{‖ x ‖ ‖ y ‖}

‖ x ‖ ‖ y ‖ c o s (θ) = x_{1} y_{1} + x_{2} y_{2}

点积的算术定义就出来，

x \cdot y = x_{1} y_{1} + x_{2} y_{2} = \sum_{i = 1}^{2} (x_{i} y_{i})

从上面的集合定义也能知道，两个向量的点积是一个数。

向量的正交投影

如图给定两个向量x，y，那么向量x在y上的投影为z。

通过上面的学习我们知道，

c o s (θ) = \frac{‖ z ‖}{‖ x ‖}

‖ z ‖ = ‖ x ‖ c o s (θ)

点积

c o s (θ) = \frac{x \cdot y}{‖ x ‖ ‖ y ‖}

于是可以推导得

‖ z ‖ = \frac{x \cdot y}{‖ y ‖}

另外我们知道方向向量的，如果u表示向量y的方向向量，

u = \frac{y}{‖ y ‖}

, 那么向量x在向量y上面的投影可以由下式计算：

‖ z ‖ = u \cdot x

我们还注意到，向量x在向量y上的投影得到的向量z，它的方向向量和向量y的方向向量是一致的，所以向量z可表示为 $z = ‖ z ‖ u$ 。

知道了向量x在向量y上面的投影z后，我们就能够计算向量x-z的距离:

‖ x - z ‖ = \sqrt{(3 - 4)^{2} + (5 - 1)^{2}} = \sqrt{17}

SVM 超平面

超平面方程

超平面方程的定义：

w^{T} x = 0

w^{T} x

计算两个向量的点积。

直线的方程 $y = a x + b$ 的另外一个表达形式 $- b - a x + y = 0$ 。给两个向量 $w (\begin{matrix} - b \\ - a \\ 1 \end{matrix})$ , $x (\begin{matrix} 1 \\ x \\ y \end{matrix})$ , 写上面超平面定义的形式：

- b - a x + y = w^{T} x = - b \times (1) + (- a) \times x + 1 \times y

既然两种表达式是一样的，那么为什么还要使用向量来定义超平面？
（1）对于高维的情况，向量的表示方式更好处理
（2）向量w对于超平面总是标准的（the vector w will always be normal to the hyperplane）。

计算点到超平面的距离

下图一个超平面把数据分成了两组。

超平面方程为

x_{2} = - 2 x_{1}

,使用向量形式

w^{T} x = 0

表示，

w (\begin{matrix} 2 \\ 1 \end{matrix})

x (\begin{matrix} x_{1} \\ x_{2} \end{matrix})

向量w如下图所示，计算点A（3,4）到超平面的距离，也就是计算A到它在超平面投影的距离。

fig11

我们把向量OA投影到向量w方向上，得到向量p，我们计算的距离是点A 到超平面的距离，但是从图中我们可以看到，向量OA在向量w方向上的投影就等于点A到超平面的距离，也就是向量p的模

‖ p ‖

。
可以求得向量w的方向向量，p的方向与w是一样，这个方向向量也是p的方向向量：

‖ w ‖ = \sqrt{2^{2} + 1^{2}} = \sqrt{5}

u = (\frac{2}{\sqrt{5}}, \frac{1}{\sqrt{5}})

向量OA用a表示，根据上面的公式，可得向量p和它的模：

p = (u \cdot a) u

p = (\frac{20}{5}, \frac{10}{5})

p = (4, 2)

‖ p ‖ = \sqrt{4^{2} + 2^{2}} = 2 \sqrt{5}

计算超平面的margin

余量定义为：

m a r g i n = 2 ‖ p ‖ = 4 \sqrt{5}

所以通过计算得到了超平面的余量。

接下来介绍如何选择最优超平面的推理。你会看到：

怎么寻找最优超平面？
怎么计算两个超平面的距离？
什么是超平面优化问题？

怎么寻找最优超平面？

通过上面的分析，我们已经能够计算超平面余量了。但是可惜的是她并不是最优的超平面。最优超平面是数据到超平面余量最大的那个。
如下图，两根蓝线的间距M1并不是最大的余量，最大的余量应该是M2.

那么我们怎么通过M1找到M2呢？这里我们也会发现寻找最大的余量跟寻找最优超平面是同一回事。

怎么寻找最大余量？

根据已有的数据，选择两个中间不包含任何数据的超平面，然后最大化他们的距离，那么超平面就能确定了。这个说起来简单，求起来并不容易。

Step1：有数据集，并能将他们分类

数据集通常由n个向量 $x_{i}$ 组成，每一个 $x_{i}$ 对应一个 $y_{i}$ , $y_{i}$ 的取值只能是两种情况1或者-1。
$x_{i}$ 可能是p维的。
所以数据集有n对 $(x_{i} ， y_{i})$ 元素组成，数学上用下面的公式表示：

D = {(x_{i}, y_{i}) ∣ x_{i} \in R^{p}, y_{i} \in {- 1, 1}}_{i = 1}^{n}

Step2：选择两个中间不包含任何数据的超平面

对于p维(p>2)的数据，找到两个这样的平面是困难的。即使是二维的，有时也根本无法找到，如下图。所以，只有在数据线性可分的情况下，这样的两个平面才能找到。

前面讲到超平面可以使用

w^{T} x = 0

表示。下面看看三维跟二维的区别。
三维的时候

w (b, - a, 1)

x (1, x, y)

w \cdot x = y - a x + b

二维的时候

w^{'} (- a, 1)

x^{'} (x, y)

w^{'} \cdot x^{'} = y - a x

二维的超平面两面加b就得到了前面的通用表达式，

w^{'} \cdot x^{'} + b = y - a x + b

w^{'} \cdot x^{'} + b = w \cdot x

所以下面将使用二维的向量，给定一个超平面

H_{0}

，满足

w \cdot x + b = δ

选择与

H_{0}

等距的两个超平面

H_{1}

H_{2}

w \cdot x + b = δ

w \cdot x + b = - δ

这里为了简化问题，变量 $δ$ 取1。那么两个超平面为：

w \cdot x + b = 1

w \cdot x + b = - 1

我们选择满足下面约束条件的所有超平面，对于 $x_{i}$ ：

w \cdot x_{i} + b \geq 1 for x_{i} having the class 1

w \cdot x_{i} + b \leq - 1 for x_{i} having the class - 1

根据图解释一下上面的约束条件，如果

x_{i}

=A，因为A在超平面上，所以

w \cdot x + b = 1

；同理对于点H，满足

w \cdot x + b = - 1

；那么在超平面

w \cdot x + b = 1

右上方的点C,D,E,F,G满足约束条件

w \cdot x + b > 1

；在超平面

w \cdot x + b = - 1

左下方的点I,J,K,L,M,N满足约束条件

w \cdot x + b < - 1

我们想把上面两个约束条件用一个表达式表示，对于 $x_{i}$ 对应取值

y_{i}

为-1的情况，

w \cdot x_{i} + b \leq - 1

, 两边同时乘以

y_{i}

y_{i} (w \cdot x_{i} + b) \leq y_{i} (- 1)

得到,

y_{i} (w \cdot x_{i} + b) \geq 1

对于 $x_{i}$ 对应取值

y_{i}

为1的情况，两边同时乘以

y_{i}

, 等式没有改变，所以可以用下面的统一表达式表示上面约束条件：

y_{i} (w \cdot x_{i} + b) \geq 1 for all 1 \leq i \leq n

Step3最大化两个超平面的距离

a）寻找两个超平面的距离

现在我们有两个超平面 $H_{0}$ 和 $H_{1}$ 的方程以及 $H_{0}$ 上面的一个点 $x_{0}$ , 我们如何求两个超平面的距离m。

我们找到与

x_{0}

距离m的一个集合，只要找到一个垂直于超平面

H_{1}

，长度为m的向量就可以。而垂直于超平面

H_{1}

的向量就是w。

求出w的方向向量u，

u = \frac{w}{‖ w ‖}

m乘以u，得到向量k，k就是我们想要找的向量，如下图

fig8

通过上面的推导，我们把线段m转变成一个向量k，下面可以通过向量 $x_{0}$ 计算m。

fig9

向量 $z_{0}$ 既是 $x_{0}$ 和 $k$ 相加的结果，

z_{0}

也是超平面上的一个点，所以用 $x_{0} + k$ 代替

z_{0}

w \cdot (x_{0} + k) + b = 1

w \cdot (x_{0} + m \frac{w}{‖ w ‖}) + b = 1

w \cdot x_{0} + m \frac{w \cdot w}{‖ w ‖} + b = 1

w \cdot x_{0} + m \frac{‖ w ‖^{2}}{‖ w ‖} + b = 1

w \cdot x_{0} + b = 1 - m ‖ w ‖

$x_{0}$ 在超平面 $H_{0}$ 上面，满足 $w \cdot x_{0} + b = - 1$ ，所以

- 1 = 1 - m ‖ w ‖

m = \frac{2}{‖ w ‖}

通过上式，我们就能够计算m。

b）最大化超平面的距离

由上面的推导得到余量的计算公式：

m = \frac{2}{‖ w ‖}

通过上面的式子，可以得出，w 的模越大，余量越小。
我们发现，最大化余量也就是最小化w的模。
这就变成了一个优化问题，在

y_{i} (w \cdot x_{i} + b) \geq 1

中最小化（w,b）,

‖ w ‖

.
解决这个优化问题，我们就能够得到最大的超平面余量。

才疏学浅，还未能创造知识，先做知识的搬运工！

详见原文地址：https://www.svm-tutorial.com/2014/11/svm-understanding-math-part-1/
详见原文地址：https://www.svm-tutorial.com/2014/11/svm-understanding-math-part-2/
详见原文地址：https://www.svm-tutorial.com/2015/06/svm-understanding-math-part-3/