支持向量机（上）

首先，提出一个问题：如何构造非线性分类器？

可以从线性回归到逻辑回归的变化过程中得到启发，逻辑回归本质上是增加了一个逻辑函数g(z)来映射输入x到{0,1}。

逻辑回归的计算过程可以简化为上图，圈表示一个计算节点，即激活函数（activation function）g(z)，这里取Sigmoid函数（激活函数还可以选取双曲正切函数（tanh），它的映射结果为{-1,1}）。

那么输出为：

这就是一个单一的神经元，它的输入输出映射关系实际上就逻辑回归。

现在将上图中的计算单元（神经元）进行组合，并增加一层隐含层（hidden layer）就构成了神经网络（Neural Network）的基本结构，如下图。

+1是偏置节点，也就是截距项；
左边的节点组成输入层，输入的是特征向量X；
中间的节点组成隐含层，经过激励函数g(z)计算得到输出；
右边的节点组成输出层，输出的是假设函数h或标签l。

采用前向传播的计算步骤，这样就得到了一个神经网络的基本模型。为了得到模型的解，这里同线性回归一样采用损失函数最小化的方法。

接下来，为了提出支持向量机，结合推导神经网络的思路先描述两种从不同角度对支持向量机的理解。

一、回顾逻辑回归

逻辑回归是将特征的线性组合作为输入，通过逻辑函数g(z)学习得到0或1的分类结果。换句话说，由于输入的取值范围从负无穷到正无穷，而输出为0或1，自然会联想到使用逻辑函数来映射。而所求假设函数h就是输出y=1时的后验概率。

假设函数：

其中x是n维特征向量，g为sigmoid函数，它的图像为：

假设函数的结果为y=1时的后验概率：

所以，当需要判断新的输入x属于哪一类，只需要计算此时的h_θ(x)，若值大于0.5，则属于“1”；若值小于0.5，则属于“0”。实际上，h_θ(x)的值只与θ^Tx有关，当θ^Tx≥0，h_θ(x)﹥0.5；当θ^Tx﹤0，h_θ(x)﹤0.5。如果θ^Tx﹥﹥0，h_θ(x)=1，就可以非常确信y=1；反之，h_θ(x)=0，y=0。逻辑回归最终的目标就是要通过学习参数θ，使得正例（线性组合）远大于0，而负例（线性组合）远小于0。如此就可以引出一个函数间隔（Functional Margins）的概念，如图。

中间的直线由θ^Tx=0确定，它也被叫做分离超平面（separating hyperplane），X表示正例，○表示负例。图中有三个被标注的点A,B,C，从图中我们可以非常确定A属于正例，B比较确定，而C不太确定。实际上，我们总是更加关注靠近分离超平面的点，总是希望它们能够远离分离超平面，而不是所有的样本点，后面会引出几何间隔（Geometric Margins）的概念。这正是逻辑回归与支持向量机的不同之处，逻辑回归考虑全局最优（使得特征的线性组合远远大于0，也就是说尽量让更多的样本点远离超平面），而支持向量机考虑局部最优（不考虑已经远离超平面的点）。

二、函数间隔与几何间隔

1. 新的标注

为了方便讨论支持向量机，需要重新定义分类的符号标注。