机器学习之十一问支持向量机（SVM）

推导了支持向量机的数学公式后，还需要对比和总结才能更深入地理解这个模型，所以整理了十一个关于支持向量机的问题。

第一问：支持向量机和感知机（Perceptron）的联系？

1、相同点：

都是一种属于监督学习的二类分类器，都属于判别模型。感知机是支持向量机的基础。

2、不同点：

（1）学习策略：感知机是用误分类损失函数最小的策略，求得分离超平面。M为误分类点个数，则目标函数为

支持向量机是用几何间隔最大化的策略，求最优分离超平面。某点的几何间隔为：

线性可分支持向量机的目标函数和优化问题为：

支持向量机的分离超平面不仅要将正负例点分开（感知机做的事情），还有对分离超平面最近的点也要有足够大的确定度把它们分开。

（2）优化算法：感知机的最优化算法是随机梯度下降法。支持向量机的最优化算法是通过拉格朗日乘子法，得对偶问题，再用求解凸二次规划的算法来做（SMO）。

（3）解的个数：感知机的解是不唯一的，而支持向量机的解是唯一的。

（4）感知机追求最大程度正确划分所有的点，最小化错误，很容易造成过拟合；支持向量机追求大致正确分类的同时，一定程度上避免过拟合。

（5）感知器能处理的问题就是二分类问题。但支持向量机不同，有了核方法的加持，处理非线性问题也是可以的。支持向量机还能解决多分类问题。另外支持向量机中的支持向量回归（SVR）还可以解决回归问题。

（6）感知机的目标函数是经验风险，而线性支持向量机带合页损失函数的目标函数是结构风险，加了L₂范数的正则化项。

第二问：支持向量机和逻辑回归（LR）的联系？

1、相同点：

（1）不考虑核函数的话，都是线性分类器，都是求一个最佳分类超平面

（2）都是监督学习算法，都属于判别模型。

2、不同点：

（1）损失函数不同

逻辑回归的损失函数是交叉熵损失函数：

而支持向量机转化为拉格朗日形式的目标函数为：

从另一个角度理解，支持向量机的目标函数是加了正则化项的hinge loss 损失函数：

支持向量机自带了正则项（L₂范数），是结构风险最小化的算法，而逻辑回归解决过拟合问题需要另外加正则项：

（2）支持向量机基于距离分类，逻辑回归基于概率分类

逻辑回归基于概率理论，假设样本为正样本的概率可以用sigmoid函数来表示，然后通过极大似然估计的方法估计出参数的值。

支持向量机基于几何间隔最大化原理，认为存在最大几何间隔的分类面为最优分类面。支持向量机依赖数据表达的距离测度，所以需要对数据先做Normalization，而逻辑回归不受其影响。

（3）对数据和参数的敏感程度不同

支持向量机在决定分离超平面时只有支持向量起作用，在间隔边界以外移动、增加或减少其他实例点对分类决策函数不会有任何影响。

逻辑回归受所有数据点的影响，直接依赖数据分布，每个样本点都会影响决策面的求解结果。

（4）在解决非线性问题时，支持向量机采用核技巧，而逻辑回归不采用

在非线性分类问题中，确定分类决策函数时，支持向量机中只有少数的支持向量参与到核函数的运算，计算复杂度不高。而逻辑回归如果也运用核技巧，那么所有样本点都必须参与核计算，那么计算复杂度非常高。

第三问：支持向量机为什么采用间隔最大化？

1、间隔最大化是指支持向量机的策略是学习能够正确划分数据集并且几何间隔最大的分离超平面。间隔最大不是指函数间隔最大，而是指几何间隔最大。某点与分离超平面的几何间隔是：

即样本点到分离超平面的距离。

2、当训练数据线性可分时，存在无穷个分离超平面可以将两类数据正确分开。感知机利用误分类最小策略，求得分离超平面，不过此时的解有无穷多个。而线性可分支持向量机利用间隔最大化求得最优分离超平面，解是唯一的。

3、对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类，这样的超平面对未知的新实例有很好的分类预测能力（泛化能力强）。

第四问：为什么要转化为对偶问题？

1、对偶问题更容易求解，通过拉格朗日函数把目标函数和条件约束整合成了一个新函数，化简后转化为求解一个变量的问题。

2、非常自然地引入核函数，从而推广到非线性分类问题。

（1）线性支持向量机的对偶问题的目标函数为：

（2）将对偶问题目标函数中的內积用核函数来代替，就成了引入核函数后的目标函数：

第五问：为什么要引入核函数？

1、为了解决线性不可分问题

当样本点在原始空间线性不可分时，可以将输入空间映射到更高维的特征空间，使样本在新的特征空间线性可分，从而可以用线性分类方法来求解。核技巧就属于这种方法。

2、为了解决映射函数可能带来的特征空间维度过高问题

定义了核函数K(x,y)=<ϕ(x),ϕ(y)>，那么向量在特征空间的内积等于它们在原始空间中通过核函数 K 计算的结果。那么就可以直接在低维空间计算两个向量的內积，而不需要显式地定义映射函数，求解难度降低。因为如果用映射函数，那么新特征空间的维度可能很高，甚至是无穷维，导致计算<ϕ(x),ϕ(y)>非常困难。

第六问：常见的核函数有哪些？怎么选择合适的核函数？

1、常见的核函数有：

2、只要一个对称函数所对应的的核矩阵（Gram矩阵）是半正定的，它就能作为核函数使用，这个对称函数称为正定核函数。半正定矩阵是指如果A是实对称矩阵，对任意非零列向量x有，那么称A为半正定矩阵。

3、一般选择线性核和高斯核。当样本的特征很多，和样本数量差不多时，往往样本线性可分，可考虑用线性核函数；当特征较少，样本的数量很多时，可以手动添加一些特征，使样本线性可分，再考虑用线性核函数；当特征较少，样本数量一般时，考虑用高斯核函数（RBF核函数的一种，指数核函数和拉普拉斯核函数也属于RBF核函数）。

第七问：介绍一下高斯核函数？

1、高斯核函数的公式为：