SVM

Lagrange的推导，为什么是先求最大值再求最小值

当b,w不满足条件时，也就是说这一项是大于零的，因为a_n也是非负的，所以后面这一项是始终大于等于零的，如果求最大值会趋向于无穷大。

当b,w满足条件时，这一项是小于等于零的，因为a_n也是非负的，所以后面这一项是始终小于等于零的，如果求最大值则是零，剩下的就是

这种先求最大值再求最小值的做法满足我们的优化目标。

为了对w,b的最优化问题变成没有条件的，所以将原始问题转化为对偶问题。对偶的推导，怎么转换成对偶问题的：

soft-margin：

防止过拟合，适用于非线性

C越大，允许犯的错越少。C越小，允许的错误越多，边界越宽。

ξ_i表示违反了多少，ξ_i=0表示没有违反此时（x_i，y_i）在边界上，0< ξ_i < 1表示（x_i，y_i）在边界与超平面之间，

ξ_i = 1表示（x_i，y_i）在超平面上， ξ_i > 1 表示（x_i，y_i越过了超平面，分类错误）

核技巧

用线性分类方法解决非线性分类问题，使用一个变换将原数据空间的数据映射到新空间，然后在新空间里用线性分类学习方法从训练数据中学习分类模型

核技巧应用到svm就是将一个非线性变换输入空间（欧式空间或离散集合）对应于一个特征空间（希尔伯特空间），使得在输入空间的超曲面模型对应于特征空间中的超平面模型，然后通过在特征空间中使用线性支持向量机就可以完成分类。

高斯核是无穷维的可以由泰勒展开来证明。