感知机

感知机模型

[f(x) = sign(w cdot x + b) ]

其中，w和b为感知机模型参数，(w subseteq R^n)为权值，(b subseteq R^n)为偏置。sign是函数符号，即

[sign(x) = left{egin{matrix} +1, x geq 0 \ -1, x < 0 end{matrix} ight. ]

几何解释：
线性方程(w cdot x + b =0)对应于特征空间(R^n)中的一个超平面S，其中w是超平面的法向量，b是超平面的截距。这个超平面将特征空间划分为两部分。位于两部分中的点分别被氛围正、负两类。因此，超平面S称为分离超平面。
感知机学习，通过训练数据集求的感知机模型中w和b。通过感知机模型来对新输入的实例进行类别预测。

[frac {1} {||w||} |w cdot x_0 + b| ]

对于误分类数据((x_i, y_i))来说，(-y_i (w cdot x_i + b) > 0)成立。因此，误分类点到超平面的距离是：

[-frac {1} {||w||} y_i (w cdot x_i + b) ]

则，所有误分类点到分离超平面的距离总和为

[-frac {1} {||w||} sum _{x_i in M} y_i (w cdot x_i + b) ]

不考虑(-frac {1} {||w||})，后面的就是感知机学习的损失函数。

[T = { (x_1, y_1), ..., (x_N, y_N) } ]

以及类别集合

[y = {-1, +1} ]

感知机学习的损失函数定义为

[L(w, b) = -sum _{x_i in M} y_i (w cdot x_i + b) ]

其中，M为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。

训练问题转化为损失函数极小化问题：(min_{w,b} L(w, b))
梯度下降法（gradient descent）：首先任意选择一个超平面(w_0,b_0)，然后用梯度下降发不断的极小化目标函数（损失函数）。极小化过程中不是一次使用M中所有的误分类点的梯度下降，而是一次随机选择一个误分类点使其梯度下降。
感知机学习算法的原始形式
输入：训练数据集T；学习速率(eta, 0<eta leq 1)
输出：w, b；感知机模型(f(x) = w cdot x + b)

[w Leftarrow w + eta y_i x_i$$ $$b Leftarrow b + eta y_i ]

根据Novikoff定理，如果训练数据集T是线性可分的，则存在分离超平面(hat{w}_{opt} cdot hat{x} = w_{opt} cdot x + b_{opt} = 0)将训练数据集完全正确分开。

对偶形式的基本思想是，将w和b表示为实例(x_i)和标记(y_i)的线性组合的形式，通过求解其参数而求的w和b。假设初始值(w_0, b_0)均为0。对于误分类点((x_i, y_i))通过

[w Leftarrow w + eta y_i x_i$$ $$b Leftarrow b + eta y_i ]

逐步修改w，b。假设修改n次，则w，b关于((x_i, y_i))的增量分别为(alpha_i y_i x_i)和(alpha_i y_i)，其中(alpha_i = n_i eta)。由此得出最后学习到的w，b可以标识为：

[w = sum _{i=1}^{N} alpha_i y_i x_i$$ $$b = sum _{i=1}^{N} alpha_i y_i ]

感知机学习算法的对偶形式
输入：线性可分的数据集T，(y)，学习速率(eta)
输出：a，b；感知机模型(f(x) = sign( sum _{j=1}^{N} alpha_j y_j x_j cdot x + b))，其中(alpha = (alpha_1, ..., alpha_N)^T)

[alpha_i = alpha_i + eta$$ $$b= b + eta y_i ]