机器学习笔记

机器学习笔记—感知机

在学习理论的最后，我们介绍一种不同的机器学习模型。之前介绍的都是批学习，先从训练集合中学习，再在测试集上评估。本文介绍的是在线学习，边学习边预测。

给定学习算法一个序列例子 (x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...,(x^(m),y^(m))，算法先遇到 x⁽¹⁾，然后预测 y⁽¹⁾ 是什么，做了预测后，y⁽¹⁾ 的真实值会给算法，算法使用这个信息来执行学习。然后给算法 x⁽²⁾并要求做预测，然后再给 y⁽²⁾ 的真实值，再次执行学习，直到 (x^(m),y^(m))。在在线学习中，我们对算法在执行过程中的错误总数很感兴趣。

我们将给感知机算法的在线学习错误一个上界，为使连续求导容易些，我们还使用标识 y∈{-1,1}

感知机算法有参数 θ∈Rⁿ⁺¹，做预测是根据

h_θ(x)=g(θ^Tx)

其中

给定训练集 (x,y)，感知机学习规则以下面方式更新。如果 h_θ(x)=y，那么对参数不作更改。不然执行以下更新：

θ:=θ+yx

下面定理给了感知机算法的在线学习错误一个上界。注意下面给的上界，并不明显依赖于序列的例子个数 m 或者输入的维度 n。

定理：给定序列 (x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...,(x^(m),y^(m))，假设对所有的 i，都有 ||x⁽ⁱ⁾||≤D，且有一个单位长度向量 u（||u||₂=1），使得 y⁽ⁱ⁾(u^Tx⁽ⁱ⁾)≥γ（例如，当 y⁽ⁱ⁾=1 时，u^Tx⁽ⁱ⁾≥γ，当 y⁽ⁱ⁾=-1 时，u^Tx⁽ⁱ⁾≤-γ，所以，是 u 以至少 γ 的间隔把数据分开）。感知机在序列上犯错的总数至多是 (D/γ)²。

证明：感知机只是在它犯错时才更新权重，令 θ^(k) 表示犯第 k 个错误时的权重，θ⁽¹⁾=0（权重初始化为 0），如果第 k 个错误时在例子 (x⁽ⁱ⁾,y⁽ⁱ⁾) 上，那么 g((x⁽ⁱ⁾)^Tθ^(k))≠y⁽ⁱ⁾，所以

(x⁽ⁱ⁾)^Tθ^(k)y⁽ⁱ⁾≤0

从感知机学习规则，有 θ^(k+1)=θ^(k)+y⁽ⁱ⁾x⁽ⁱ⁾。

然后可得

通过推导，可得

(θ^(k=1))^Tu≥kγ

同样可得到

同样应用归纳法

||θ^(k+1)||²≤kD²

联合式子，可得

第二个式子的依据是，u 是个单位长度的向量，z^Tu=||z||·||u||cosΦ≤||z||·||u||，其中 Φ 是 z 和 u 的角度。

结果显示 k≤(D/γ)²，所以感知机的第 k 个错误， k≤(D/γ)²。

参考资料：

1、http://cs229.stanford.edu/notes/cs229-notes6.pdf