最小二乘法least square

上研究生的时候接触的第一个Loss function就是least square。最近又研究了一下，做个总结吧。

定义看wiki就够了。公式如下

E (w) = 1 2 \sum n = 1 N { y - x W T } 2

其中

我遇到的第一个问题是，这个公式是怎么得到的，motivation是什么。我个人倾向于最大似然这个角度来解释。具体如下：

假设回归或分类模型公式如下：

y = W T x + ϵ

p (y ∣ X, w, σ) = Π N n = 1 N (W T x, σ 2)

两边同取自然对数，则

l n (p (y ∣ X, w, σ)) = \sum i = 1 N l n (N (W T x, σ 2))

而

故

l n (p (y ∣ X, w, σ)) = - 1 2 σ 2 \sum n = 1 N { y n - W T x n } 2 -

最大似然函数，求解W,

W * = a r g min W - 1 2 σ 2 \sum n = 1 N { y n - W T x n } 2 - 1 2 l

上式中第二项与

W * = a r g min W - 1 2 σ 2 \sum n = 1 N { y n - W T x n } 2

把上式中的

求解时，对对数似然函数求偏导（注意矩阵求导的规则）

\sum n = 1 N y n x T n = W T \sum n = 1 N x n x T n

两边同取矩阵的逆，则有：

如果用

上面的公式称为normal equation。可以求得

最大似然法在一定程度上证明了最小二乘法的合理性，但是事实上在历史上最小二乘的出现早于前者，所以可以从其它的角度思考一下最小二乘的合理性。比如最小二乘的几何意义，这篇文章讲的挺好的，看了之后受益匪浅。

from: http://bucktoothsir.github.io/blog/2015/12/04/leastsquare/