机器学习: 最小二乘与贝叶斯估计

在线性回归中，我们最常用到的是最小二乘法，给定一组样本 S={xi},i=1,2,...N 和目标值 t={t1,t2,...tN},
我们希望找到一种映射关系 y(x,w)=wTx, 最小二乘法就是通过求解如下的目标函数来求 w:

E = 1 2 \sum i = 1 N (t i - y (x i, w)) 2

接下来我们从贝叶斯估计出发，探讨最小二乘与贝叶斯估计中最大似然估计和最大后验概率估计的关系。因为 y(x,w) 只是目标值t 的近似估计，所以两者满足如下的关系:

t = y (x, w) + ϵ

如果我们假设 ϵ 是满足均值为0, precision (精确度)为 β的高斯分布，这里β即为方差的倒数。那么我们有:

p (t | x, w, β) = N (t | y (x, w), β - 1)

进一步假设样本分布满足 i.i.d 即独立同分布，那么这组样本的联合概率满足:

p (t | S, w, β) = \prod i = 1 N N (t i | w T x i, β - 1)

利用最大似然估计，可以得到:

ln p (t | S, w, β) = \sum i = 1 N ln (N (t i | w T x i, β - 1))

= N 2 ln β - N 2 ln (2 π) - β E D (w)

而ED(w)就是:

E D (w) = 1 2 \sum i = 1 N (t i - w T x i) 2

可以看到，高斯分布下的最大似然估计就是最小二乘。我们可以求出最优的w, 假设对应最大似然估计下的最优解为 wML, 可以进一步求出最大似然估计下的精确度β为:

1 β M L = 1 N \sum i = 1 N (t i - w T M L x i) 2

那么给定一个新的x, 其对应的预测值t 满足如下的高斯分布，

p (t | x, w M L, β M L) = N (t | y (x, w M L), β - 1 M L)

显然，当 t=y(x,wML) 的时候，所对应的概率是最大的。从最大似然估计出发，我们可以得到最小二乘。

接下来，考虑最大后验概率估计，给 w 一个先验分布，假设w 的分布也是满足高斯形式:

p (w | α) = N (w | 0, α - 1 I) = (α 2 π) (M + 1) / 2 e x p (- α 2 w T w)

根据贝叶斯定理，我们知道后验概率与先验概率和似然函数之积是成一定比例的:

p (w | t, S, α, β) \propto p (t | w, S, β) p (w | α)

利用最大似然估计，对 p(t|w,S,β)p(w|α) 取对数，去掉无关项，我们可以得到如下的表达式:

E (w) = β 2 \sum i = 1 N (t i - w T x i) 2 + α 2 w T w

令 λ=αβ, 那么上式可以写成:

E (w) = 1 2 \sum i = 1 N (t i - w T x i) 2 + λ 2 w T w

这个就是带正则项的最小二乘，这个可以减轻over fitting的问题。所以最大后验概率估计对应的就是带正则项的最小二乘。

所以，通过高斯分布，可以将贝叶斯估计与最小二乘联系起来。

>
C.M.Bishop, “Pattern Recognition and Machine Learning”.