最小二乘与最大似然估计之间的关系

1、结论

测量误差（测量）服从高斯分布的情况下，最小二乘法等价于极大似然估计。

2、最大似然估计概念

$max{L( heta;X)}$ $(1)$

最大似然估计就是通过求解最大的（1）式得到可能性最大的 $heta$ 作为真 $heta$ 的估计，其中 L 函数称为参数 $heta$ 的似然函数，是一个概率分布函数。

似然估计的思想是：测量值 X 是服从概率分布的，求概率模型中的参数，使得在假设的分布下获得该组测量出现概率最大：

例如：通过一次测量得到1.9、1.9、2.0、2.1、2.0、1.9、1.5、2.5、2.0、2.0，

通过直觉我们发现这组测量比较符合期望为2的高斯分布。

要不然，为什么取值都在2附近呢，为啥测量数据中没有（很少）1.0、5.0呢？也就是说，可以认为我的这些测量

是符合某个概率分布的（这个例子中为高斯分布），测量值中得到2附近值的概率比较大。

例如：一个箱子里有红球和黑球，通过10次放回抽取实验得到的结果为：8次黑球、2次红球。问箱子中黑球的比例？

这个例子中箱子里只有红球和黑球，可以假设黑球的比例为 p ，那么红球的概率为（1-p），

那么10次实验中8次黑球、两次红球的概率为： $L(p;8,2)={p^8}*{(1-p)^2}$ 。通过 $maxL$ $max{L}$ 即可求出 p = 0.8。

3、最大似然估计求法

a、样本从高斯分布中采样获得。高斯概率分布函数为：

$f=frac{1}{{sqrt{2pi}sigma}}{e^{-frac{{{{(x-mu)}^2}}}{{2{sigma^2}}}}}$ $(2)$

通过测量获得 N 个测量值， ${x_1}...{x_n}$ ，它们符合高斯概率分布，此时它们的似然估计为：

$L(mu,{sigma^2})=frac{1}{{sqrt{2pi}sigma}}{e^{-frac{{{{({x_1}-mu)}^2}}}{{2{sigma^2}}}}}*....frac{1}{{sqrt{2pi}sigma}}{e^{-frac{{{{({x_n}-mu)}^2}}}{{2{sigma^2}}}}}=prodlimits_{i=1}^n{frac{1}{{sqrt{2pi}sigma}}{e^{-frac{{{{({x_i}-mu)}^2}}}{{2{sigma^2}}}}}}$ $(3)$

通过最大化似然估计函数 L ，即可求出 $mu$ 、 $sigma$ ：

$max{L(mu,{sigma^2})}$ $(4)$

但是，（4）式中目标函数为乘积的形式，求导结果复杂，这里对目标函数取对数，这样做不影响单调性：

$log{L(mu,{sigma^2})}=-frac{n}{2}log(2pi)-frac{n}{2}log({sigma^2})-frac{1}{{2{sigma^2}}}sumlimits_{i=1}^n{{{({x_i}-mu)}^2}}$ $(4)$

(4)中似然函数取对数后的函数称为似然函数，通过对似然函数取对数可以简化似然函数的求解。

对似然函数求导并等于0，即可求出最大似然下的 $mu$ 、 $sigma$ ：

$left{egin{array}{l} frac{{partiallog{L(mu,{sigma^2})}}}{{partialmu}}=frac{1}{{{sigma^2}}}sumlimits_{i=1}^n{({x_i}-mu)}=0\ frac{{partiallog{L(mu,{sigma^2})}}}{{partial{sigma^2}}}=-frac{n}{{2{sigma^2}}}+frac{1}{{2{sigma^4}}}sumlimits_{i=1}^n{{{({x_i}-mu)}^2}}=0 end{array} ight.$ $(5)$

得到：

$left{egin{array}{l} {mu^*}=ar{x}=frac{1}{n}sumlimits_{i=1}^n{{x_i}}\ {sigma^2}=frac{1}{n}sumlimits_{i=1}^n{{{({x_i}-ar{x})}^2}} end{array} ight.$ $(6)$

b、服从泊松分布和均匀分布下的最大似然估计可参阅：http://blog.sciencenet.cn/blog-491809-400893.html

c、最大对数似然估计一般求解过程：

写出最大似然估计表达式：

$log{L( heta)}=sumlimits_{i=1}^n{log{f({x_i};{ heta_1}...{ heta_k})}}$ $(7)$

对每个 $heta$ 求偏导并等于0：

$frac{{log{L( heta)}}}{{partial{ heta_i}}}=0,i=1...k$ $(8)$

d、与最大似然估计对等的还有一个 矩估计方法。

矩估计法，是利用样本矩来估计总体中相应的参数。矩估计法的基本思想是用样本矩代替总体矩。

最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。

4、最大似然估计与最小二乘之间的关系

这部分内容来自：http://www.zhihu.com/question/20447622

本部分内容需要以下知识：

a、高斯分布、拉普拉斯分布、最大似然估计、最大后验估计（MAP）

b、按照李航博士的观点，机器学习三要素为：模型、策略、算法。一个模型有多种求解策略，

每一种求解策略可能最终又有多种计算方法。下面的内容主要讲解算法。

从概率论的角度：

a、最小二乘（Least Square）的解析解可以用Gaussian分布以及最大似然估计求得

b、Ridge回归可以用Gaussian分布和最大后验估计解释

c、LASSO回归可以用Lapace分布和最大后验估计解释

假设线性回归模型具有如下形式：

$f(x)=sumlimits_{j=1}^d{{x_j}{w_j}+varepsilon}=x{w^T}+varepsilon$

其中 $xin{R^{1{ imes}{d}}}$ ， $win{R^{1{ imes}{d}}}$ ，误差 $varepsilon{in}{R}$ 。

当前已知 $X={({x_1}...{x_n})^T}{in}{R^{n{ imes}{d}}}$ ， $y{in}{R^{n{ imes}{1}}}$ ，如何求 $w$ 呢？

策略1：假设 ${varepsilon_i}sim{ m{N}}(0,{sigma^2})$ ，即 ${y_i}{sim}N({x_i}{w^T},{sigma^2})$ ，那么用最大似然估计推导：

$arg{max{_w}}L(w)=lnprodlimits_{i=1}^n{frac{1}{{sqrt{2pi}sigma}}}exp(-frac{1}{2}{(frac{{{y_i}-{x_i}{w^T}}}{sigma})^2})$ $(9)$

$arg{max{_w}}L(w)=-frac{1}{{2{sigma^2}}}sumlimits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-nlnsigmasqrt{2pi}}$ $(10)$

$arg{min{_w}}f(w)=sumlimits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}=||y-X{w^T}||_2^2$ $(11)$

公式(11)式就是最小二乘。

策略2：假设 ${varepsilon_i}sim{ m{N}}(0,{sigma^2})$ ， ${w_i}{sim}N(0,{ au^2})$ ，那么用最大后验估计推导：

$arg{max{_w}}L(w)=lnprodlimits_{i=1}^n{frac{1}{{sqrt{2pi}sigma}}}exp(-frac{1}{2}{(frac{{{y_i}-{x_i}{w^T}}}{sigma})^2}).prodlimits_{j=1}^d{frac{1}{{sqrt{2pi} au}}exp}(-frac{1}{2}{(frac{{{w_j}}}{ au})^2})$ $(12)$

$arg{max{_w}}L(w)=-frac{1}{{2{sigma^2}}}sumlimits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-frac{1}{{2{ au^2}}}sumlimits_{j=1}^d{{w_j}^2-nlnsigmasqrt{2pi}}-dln ausqrt{2pi}}$

$arg{min{_w}}f(w)=sumlimits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+lambdasumlimits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+lambda||w||_2^2$ $(14)$

公式(14)式就是Ridge回归。

策略3：假设 ${varepsilon_i}sim{ m{N}}(0,{sigma^2})$ ， ${w_i}{sim}Lapace(0,b)$ ，同样采用后验估计推导：

$arg{max{_w}}L(w)=lnprodlimits_{i=1}^n{frac{1}{{sqrt{2pi}sigma}}}exp(-frac{1}{2}{(frac{{{y_i}-{x_i}{w^T}}}{sigma})^2}).prodlimits_{j=1}^d{frac{1}{{2b}}exp}(-frac{{left|{{w_j}} ight|}}{ au})$ $(15)$

$arg{max{_w}}L(w)=-frac{1}{{2{sigma^2}}}sumlimits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-frac{1}{{2{ au^2}}}sumlimits_{j=1}^d{left|{{w_j}} ight|-nlnsigmasqrt{2pi}}-dln ausqrt{2pi}}$ $(16)$

$arg{min{_w}}f(w)=sumlimits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+lambdasumlimits_{j=1}^d{left|{{w_j}} ight|}=||y-X{w^T}||_2^2+lambda||w|{|_1}$ $(17)$

公式（17）式LASSO。