深入浅出极大似然估计法

    之前多次接触极大似然估计,一直没有透彻的理解清楚,下午特意抽空查阅资料,整理成一篇较为通俗易懂的博文。

  概念

  “似然” ( likelihood )可以通俗的理解成 ”像是这样“ ,意思为 ”事件(观察数据)发生的可能性“,”极大似然估计“ 就是要找到一个估计值,使得 ”事件发生的可能性“ 最大。

  举个例子

   

 

 

  如图,有两个外形完全相同的箱子。甲箱中有99个白球1个黑球,乙箱中有99个黑球1个白球。一次试验,取出的是黑球。 那么这个黑球最像是从哪个箱子取出的?大多数人都会说,这个黑球最像是从乙箱中取出的,这个推断符合人们的经验,即为“最大似然”。

  总结来说,最大似然估计 假设模型是确定的,然后利用抽取的样本结果,反推最大概率导致这样结果的模型参数值,即:“模型已定,参数未知”。

因此,样本结果的概率(即事件发生的可能性),是一个带模型参数的似然函数。最大似然估计法的目标就是最大化似然函数,用最优化算法求解 导致样本结果概率最大的参数值。 

  极大似然估计的描述

  极大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

  首先,假设$ x_1,x_2,...,x_n$为独立同分布的采样,θ为模型参数, f 为所使用的模型。因此,产生上述采样结果的概率可表示为:

$$f(x_1,x_2,...,x_n| heta) = f(x_1| heta)*f(x_2| heta)...,f(x_n| heta)$$

  由于极大似然估计法中,我们已知的为$ x_1,x_2,...,x_n$,未知为θ,故似然函数定义为:

$$L( heta|x_1,...,x_n) = f(x_1,...,x_n| heta)=prod_{i=1}^{n}f(x_i| heta)$$

  两边取对数,得到对数似然,公式为:

$$ln L( heta|x_1,...,x_n) = ln prod_{i=1}^{n}f(x_i| heta) = sum_{i=1}^nln f(x_i| heta)$$

  最大似然估计法最常用的为对数平均似然,公式为:

$$hat{l} = frac1{n}ln L( heta|x_1,...,x_n)$$

  因此最大似然估计法就是 最大化似然函数求参数值,即:

$$hat{ heta}_{mle} = argmax_{ hetainTheta} hat{l}( heta|x_1,...,x_n)$$

极大似然估计的例子

  我们假设已知的模型为正态分布$N(mu,sigma^2)$,则似然函数为:

$$L(mu,sigma^2)=prod_{i=1}^{n}f(x_i| heta)=prod_{i=1}^{n}frac{1}{sqrt{2pi}sigma}e^{-frac{(x_i-mu)^2}{2sigma^2}} =(2pisigma^2)^{-frac{n}{2}}e^{-frac1{2sigma^2}sum_{i=1}^n(x_i-mu)^2}$$

  两边取对数,得对数似然函数为:

$$ln L(mu,sigma^2)=-frac{n}{2}ln(2pi)-frac{n}{2}ln(sigma^2)-frac1{2sigma^2}sum_{i=1}^n(x_i-mu)^2$$

  最大化似然函数,我们对它进行求导:

$$left{egin{array}{c}frac{partialln  L(mu,sigma^2)}{partialmu}=frac1{sigma^2}sum_{i=1}^{n}(x_i-mu) = 0 \ frac{partialln L(mu,sigma^2)}{partialsigma^2}  = -frac{n}{2sigma^2}+frac1{2sigma^4}sum_{i=1}^{n}(x_i-mu)^2 = 0 end{array} ight.$$

  联合解得:

$$left{egin{array}{c}mu^*=overline{x}=frac1{n}sum_{i=1}^{n}x_i \ sigma^{*2}=frac1{n}sum_{i=1}^n(x_i-overline{x})^2 end{array} ight.$$

  似然方程有唯一解:$(mu^*,sigma^{*2})$,即为最大似然估计量$hat{ heta}$。

  因此,求最大似然估计量$hat{ heta}$的一般步骤为:

        (1)写出似然函数;

        (2)对似然函数取对数,并整理;

        (3)求导数;

        (4)解似然方程。

注意:

  • 参数估计不同于估计。

  日常所说的估计一般是通过样本分布估计总体的分布,比如用样本集的均值作为总体的期望。在参数估计中,模型是假设已知的,估计得参数后就可得完整模型。

 

原文地址:https://www.cnblogs.com/laiyaling/p/10054062.html