最大似然估计与最小二乘

最大似然估计,就是利用已知的样本结果反推最有可能(最大概率)导致这样结果的参数值。
例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法。

MLE可以看作一种特殊情况下的Bayesian 估计,具体来说,就是在prior (先验)是 diffuse (无知的)情况下,让posterior(后验) 分布取得极大值的系数值。我们有一些理论模型,记作 "model",这个model 是什么,在很多实践中,就是一个模型中关键系数的值是什么这样的问题(不同的系数的值,我们称作不同的model) 。我们现在又观测到一组数据,记作"observation"。那么问题来了,给定一个model (一组关键系数的值),必然会有关于observation 的分布密度函数,所以我们知道P(observation|model) (给定一个model,observation的条件分布)的函数形式。

我们真正关心的,却是 P(model|observation) 的函数形式,也就是给定了当前的observation (observation是实际观测到的,是确定下来的),到底不同的model的概率是什么。当然,一个很贪心的做法,就是找到那个能把P(model|observation) 取到最大值的model (给定某个观测,最有可能的model)。

现在根据贝耶斯原理,

P(model|observation) = [ P(observation|model) * P(model) ]/ P(observation)

其中P(observation) 不太重要,因为我们想知道不同model 是如何影响 P(model|observation)的,或者是贪心的求P(model|observation)的最大值。而P(observation)已经固定下来了,不随model改变,所以我们无视他。

我们如果知道 P(model)(所谓的Prior) 的函数形式,那么就没有什么问题了。此时的P(model|observation)是一个关于model 的函数。报告这个P(model|observation)作为model的函数的函数形式,就叫贝耶斯估计。可是,这需要我们知道P(model)。实际中我们不知道这个玩意,所以一般我们猜一个。

我们如果承认不知道P(model),认为我们对他是无知的话,那么P(model) = 常数 for all model,此时求P(model|observation) 最大值,也就等价于求P(observation|model) 的最大值,这就叫做MLE。

 
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,





原文地址:https://www.cnblogs.com/TMatrix52/p/7753457.html