最大似然估计与最小二乘

最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
例如：一个麻袋里有白球与黑球，但是我不知道它们之间的比例，那我就有放回的抽取10次，结果我发现我抽到了8次黑球2次白球，我要求最有可能的黑白球之间的比例时，就采取最大似然估计法。

MLE可以看作一种特殊情况下的Bayesian 估计，具体来说，就是在prior (先验)是 diffuse （无知的）情况下，让posterior(后验) 分布取得极大值的系数值。我们有一些理论模型，记作 "model"，这个model 是什么，在很多实践中，就是一个模型中关键系数的值是什么这样的问题（不同的系数的值，我们称作不同的model) 。我们现在又观测到一组数据，记作"observation"。那么问题来了，给定一个model (一组关键系数的值），必然会有关于observation 的分布密度函数，所以我们知道P(observation|model) （给定一个model，observation的条件分布）的函数形式。

我们真正关心的，却是 P(model|observation) 的函数形式，也就是给定了当前的observation （observation是实际观测到的，是确定下来的），到底不同的model的概率是什么。当然，一个很贪心的做法，就是找到那个能把P(model|observation) 取到最大值的model （给定某个观测，最有可能的model）。

现在根据贝耶斯原理，

P(model|observation) = [ P(observation|model) * P(model) ]/ P(observation)

其中P(observation) 不太重要，因为我们想知道不同model 是如何影响 P(model|observation)的，或者是贪心的求P(model|observation)的最大值。而P(observation)已经固定下来了，不随model改变，所以我们无视他。

我们如果知道 P(model)（所谓的Prior) 的函数形式，那么就没有什么问题了。此时的P(model|observation)是一个关于model 的函数。报告这个P(model|observation)作为model的函数的函数形式，就叫贝耶斯估计。可是，这需要我们知道P(model)。实际中我们不知道这个玩意，所以一般我们猜一个。

我们如果承认不知道P(model)，认为我们对他是无知的话，那么P(model) = 常数 for all model，此时求P(model|observation) 最大值，也就等价于求P(observation|model) 的最大值，这就叫做MLE。

最小二乘：找到一个（组）估计值，使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的，但绝对值在数学上求最小值比较麻烦，因而替代做法是，找一个（组）估计值，使得实际值与估计值之差的平方加总之后的值最小，称为最小二乘。“二乘”的英文为least square，其实英文的字面意思是“平方最小”。这时，将这个差的平方的和式对参数求导数，并取一阶导数为零，