极大似然估计

标签（空格分隔）：数学

最大似然估计（maximun likelihood estimate）是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家哦罗纳德·费雪爵士在1912至1922年间开始使用的。
似然是对likelihood的一种较为贴切的文言文的翻译，似然用现代的中文来说即“可能性”。故而称之为“最大可能性估计”则更加通俗易懂。
最大似然估计（极大似然估计），通俗理解，就是利用已知的样本结果信息，反推最具有可能导致这些样本结果出现的模型参数值。换言之就是，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型一定，参数未知”。
当一个模型满足某个分布，他的参数值我通过极大似然估计法求出来的话。

假设有一个造币厂生成某种硬币，现在我们拿到了一枚这种硬币，想试试这硬币是不是均匀的。即想知道抛这枚硬币，正反面出现的概率（记为( heta)）各为多少？

这是一个统计问题，解决统计问题需要数据，于是我们拿了这枚硬币抛了诗词，得到的数据((x_0))是：反正正正正反正正正反。我们想求的正面概率( heta)是模型参数，而抛硬币模型我们可以假设是二项分布。

那么出现实验结果(x_0)的似然函数是多少呢？

[f(x_o, heta)=(1- heta) imes heta imes heta imes heta imes heta imes(1- heta) imes heta imes heta imes heta imes(1- heta)= heta^7 imes(1- heta)^3=f( heta) ag1 ]

注意、这是个只关于( heta)的函数，二最大似然估计，顾名思义，就是要最大化这个函数。我们可以画出他的图像。![此处输入图片的描述][1]
可以看出( heta=0.7)时，似然函数取得最大值。这样我们已经完成了对( heta)的最大似然估计。

即在已经知道抛十次硬币出现(x_0)这种情况下，硬币出现正面的概率也就是( heta)，在最符合(x_0)的情况下( heta)的值最有可能是0.7。
极大似然估计：通过已知的模型获取模型参数。

最大后验概率

最大似然估计是求参数( heta)，使似然函数(p(x_0| heta))最大。最大后验概率估计则是想求( heta)使(P(x_0| heta)P( heta))最大。求得的( heta)不单单让似然函数大，( heta)自己出现的先验概率也得大。

最大后验概率估计其实是在最大化(P( heta|x_0)=frac{P(x_0| heta)P( heta)}{P(x_0)}),不过因为(x_0)是确定的（即投出的“反正正正正反正正正反”），(P(x_0))是一个已知值，所以去掉了分母(P(x_0))（假设“投10次硬币”是一个实验，实验做了1000次，(x_0)出现了(n)次，则(P(x_0)=frac{n}{1000})，总之这是一个可以由数据集收集到的值）。最大化(P( heta|x_0))的意义也很明确，(x_0)应出现，要求( heta)取什么值使(P( heta|x_0))最大。顺带一提，(P( heta|x_0))即后验概率，这就是“最大后验概率估计”名字的由来。

联合概率

联合概率即：(P(A=a,B=b))。给定任何值(a)和(b)，联合概率可以回答(A=a)和(B=b)同时满足的概率是多少？请注意，对于任何(a)和(b)的取值，(P(A=a,B=b)leq P(A=a))这点是确定的。

条件概率

(0leqfrac{P(A=a,B=b)}{A=a}leq1)，这个比率就被称之为条件概率并用(P(B=b|A=a))表示：它是(A=a)一定发生的情况下(B=b)的概率。

贝叶斯定理

使用条件概率的定义，我们可以得出统计学中最有用和最著名的方程之一：Bayes's theoren它如下所示。通过构造，我们有乘法规则，(P(A,B)=P(B|A)P(A))：A，B同时发生的概率为A发生的概率乘以A一定发生情况下B发生的概率。根据对称性，这也适用于(P(A,B)=P(A|B)P(B))。假设(P(B)>0),求解其中一个条件变量，我们得到$$P(A|B)=frac{P(B|A)P(A)}{P(B)} ag2$$。
请注意，在这里我们使用更紧凑的表示法，其中(P(A,B))是一个联合分布，(P(A|B))是一个条件分布。这种分布可以在在给定值(A=a,B=b)上进行求值。

边际化

如果我们想从另一件事中推断一件事，但我们只知道相反方向的属性，比如因和果的时候，Bayes定理是非常有用的，正如我们将在本节后面看到的那样。为了能进行这项工作，我们需要一个重要操作是边际化。这项工作是从(P(A,B))中确定(P(B))的操作。我们可以看到，(B)的高铝相当于计算(A)d额所有可能选择，并将所有选择的联合概率聚合在一起。$$P(B)=sum_AP(A,b) ag3$$这也称为求和规则，边际化结果的概率或分布称为边际概率或边际分布。
[1]: https://x-powerblog.oss-cn-beijing.aliyuncs.com/图库/squares_plot.png