基础预备

极大似然估计和贝叶斯估计是统计推断中两张最常见的参数估计方法，在机器学习中应用十分广泛。
极大似然估计和贝叶斯估计都需要已知总体(X)的概率密度函数(f(x| heta)),一组样本((X_1,X_2,...,X_n)=(x_1,x_2,...,x_n))，用来估计参数( heta)。不同的是贝叶斯估计还需要已知参数( heta)的（先验）分布,是因为极大似然估计将参数看成一个变量而贝叶斯估计参数视作随机变量。

极大似然估计

理解描述

已知一些样本(x_1,x_2,...,x_n),这些样本是随机抽取的，也就是说这些样本(x_i)的出现的可能性或者事件(x_i)发生的可能性较大，极大似然估计的思想就是模型参数( heta)应该使得已经发生的事件发生的可能性最大或者说被抽取的样本被抽到的可能性最大。这里的事件发生的可能性和被抽取的样本的可能性是指(prod_ limits{i=1}^n f(x_i| heta))而不是单个的(f(x_i| heta))。

数学描述

(L( heta|x)=f(x|theta)=prod_ limits{i=1}^n f(x_i| heta))
(hat{ heta}_{mle}=argmax_ limits{ heta}L( heta|x))

贝叶斯估计

理解描述

贝叶斯估计主要是利用了贝叶斯公式，将参数视作随机变量，求出参数的服从的分布。
正向的逻辑是已知参数，求出事件发生的概率,这是十分自然的；反向逻辑是已知发生事件发生的概率，求参数，而贝叶斯公式就是基于反向的逻辑。
贝叶斯公式：(P(B_i|A)=frac{P(A,B_i)}{P(A)}=frac{P(A|B_i)P(B_i)}{sum^n_ limits{j=1}P(B_j)P(A|B_j)})
将(B)视作参数，A视作已经发生的事件。这其中(P(B))是参数的先验分布，那么贝叶斯估计就可以理解成为已知先验分布(P(B))，利用样本信息A校正先验分布，得到后验分布(P(B|A))的过程。最终取后验分布或者说是校正后的先验分布的期望作为估计值。

数学描述

(pi( heta|x)=frac{f(x| heta)pi( heta)}{m(x)}=frac{f(x| heta)pi( heta)}{int f(x| heta)pi( heta)d heta})
(hat{ heta}_{be}=E(pi( heta|x)))

资料借鉴

知乎

人生此处，绝对乐观