先验概率、后验概率、似然估计、条件概率

上周分享会，小伙伴提到了“极大似然估计”，发现隔了一年多，竟然对这些基本的机器学习知识毫无准确的概念了。

先验分布：根据一般的经验认为随机变量应该满足的分布，eg:根据往年的气候经验（经验），推测下雨（结果）的概率即为先验概率；
后验分布：通过当前训练数据修正的随机变量的分布，比先验分布更符合当前数据，eg: 有乌云（原因、观测数据）的时候下雨（结果）的概率即为后验概率；
似然估计：已知训练数据，给定了模型，通过让似然性极大化估计模型参数的一种方法，eg: 下雨（结果）的时候有乌云（观测数据、原因等）的概率即为似然概率；
后验分布往往是基于先验分布和极大似然估计计算出来的。

贝叶斯公式（后验概率公式、逆概率公式）：

Θ：决定数据分布的参数（原因）

x: 观察得到的数据（结果）

p(x): 证据因子evidence

p(Θ): 先验概率

p(Θ|x): 后验概率

p(x|Θ): 似然概率

后验概率＝似然函数×先验概率/证据因子，证据因子（Evidence，也被称为归一化常数）可仅看成一个权值因子，以保证各类别的后验概率总和为1从而满足概率条件。

备注：

联合概率：P(AB)=P(A)P(B|A)=P(B)P(A|B)

条件概率：P(A|B)=P(AB)|P(B)

贝叶斯公式：P(B|A)=P(A|B)P(B)/P(A)