什么是似然函数（Likelihood function）？

来自百科

面向统计模型参数

统计学中，似然函数是一种关于统计模型参数的函数。

给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。

似然函数在推断统计学（Statistical inference）中扮演重要角色，尤其是在参数估计方法中。在教科书中，似然常常被用作“概率”的同义词。但是在统计学中，二者有截然不同的用法。

概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。例如，对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次”，我们则可以问，这枚硬币正反面对称的“似然”程度是多少。

概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

计算

假定一个关于参数θ、具有离散型概率分布P的随机变量X，则在给定X的输出x时，参数θ的似然函数可表示为

其中，

表示X取x时的概率。上式常常写为

或者

。

需要注意的是，此处并非条件概率，因为θ不（总）是随机变量。

假定一个关于参数θ、具有连续概率密度函数f的随机变量X，则在给定X的输出x时，参数θ的似然函数可表示为

上式常常写为

，同样需要注意的是，此处并非条件概率密度函数。

似然函数的主要用法在于比较它相对取值，这个数值本身不具备任何含义。

似然函数的重要性不是它的具体取值，而是当参数变化时函数到底变小还是变大。

对同一个似然函数，如果存在一个参数值，使得它的函数值达到最大的话，那么这个值就是最为“合理”的参数值。

似然函数乘以一个正的常数之后仍然是似然函数，其取值并不需要满足归一化条件

似然函数的这种特性还允许我们叠加计算一组具备相同含义的参数的独立同分布样本的似然函数。

对数似然函数

涉及到似然函数的许多应用中，更方便的是使用似然函数的自然对数形式，即“对数似然函数”。求解一个函数的极大化往往需要求解该函数的关于未知参数的偏导数。

由于对数函数是单调递增的，而且对数似然函数在极大化求解时较为方便，所以对数似然函数常用在最大似然估计及相关领域中。

例如：求解Gamma分布中参数的最大似然估计问题：

假定服从Gamma分布的随机变量

具有两个参数

和

，考虑如下似然函数

如果想从输出

中估计参数

，直接求解上式的极大化未免有些难度。在取对数似然函数后，

再取关于

的偏导数等于0的解，

最终获得

的最大似然估计

当存在一组独立同分布的样本

时，

故而

其中，

最大似然估计

最大似然估计是似然函数最初也是最自然的应用。上文已经提到，似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发，最大似然估计的做法是：首先选取似然函数（一般是概率密度函数或概率质量函数），整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数，这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一，也不一定存在。与矩法估计比较，最大似然估计的精确度较高，信息损失较少，但计算量较大。

要在数学上实现最大似然估计法，我们首先要定义可能性：

并且在θ的所有取值上，使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。

即，在所有可能的θ取值中，寻找一个值使这个采样的“可能性”最大化。