最大熵方法求概率密度函数

信息熵，不确定度的描述，熵增加，不确定度增加，熵减小，不确定度减小。

离散型随机变量的信息熵
考虑一个一维的离散的随机变量X（此处不考虑扩展到多维的情况），可以取离散的值 $x_1,x_2,x_3,...$ ,对应的概率分别为 $p_1,p_2,p_3,...$ 则离散型随机变量的信息熵为：

$H(X)=-Csum_{i}p(x_i)ln(p(x_i))=Csum_{i}p(x_i)frac{1}{ln(p(x_i))}$
连续型随机变量的信息熵
考虑一个一维的连续型的随机变量X，若它的概率密度分布函数为f(x),那X在(a,b)之间的信息熵为：

$H(X)=-Cint_{a}^{b}f(x_i)ln(f(x_i))dx=Cint_{a}^{b}f(x_i)frac{1}{ln(f(x_i))}dx$

假设某个公司内部对所有员工进行了一次英语测试，测试结果分5个档次，分别为1分，2分，3分，4分，5分，假设已经知道平均分3.3分，每一个档次的概率分别为 $p_1,p_2,p_3,p_4,p_5$ ,可以看出概率分布是不确定的

$1*p_1+2*p_2+3*p_3+4*p_4+5*p_5=3.3$
$sum_{i=1}^{5}p_i=1$

能满足上面式子的解有无限多个，要确定一组我们认为最合理，最好的解，就需要利用最大熵原则

要求出最大熵就先要写出最大熵的表达式：

$Entropy(P) = -sum_{i=1}p_i ln(p_i)$

要最大化上面的熵表达式，同时要满足 $sum_{i=1}=1$ 因此可以用拉格朗日乘子发求条件极值，得到下面的拉格朗日乘子式

$L(p_i) = -sum_{i=1}p_i ln(p_i) + lambda(sum_{i=1}p_i -1)$

分别对 $p_i$ 进行求导，并让求导后的为0，求解出 $p_i$ 和 $lambda$ ,得到如下等式

$frac{partial L(p_i)}{partial p_i}=-lnp_i-1+lambda$

可以求解出 $p_i$ 的表达式如下：

$p_i=e^{lambda-1}$

接着把 $p_i$ 的解析式代入： $sum_i p_i = 1$ 得到如下等式

$sum_i^n p_i = sum_i^n e^{lambda-1} = ne^{lambda-1} = 1$

$lambda = ln(frac{1}{n})+1$

$p_i=e^{ln(frac{1}{n})+1-1} = frac{1}{n}$

可以看出，对取值离散的随机过程，最大熵意味着取平均概率，也就是说当取值概率相等的时候，熵最大化，下面看连续变量的情况

我们从离散情况过度到连续情况，有如下等式

$int_I f(x)dx = 1$

$int_I g_i(x)f(x)dx = M_i , i = 1,2,...m$

$M_i$ 是平均值，它是一个常量， $g_i(x)$ 是对应随机变量取值x的时候的值，同样，需要先写出熵信息的等式，然后在约束条件下求出熵信息最大化的参数值

$L(x) = -int_I f(x)ln(f(x))dx$

$L(x) = -int_I f(x)ln(f(x))dx + lambda_0(int_I f(x)dx -1)+ sum_{i=1}^m {lambda_i (int_I g_i(x)f(x)dx -M_i)}$

对L(x)求f(x)的偏导，得到下式：

$frac{partial L(x)}{partial f(x)} = -int_I (ln(f(x))+1)dx + lambda_0(int_I dx)+ sum_{i=1}^m {lambda_i (int_I g_i(x)dx)} = 0$

$frac{partial L(x)}{partial f(x)} = -int_I [ln(f(x))+1 +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}]dx = 0$

$[-(ln(f(x))+1)] +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)} = 0$

$ln(f(x))=-1 +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}$

得到f(x) 的解析式：

$f(x)=e^{-1 +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}}$

只要求出 $lambda_0,lambda_1,...,lambda_m$ 就可以得到f(x)的解析表达式，剩下的工作就是估计这些未知的参数了。

从上面的分析可以看出，我们只要在最大熵的条件下，加上约束条件，就可能得到不同的概率分布解析式，下面我们加上均值和方差为常量的约束，看看可以得到什么样的解析式，约束条件如下：

$int_{-infty}^{infty} xf(x)dx=mu$

$int_{-infty}^{infty} (x-mu)^2 f(x)dx=delta^2$

$int_{-infty}^{infty} f(x)dx=1$

根据前面我们求出来的最大熵条件下连续变量概率密度表达式 $f(x)=e^{1 +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}}$ 可以得到约束条件下的解析表达式如下：

$f(x)=e^{-1 +lambda_0+lambda_1 x+lambda_2 (x-mu)^2}$

整理其形式，得到如下形式

$f(x)=e^{-1 +lambda_0+lambda_1 x+lambda_2 (x-mu)^2} =C e^{lambda_2[x-(mu-frac{lambda_1}{2lambda_2})]^2}$

其中，C是修整以后代替 $lambda_0$ 的待定系数，并做如下替换

$y=x-(mu-frac{lambda_1}{2lambda_2})$

加上约束条件： $int_{-infty}^{infty} f(x)dx=1$ ，可以得到下式：

$int_{-infty}^{infty} f(x)dx=int_{-infty}^{infty} f(y)dy = Csqrt{frac{pi}{-lambda_2}} = 1$

$int_{-infty}^{infty} e^{-{x^2}}dx =frac{1}{sqrt{2}}int_{-infty}^{infty} e^{-frac{({sqrt{2}x})^2}{2}} d(sqrt{2}x) = frac{1}{sqrt{2}}sqrt{2pi}=sqrt{pi}$

$int_{-infty}^{infty}f(x)dx=int_{-infty}^{infty}C e^{lambda_2[x-(mu-frac{lambda_1}{2lambda_2})]^2}dx$

$=int_{-infty}^{infty}C e^{-lambda_2(-[x-(mu-frac{lambda_1}{2lambda_2})]^2)}dx$

$=Cfrac{1}{sqrt{-lambda_2}}int_{-infty}^{infty} e^{(-[sqrt{-lambda_2}x-sqrt{-lambda_2}(mu-frac{lambda_1}{2lambda_2})]^2)}d(sqrt{-lambda_2}x-sqrt{-lambda_2}(mu-frac{lambda_1}{2lambda_2}))$

$=Cfrac{1}{sqrt{-lambda_2}}int_{-infty}^{infty} e^{-y^2}dy$

$=Cfrac{1}{sqrt{-lambda_2}}int_{-infty}^{infty} e^{-y^2}dy =Cfrac{1}{sqrt{-lambda_2}}sqrt{pi}= 1$

这里用到了一个概率积分的结果 $int_{-infty}^{infty} e^{-frac{x^2}{2}}dx = sqrt{2pi}$ ，这里不讨论这个结果的证明，搜索概率积分有很多次结论的文章，利用这个结论可以得到下式结果：

$C=sqrt{frac{-lambda_2}{pi}}$

把平均值条件 $int_{-infty}^{infty} xf(x)dx=mu$ 考虑进来，有下式：

$int_{-infty}^{infty} xf(x)dx= int_{-infty}^{infty} (y+mu-frac{lambda_1}{2lambda_2})f(y)dy= mu$

做一个整理，有下式：

$int_{-infty}^{infty} yf(y)dy+ int_{-infty}^{infty} (mu-frac{lambda_1}{2lambda_2})f(y)dy= mu$

$int_{-infty}^{infty} yf(y)dy+ (mu-frac{lambda_1}{2lambda_2})int_{-infty}^{infty} f(y)dy= mu$

因为有约束： $int_{-infty}^{infty} f(x)dx=1$ ，因此得到

$int_{-infty}^{infty} yf(y)dy= frac{lambda_1}{2lambda_2}$

因为yf(y)为奇函数，因此其积分应为0，因此有： $int_{-infty}^{infty} yf(y)dy= frac{lambda_1}{2lambda_2}=0$ ，因此有 $lambda_1=0$ 因此可以得到下面的结果

$f(x)= sqrt{frac{-lambda_2}{pi}} e^{lambda_2(x-mu)^2}$

在利用方差约束： $int_{-infty}^{infty} (x-mu)^2f(x)dx = delta^2$ ,和自然对数函数积分公式，得到如下结果：

$int_{-infty}^{infty} (x-mu)^2f(x)dx = int_{-infty}^{infty} (x-mu)^2 sqrt{frac{-lambda_2}{pi}} e^{lambda_2(x-mu)^2} dx$

$= sqrt{frac{-lambda_2}{pi}} int_{-infty}^{infty} (x-mu)^2 e^{lambda_2(x-mu)^2} dx$

令 $x= x-mu$ ,整理得到：

$= sqrt{frac{-lambda_2}{pi}} int_{-infty}^{infty} x^2 e^{lambda_2x^2} dx$

$= sqrt{frac{-lambda_2}{pi}} frac{1}{-2lambda_2}int_{-infty}^{infty} x d(e^{-[sqrt{-lambda_2}x]^2})$

$= sqrt{frac{-lambda_2}{pi}} frac{1}{-2lambda_2}[xe^{-[sqrt{-lambda_2}x]^2}mid_{-infty}^{infty} +int_{-infty}^{infty} e^{-[sqrt{-lambda_2}x]^2})dx ]$

根据洛比达法则，计算极限： $= [x e^{-[sqrt{-lambda_2}x]^2}mid_{-infty}^{infty} = 0$ ，所以有下面的式子

$= sqrt{frac{-lambda_2}{pi}} frac{1}{-2lambda_2}int_{-infty}^{infty} e^{-[sqrt{-lambda_2}x]^2}dx ]$

我们重点看里面这块的积分

$int_{-infty}^{infty} e^{-[sqrt{-lambda_2}x]^2}dx = frac{1}{sqrt{-lambda_2}} int_{-infty}^{infty} e^{-[sqrt{-lambda_2}x]^2})d(sqrt{-lambda_2}x) = sqrt{pi}frac{1}{sqrt{-lambda_2}}$

$int_{-infty}^{infty} (x-mu)^2f(x)dx = sqrt{-frac{lambda_2}{pi}} frac{sqrt{pi}}{2(-lambda_2)^{frac{3}{2}}}= -frac{1}{2lambda_2} =delta^2$

整理得到下面结论：

$lambda_2 =-frac{1}{2delta^2}$

现在得到了 $C,lambda_1,lambda_2,$ ，代入 $f(x)=e^{-1 +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}}$ 得到下式：

$f(x)=frac{1}{sqrt{2 pi}delta^2}e^{-frac{(x-mu)^2}{2delta^2}}$

这就是我们熟悉的正态分布的形式。

从上面可以看到，在给定约束条件下，基于最大熵原理可以得到某种概率分布函数，给定常量的均值和方差，可以得出正态分布，这个思路指明了不同的约束会导致不同的概率分布结果。其他的约束不再讨论了。重点是在用这个原理可以求概率分布，我们可以看到概率分布已经是指数形式了，所以只是求其中的系数问题，可以通过学习的方法从样本中得到。

我们来看看其中的参数怎么求？

这里会用到上面的结论，约束条件和连续概率密度函数表达式：

$int_{-infty}^{infty} f(x)dx = 1$

$int_{-infty}^{infty} g_i(x)f(x)dx = M_i , i = 1,2,...m$

$f(x)=e^{-1 +lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}}$

为了方便起见，这里做一个替换 $lambda_0=-1 +lambda_0$ 得到下面结论：

$f(x)=e^{lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}}$

将概率密度表达式代入概率积分为1的条件可以得到下面结果：

$int_{-infty}^{infty}f(x)dx=int_{-infty}^{infty}e^{lambda_0+ sum_{i=1}^m {lambda_ig_i(x)}}dx = 1$

$e^{-lambda_0}=int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx$

$lambda_0=-ln[int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx]$

对 $e^{-lambda_0}=int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx$ 求偏导，得到下式：

$frac{partial lambda_0}{partial lambda_i}e^{-lambda_0}=int_{-infty}^{infty}g_i(x)e^{sum_{i=1}^m {lambda_ig_i(x)}}dx$

整理得到

$frac{partial lambda_0}{partial lambda_i}=-int_{-infty}^{infty}g_i(x)e^{lambda_0+sum_{i=1}^m {lambda_ig_i(x)}}dx = -M_i$

对 $lambda_0=-ln[int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx]$ 求偏导数

$-frac{partial lambda_0}{partial lambda_i}=frac{int_{-infty}^{infty}g_i(x)e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}{int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}$

于是得到

$M_i =frac{int_{-infty}^{infty}g_i(x)e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}{int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}$

可以看出这是含有 $lambda_i,i=1,2,...,m$ 的m个方程组。如果从样本去估计他们的真实参数值会有一点的偏差，因此可以做如下变化：

$1=frac{int_{-infty}^{infty}g_i(x)e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}{M_i int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}$

实际的计算中，只可能是近似等于1，那么其中的误差部分就是：

$r_i=1-frac{int_{-infty}^{infty}g_i(x)e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}{M_i int_{-infty}^{infty}e^{sum_{i=1}^m {lambda_ig_i(x)}}dx}$

我们希望这样的误差要满足均方误差最小，即下式：

$min R = sum_i^m r_i^2$

规划求解可以得出答案

转自：http://blog.csdn.net/omade/article/details/17449471