指数族函数

1. Gamma函数

1.1 Gamma函数

Gamma函数如下：

$Gamma(alpha)=int _{0}^{infty}t^{alpha-1}e^{-t}dt, alpha>0\$

很奇怪，但可以形象理解为用一个伽马刀，对 $alpha$ 动了一刀，于是指数为 $alpha-1$ ,动完刀需要扶着梯子 $(-t)$ 才能走下来（记忆，摘自QUETAL博客）。

通过分布积分可以得到如下性质：

$Gamma(alpha+1)=int _{0}^{infty}t^{alpha}e^{-t}dt=-int _{0}^{infty}t^{alpha}d(e^{-t})=-left[t^{alpha}e^{-t}|_{0}^{infty}-alphaint_{0}^{infty}e^{-t}t^{alpha-1}dt ight]=alphaGamma(alpha)\$
易证明有如下性质：

$Gamma(n+1)=n!,Gamma(1)=1,Gamma(frac{1}{2})=sqrt{pi}\$
其中还有几个重要的等式，这里就不证明了，有兴趣的可以查找相关资料：

$int _{0}^{infty}x^{p-1}e^{-alpha x}dx=alpha^{-p}Gamma(p)\$ $int _{0}^{infty}x^{-(p+1)}e^{-alpha x^{-1}}dx=alpha^{-p}Gamma(p)\$ $int _{0}^{infty}x^{p-1}e^{-alpha x^{2}}dx=frac{1}{2}alpha^{-frac{p}{2}}Gamma(frac{p}{2})\$ $int _{0}^{infty}x^{-(p+1)}e^{-alpha x^{2}}dx=alpha^{-frac{p}{2}}Gamma(frac{p}{2})\$

1.2 Gamma函数可视化

import numpy as np
from scipy.special import gamma
import matplotlib.pyplot as plt
import pylab

fig = plt.figure(figsize=(12,8))
# The Gamma function
x = np.linspace(-5, 5, 1000)
plt.plot(x, gamma(x), ls='-', c='k', label='$Gamma(x)$')

# (x-1)! for x = 1, 2, ..., 6
x2 = np.linspace(1,6,6)
y = np.array([1, 1, 2, 6, 24, 120])
pylab.plot(x2, y, marker='*', markersize=12, markeredgecolor='r',
           markerfacecolor='r', ls='',c='r', label='$(x-1)!$')

plt.title('Gamma Function')
plt.ylim(-50,50)
plt.xlim(-5, 5)
plt.xlabel('$x$')
plt.legend()
plt.show()

fig = plt.figure(figsize=(12,8))
# The Gamma function
x = np.linspace(0, 15, 1000)
plt.plot(x, np.log(gamma(x)), ls='-', c='k', label='$logGamma(x)$')


plt.title('Log$Gamma(x)$ Function')
plt.ylim(-1,50)
plt.xlim(-1, 15)
plt.xlabel('$x$')
plt.legend()
plt.show()

如下函数被称为Digamma函数：

$Psi=frac{d~logGamma(x)}{dx}\$
Digamma函数具有如下性质：

$Psi(x+1)=Psi(x)+frac{1}{x}\$

1.3 从二项分布到Gamma函数

对Gamma函数做个变形，可以得到如下式子：

$int _{0}^{infty}frac{t^{alpha-1}e^{-t}dt}{Gamma(alpha)}=1\$
取积分中的函数作为概率密度，就得到一个简单的Gamma分布的密度函数：

$Gamma(t|alpha)=frac{t^{alpha-1}e^{-t}}{Gamma(alpha)}\$
如果做一个变换 $t=eta x$ ，就得到Gamma分布的更一般形式：

$Gamma(x|alpha,eta)=frac{eta^{alpha}x^{alpha-1}e^{-eta x}}{Gamma(alpha)}\$
其中 $alpha$ 称为shape parameter，主要决定了分布曲线的形状，而 $eta$ 称为rate parameter或inverse scale parameter（ $frac{1}{eta}$ scale parameter），主要决定曲线有多陡。

import numpy as np
from scipy.stats import gamma
from matplotlib import pyplot as plt

alpha_values = [1, 2, 3, 3, 3]
beta_values = [0.5, 0.5, 0.5, 1, 2]
color = ['b','r','g','y','m']
x = np.linspace(1E-6, 10, 1000)

fig, ax = plt.subplots(figsize=(12, 8))

for k, t, c in zip(alpha_values, beta_values, color):
    dist = gamma(k, 0, t)
    plt.plot(x, dist.pdf(x), c=c, label=r'$alpha=%.1f, 	heta=%.1f$' % (k, t))

plt.xlim(0, 10)
plt.ylim(0, 2)

plt.xlabel('$x$')
plt.ylabel(r'$p(x|alpha,eta)$')
plt.title('Gamma Distribution')

plt.legend(loc=0)
plt.show()

可以发现Gamma分布的概率密度和Poisson分布在数学上的形式具有高度的一致性。参数 $lambda$ 的Poisson分布，概率为：

$Poisson(X=k|lambda)=e^{-lambda}frac{lambda^{k}}{k!}\$
而在Gamma分布的密度函数中取 $alpha=k+1,eta = 1$ ，可以得到：

$Gamma(x|alpha=k+1)=frac{x^{k}e^{-x}}{Gamma(k+1)}=frac{x^{k}e^{-x}}{k!}\$
可以看到这两个分布在数学形式上是一致的，只是Poisson分布式离散的，Gamma分布式连续的，可以直观认为，Gamma分布式是Poisson分布在正实数集上连续化版本。

我们在概率论与数理统计的课程中都学过， $Poisson(lambda)$ 分布可以看成是二项分布 $B(n,p)$ 在 $np=lambda,n ightarrow infty$ 条件下的极限分布:

$B(k;n,p)=C_{n}^{k}p^{k}(1-p)^{(n-k)}overset{np=lambda,n ightarrow infty}{longrightarrow}Poisson(X=k|np=lambda)=frac{lambda^{k}e^{-lambda}}{k!}\$
二项分布也满足下面一个奇妙的等式：

$P(xleq K)=frac{n!}{k!(n-k-1)!}int_{p}^{1}t^k(1-t)^{n-k-1}dt\$
这个分布式反应二项分布和 $eta$ 分布的关系，证明后面再讲。

我们在右等式做个变换 $t=frac{x}{n}$

$egin{align*} P(xleq K)&= frac{n!}{k!(n-k-1)!}int_{p}^{1}t^k(1-t)^{n-k-1}dt \&=frac{n!}{k!(n-k-1)!}int_{np}^{n}(frac{x}{n})^k(1-frac{x}{n})^{n-k-1}dfrac{x}{n} \&=frac{(n-1)!}{k!(n-k-1)!}int_{np}^{n}(frac{x}{n})^k(1-frac{x}{n})^{n-k-1}dx \&=int_{np}^{n}inom{n-1}{k} (frac{x}{n})^k(1-frac{x}{n})^{n-k-1}dx \&=int_{np}^{n}Binomial(Y=k|n-1,frac{x}{n})dxend{align*} \$
上式左侧是二项分布 $B(n,p)$ ，而右侧为无穷多个二项分布 $B(n-1,frac{x}{n})$ 的积分求和，所以可以写为

$Binomial(Xleq k|n,p)=int_{np}^{n}Binomial(Y=k|n-1,frac{x}{n})dx\$
对两边在条件 $np=lambda,n ightarrow infty$ 条件下取极限，则左边有 $B(n,p) ightarrow Poisson(lambda)$ ，而右边有 $B(n-1,frac{x}{n}) ightarrow Poisson(x)$ ，所以得到：

$Poisson(Xleq k|lambda)=int_{lambda}^{infty}Poisson(Y=k|x)dx\$
把Poisson分布展开，于是得到：

$Poisson(Xleq k|lambda)=int_{lambda}^{infty}frac{x^ke^{-x}}{k!}dx\$
此为Poisson-Gamma duality.

我们对上式两边取极限 $lambda ightarrow 0$ ，左边是Poisson至多发生 $k$ 事件的概率， $lambda ightarrow 0$ 的时候就不可能有事件再发生了，故 $P(Xleq k)=1$ ，于是：

$1=underset{lambda ightarrow 0}{lim}int_{lambda}^{infty}frac{x^ke^{-x}}{k!}dx=int_{0}^{infty}frac{x^ke^{-x}}{k!}dx\$
该积分式子说明 $frac{x^ke^{-x}}{k!}$ 在实数集上是一个概率分布函数，而这个函数恰好就是Gamma分布。我们继续把上式右边中的 $k!$ 移到左边，于是得到：

$k!=int_{0}^{infty}x^ke^{-x}dx\$
于是我们得到了将 $k!$ 表示为积分的方法。

我们将 $Poisson(Xleq k|lambda)=int_{lambda}^{infty}frac{x^ke^{-x}}{k!}dx$ 进行变换下：

$Poisson(Xleq k|lambda)+int_{0}^{lambda}frac{x^ke^{-x}}{k!}dx=1\$
我们可以看到，Poisson分布的概率密度累积函数和Gamma分布的概率密度累积函数有互补的关系。

做个小结：我们从二项分布的等式出发，同时利用二项分布的极限是Poisson分布，推导出了Gamma分布，同时把 $k!$ 表示成积分形式了。