LDA-math-认识Beta/Dirichlet分布

http://cos.name/2013/01/lda-math-beta-dirichlet/#more-6953

2. 认识Beta/Dirichlet分布
2.1 魔鬼的游戏—认识Beta 分布

统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝，运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了，撒旦说：“你们人类很聪明，而我是很仁慈的，和你玩一个游戏，赢了就可以走，否则把灵魂出卖给我。游戏的规则很简单，我有一个魔盒，上面有一个按钮，你每按一下按钮，就均匀的输出一个[0,1]之间的随机数，我现在按10下，我手上有10个数，你猜第7大的数是什么，偏离不超过0.01就算对。”你应该怎么猜呢？

从数学的角度抽象一下，上面这个游戏其实是在说随机变量

对于不喜欢数学的同学而言，估计每个概率分布都是一个恶魔，那在概率统计学中，均匀分布应该算得上是潘多拉魔盒，几乎所有重要的概率分布都可以从均匀分布

潘多拉魔盒Uniform(0,1)

对于上面的游戏而言

P (x \leq X (k) \leq x + Δ x) = ?

把 [0,1] 区间分成三段

E = {X 1 \in [x, x + Δ x], X i \in [0, x)

事件

则有

P (E) = \prod i = 1 n P (X i) = x k - 1 (1 - x - Δ x

继续考虑稍微复杂一点情形，假设

E' = {X 1, X 2 \in [x, x + Δ x], X i \in [0, x)

事件E’

则有

P (E') = x k - 2 (1 - x - Δ x) n - k (Δ x) 2 = o (Δ x)

从以上分析我们很容易看出，只要落在

P (x \leq X (k) \leq x + Δ x) = n (n - 1 k - 1

f (x) = lim Δ x \to 0 P ( x \leq X ( k ) \leq x + Δ x ) Δ x

f (x) = Γ ( n + 1 ) Γ ( k ) Γ ( n - k + 1 ) x k - 1 ( 1 - x ) n - k

还记得神奇的 Gamma 函数可以把很多数学概念从整数集合延拓到实数集合吧。我们在上式中取

f (x) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α - 1 ( 1 - x ) β - 1 (1)

好，我们回到魔鬼的游戏，这

f (x) = 10 ! ( 6 ) ! ( 3 ) ! x 6 ( 1 - x ) 3

然而即便如此，我们能做到一次猜中的概率也不高，很不幸，你第一次没有猜中，魔鬼微笑着说：“我再仁慈一点，再给你一个机会，你按5下这个机器，你就得到了5个[0,1]之间的随机数，然后我可以告诉你这5个数中的每一个和我的第7大的数相比，谁大谁小，然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢？

2.2 Beta-Binomial 共轭

魔鬼的第二个题目，数学上形式化一下，就是

由于

数据
在给定了来自数据提供的

贝努利实验

我们知道贝叶斯参数估计的基本过程是

先验分布 + 数据的知识 = 后验分布

以上贝叶斯分析过程的简单直观的表述就是

B e t a (p | k, n - k + 1) + C o u n t (m 1, m 2) = B e t a (p | k + m 1

B e t a (p | α, β) + C o u n t (m 1, m 2) = B e t a (p | α + m 1,

而我们从以上过程可以看到，Beta 分布中的参数

B e t a (p | 1, 1) + C o u n t (α - 1, β - 1) = B e t a (p | α, β)

对于(***) 式，我们其实也可以纯粹从贝叶斯的角度来进行推导和理解。假设有一个不均匀的硬币抛出正面的概率为

P (p | m 1, m 2) = P ( p ) \cdot P ( m 1 , m 2 |

百变星君Beta分布

Beta 分布的概率密度我们把它画成图，会发现它是个百变星君，它可以是凹的、凸的、单调上升的、单调下降的；可以是曲线也可以是直线，而均匀分布也是特殊的Beta分布。由于Beta 分布能够拟合如此之多的形状，因此它在统计数据拟合中被广泛使用。

在上一个小节中，我们从二项分布推导Gamma 分布的时候，使用了如下的等式

P (C \leq k) = n ! k ! ( n - k - 1 ) ! \int 1 p t k ( 1 - t ) n - k - 1 d

我们可以如下构造二项分布，取随机变量

贝努利实验最多成功

显然我们有如下式子成立

P (C \leq k) = P (X (k + 1) > p)

此处

P (C \leq k) = P (X (k + 1) > p) = \int 1 p B e t a (t

最后我们再回到魔鬼的游戏，如果你按出的5个随机数字中，魔鬼告诉你有2个小于它手中第7大的数，那么你应该
按照如下概率分布的峰值做猜测是最好的

B e t a (x | 9, 7) = 15 ! ( 8 ) ! ( 6 ) ! x 8 ( 1 - x ) 6

很幸运的，你这次猜中了，魔鬼开始甩赖了：这个游戏对你来说太简单了，我要加大点难度，我们重新来一次，我按魔盒20下生成20个随机数，你同时给我猜第7大和第13大的数是什么，这时候应该如何猜测呢？

2.3 Dirichlet-Multinomial 共轭

对于魔鬼变本加厉的新的游戏规则，数学形式化如下：

排序后对应的顺序统计量
问

游戏3

完全类似于第一个游戏的推导过程，我们可以进行如下的概率计算(为了数学公式的简洁对称，我们取

P (X (k 1) \in (x 1, x 1 + Δ x), X (k 1 + k

f (x 1, x 2, x 3) = n ! ( k 1 - 1 ) ! ( k 2 - 1 ) ! ( n

f (x 1, x 2, x 3) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ (

这个就是一般形式的3维 Dirichlet 分布，即便

从形式上我们也能看出，Dirichlet 分布是Beta 分布在高维度上的推广，他和Beta 分布一样也是一个百变星君，密度函数可以展现出多种形态。

不同

类似于魔鬼的游戏2，我们也可以调整一下游戏3，从魔盒中生成

令
问后验分布

游戏4

为了方便，我们记

m -\to = (m 1, m 2, m 3),

我们要猜测参数
数据
在给定了来自数据提供的知识

贝叶斯推理过程

以上贝叶斯分析过程的简单直观的表述就是

D i r (p \to | k \to) + M u l t C o u n t (m -\to) = D i r (p \to | k \to + m -\to

D i r (p \to | α \to) + M u l t C o u n t (m -\to) = D i r (p | α \to + m

D i r (p \to | 1 \to) + M u l t C o u n t (m -\to - 1 \to) = D i r (p \to | α \to

以上的游戏我们还可以往更高的维度上继续推，譬如猜测

D i r (p \to | α \to) = Γ ( \sum K k = 1 α k ) \prod K k =

M u l t (n \to | p \to, N) = (N n \to ) \prod k = 1 K

Beta-Binomail 共轭和 Dirichlet-Multinomail 共轭都可以用纯粹数学的方式进行证明，我们在这两个小节中通过一个游戏来解释这两个共轭关系，主要是想说明这个共轭关系是可以对应到很具体的概率物理过程的。

2.4 Beta/Dirichlet 分布的一个性质

如果

E (p) = \int 1 0 t * B e t a (t | α, β) d t = \int 1 0 t *

\int 1 0 Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) t α ( 1 - t ) β - 1 d t = 1

E (p) = Γ ( α + β ) Γ ( α ) Γ ( β ) \cdot Γ ( α + 1 ) Γ ( β )

E (p \to) = (α 1 \sum K i = 1 α i , α 2 \sum K i = 1 α