通俗理解LDA主题模型

通俗理解LDA主题模型

0 前言

印象中，最開始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是由于这篇文档的前序铺垫太长（如今才意识到这些“铺垫”都是深刻理解LDA 的基础，但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路，则非常easy陷入LDA的细枝末节之中），还是由于当中的数学推导细节太多，导致一直没有完整看完过。

2013年12月，在我组织的Machine Learning读书会第8期上，@夏粉_百度讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型，当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西（但理解了LDA之后。再看沈博主题模型的PPT会非常赞）。

直到昨日下午。机器学习班 第12次课上，邹讲完LDA之后，才真正明确LDA原来是那么一个东东！上完课后，趁热打铁，再次看LDA数学八卦，发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后，思路清晰了。知道理解LDA。能够分为下述5个步骤：

一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA（在本文第4 部分阐述）
一个採样：Gibbs採样

本文便依照上述5个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整的了解。同一时候，本文基于邹讲LDA的PPT、rickjin的LDA数学八卦及其它參考资料写就，能够定义为一篇学习笔记或课程笔记，当然，兴许不断增加了非常多自己的理解。

若有不论什么问题，欢迎随时于本文评论下指出，thanks。

1 gamma函数

1.0 总体把握LDA

关于LDA有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），本文讲后者。

另外，我先简单说下LDA的总体思想。不然我怕你看了半天。铺了太长的前奏。却依旧因没见到LDA的影子而显得“心浮气躁”，导致不想再继续看下去。所以，先给你吃一颗定心丸。明确总体框架后，咱们再一步步抽丝剥茧。展开来论述。

依照wiki上的介绍，LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出。是一种主题模型，它能够将文档集中每篇文档的主题以概率分布的形式给出。从而通过分析一些文档抽取出它们的主题（分布）出来后，便能够依据主题（分布）进行主题聚类或文本分类。同一时候，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

此外，一篇文档能够包括多个主题，文档中每一个词都由当中的一个主题生成。

人类是怎么生成文档的呢？LDA的这三位作者在原始论文中给了一个简单的样例。比方假设事先给定了这几个主题：Arts、Budgets、Children、Education，然后通过学习训练。获取每一个主题Topic相应的词语。例如以下图所看到的：

然后以一定的概率选取上述某个主题，再以一定的概率选取那个主题下的某个单词，不断的反复这两步，终于生成例如以下图所看到的的一篇文章（当中不同颜色的词语分别相应上图中不同主题下的词）：

而当我们看到一篇文章后。往往喜欢推測这篇文章是怎样生成的，我们可能会觉得作者先确定这篇文章的几个主题，然后环绕这几个主题遣词造句，表达成文。

LDA就是要干这事：依据给定的一篇文档，推測其主题分布。

通俗来说，能够假定觉得人类是依据上述文档生成过程写成了各种各样的文章，如今某小撮人想让计算机利用LDA干一件事：你计算机给我推測分析网络上各篇文章分别都写了些啥主题，且各篇文章中各个主题出现的概率大小（主题分布）是啥。

然，就是这么一个看似普通的LDA，一度吓退了不少想深入探究其内部原理的刚開始学习的人。难在哪呢，难就难在LDA内部涉及到的数学知识点太多了。

在LDA模型中，一篇文档生成的方式例如以下：

从狄利克雷分布中取样生成文档 i 的主题分布
从主题的多项式分布中取样生成文档i第 j 个词的主题
从狄利克雷分布中取样生成主题相应的词语分布
从词语的多项式分布中採样终于生成词语

当中，相似Beta分布是二项式分布的共轭先验概率分布。而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。

此外。LDA的图模型结构例如以下图所看到的（相似贝叶斯网络结构）：

恩，不错，短短6句话总体概括了整个LDA的主体思想！但也就是上面短短6句话，却接连不断或反复出现了二项分布、多项式分布、beta分布、狄利克雷分布（Dirichlet分布）、共轭先验概率分布、取样，那么请问，这些都是啥呢？

这里先简单解释下二项分布、多项分布、beta分布、Dirichlet 分布这4个分布。

二项分布（Binomial distribution）。

二项分布是从伯努利分布推进的。

伯努利分布，又称两点分布或0-1分布，是一个离散型的随机分布。当中的随机变量仅仅有两类取值，非正即负{+，-}。而二项分布即反复n次的伯努利试验，记为。简言之，仅仅做一次实验，是伯努利分布。反复做了n次。是二项分布。二项分布的概率密度函数为：

对于k = 0, 1, 2, ..., n，当中的

是二项式系数（这就是二项分布的名称的由来），又记为

。回想起高中所学的那丁点概率知识了么：想必你当年一定死记过这个二项式系数

就是

。

多项分布，是二项分布扩展到多维的情况。

多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能（1,2,3...,k）。比方投掷6个面的骰子实验。N次实验结果服从K=6的多项分布。

当中 $sum_{i=1}^k{p_i}=1,p_i>0$

多项分布的概率密度函数为：

Beta分布，二项分布的共轭先验分布。

给定參数

$alpha>0$ 和 $eta>0$

，取值范围为[0,1]的随机变量 x 的概率密度函数 $f(x;alpha,eta)=frac{1}{b(alpha,eta)}x^{alpha-1}(1-x)^{eta-1}$ ：

当中 $frac{1}{b(alpha,eta)}=frac{gamma(alpha+eta)}{gamma(alpha)gamma(eta)}$ ：

。 $gamma(z)=int_0^{infty}t^{z-1}e^{-t}dt$ 。

注：

便是所谓的gamma函数。下文会详细阐述。

Dirichlet分布，是beta分布在高维度上的推广。

Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙： $f(x_1,x_2,...,x_k;alpha_1,alpha_2,...,alpha_k)=frac{1}{b(alpha)}prod_{i=1}^k{x_i^{alpha^i-1}}$

当中

至此，我们能够看到二项分布和多项分布非常相似，Beta分布和Dirichlet 分布非常相似，而至于“Beta分布是二项式分布的共轭先验概率分布。而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布”这点在下文中说明。

OK。接下来，咱们就依照本文开头所说的思路：“一个函数：gamma函数，四个分布：二项分布、多项分布、beta分布、Dirichlet分布，外加一个概念和一个理念：共轭先验和贝叶斯框架，两个模型：pLSA、LDA（文档-主题，主题-词语），一个採样：Gibbs採样”一步步详细阐述，争取给读者一个尽量清晰完整的LDA。

（当然，假设你不想深究背后的细节原理，仅仅想总体把握LDA的主体思想，可直接跳到本文第4 部分。看完第4部分后。若还是想深究背后的细节原理，可再回到此处開始看）

1.1 gamma函数

咱们先来考虑一个问题（此问题1包括下文的问题2-问题4皆取材自LDA数学八卦）：

问题1 随机变量
把这n 个随机变量排序后得到顺序统计量
然后请问的分布是什么。

为解决问题，能够尝试计算落在区间[x,x+Δx]的概率。即求下述式子的值：

首先。把 [0,1] 区间分成三段 [0,x)，[x,x+Δx]，(x+Δx,1]，然后考虑下简单的情形：即假设n 个数中仅仅有1个落在了区间 [x,x+Δx]内，由于这个区间内的数X(k)是第k大的，所以[0,x)中应该有 k−1 个数，(x+Δx,1] 这个区间中应该有n−k 个数。

例如以下图所看到的：

从而问题转换为下述事件E：

对于上述事件E，有：

当中，o(Δx)表示Δx的高阶无穷小。显然。由于不同的排列组合，即n个数中有一个落在 [x,x+Δx]区间的有n种取法，余下n−1个数中有k−1个落在[0,x)的有

种组合，所以和事件E等价的事件一共同拥有

个。

假设有2个数落在区间[x,x+Δx]呢？例如以下图所看到的：

相似于事件E，对于2个数落在区间[x,x+Δx]的事件E’：

有：

从上述的事件E、事件E‘中，能够看出。仅仅要落在[x,x+Δx]内的数字超过一个，则相应的事件的概率就是 o(Δx)。

于是乎有：

从而得到

的概率密度函数

为：

至此，本节开头提出的问题得到解决。然细致观察的概率密度函数。发现式子的终于结果有阶乘。联想到阶乘在实数上的推广函数：

两者结合是否会产生奇异的效果呢？考虑到具有例如以下性质：

故将代入到的概率密度函数中，可得：

然后取，，转换得到：

假设熟悉beta分布的朋友，可能会惊呼：哇，居然推出了beta分布。

2 beta分布

2.1 beta分布

在概率论中，beta是指一组定义在

区间的连续概率分布。有两个參数

和

。且

。

beta分布的概率密度函数是：

当中的

便是

函数：

随机变量X服从參数为

的beta分布通常写作：

。

2.2 Beta-Binomial 共轭

回想下1.1节开头所提出的问题：“问题1 随机变量

。把这n 个随机变量排序后得到顺序统计量

，然后请问

的分布是什么。

” 假设。咱们要在这个问题的基础上增加一些观測数据，变成问题2：

，相应的顺序统计量是。须要推測。
，中有个比p小，个比大；
那么，请问的分布是什么。

依据“Yi中有

个比

小，

个比

大”。换言之。Yi中有

个比

小，

个比

大，所以

是

中第

大的数。

依据1.1节终于得到的结论“仅仅要落在[x,x+Δx]内的数字超过一个。则相应的事件的概率就是 o(Δx)”。继而推出事件服从beta分布，从而可知

的概率密度函数为：

熟悉贝叶斯方法（不熟悉的没事，參见此文第一部分）的朋友心里预计又犯“嘀咕”了，这不就是贝叶斯式的思考过程么？

为了推測，在获得一定的观測数据前，我们对的认知是：，此称为的先验分布；
然后为了获得这个结果“ 中有个比p小，个比大”。针对是做了次贝努利实验。所以服从二项分布；
在给定了来自数据提供的的知识后，的后验分布变为。

回想下贝叶斯派思考问题的固定模式：

先验分布 + 样本信息后验分布

上述思考模式意味着。新观察到的样本信息将修正人们曾经对事物的认知。换言之，在得到新的样本信息之前，人们对

的认知是先验分布

，在得到新的样本信息

后，人们对

的认知为

。

类比到如今这个问题上，我们也能够试着写下：

当中

相应的是二项分布

的计数。

更一般的，对于非负实数

和

。我们有例如以下关系

针对于这样的观測到的数据符合二项分布，參数的先验分布和后验分布都是Beta分布的情况，就是Beta-Binomial共轭。换言之，Beta分布是二项式分布的共轭先验概率分布。

二项分布和Beta分布是共轭分布意味着，假设我们为二项分布的參数p选取的先验分布是Beta分布，那么以p为參数的二项分布用贝叶斯预计得到的后验分布仍然服从Beta分布。

此外，怎样理解參数

和

所表达的意义呢？

、

能够觉得形状參数。通俗但不严格的理解是。

和

共同控制Beta分布的函数“长的样子”：形状千奇百怪。高低胖瘦，例如以下图所看到的：

2.3 共轭先验分布

什么又是共轭呢？轭的意思是束缚、控制，共轭从字面上理解，则是共同约束。或互相约束。

在贝叶斯概率理论中。假设后验概率P(θ|x)和先验概率p(θ)满足相同的分布律。那么。先验分布和后验分布被叫做共轭分布，同一时候，先验分布叫做似然函数的共轭先验分布。

比方，某观測数据服从概率分布P(θ)时，当观測到新的X数据时，我们通常会遇到例如以下问题：

可否依据新观測数据X。更新參数θ？
依据新观測数据能够在多大程度上改变參数θ，即

当又一次预计θ的时候，给出新參数值θ的新概率分布。即P(θ|x)。

事实上。依据依据贝叶斯公式可知：

当中。P(x|θ)表示以预估θ为參数的x概率分布。能够直接求得，P(θ)是已有原始的θ概率分布。
所以。假设我们选取P(x|θ)的共轭先验作为P(θ)的分布。那么P(x|θ)乘以P(θ)。然后归一化的结果P(θ|x)跟和P(θ)的形式一样。

换句话说，先验分布是P(θ)。后验分布是P(θ|x)，先验分布跟后验分布同属于一个分布族。故称该分布族是θ的共轭先验分布（族）。

举个样例。

投掷一个非均匀硬币，能够使用參数为θ的伯努利模型，θ为硬币为正面的概率，那么结果x的分布形式为：

其共轭先验为beta分布，具有两个參数

和

，称为超參数（hyperparameters）。

且这两个參数决定了θ參数，其Beta分布形式为

然后计算后验概率

归一化这个等式后会得到还有一个Beta分布。从而证明了Beta分布确实是伯努利分布的共轭先验分布。

2.4 从beta分布推广到Dirichlet 分布

接下来。咱们来考察beta分布的一个性质。

假设

。则有：

注意到上式最后结果的右边积分

其相似于概率分布

，而对于这个分布有

从而求得

的结果为

最后将此结果带入

的计算式，得到：

最后的这个结果意味着对于Beta 分布的随机变量。其均值（期望）能够用来预计。

此外。狄利克雷Dirichlet 分布也有相似的结论，即假设。相同能够证明有下述结论成立：

那什么是Dirichlet 分布呢？简单的理解Dirichlet 分布就是一组连续多变量概率分布。是多变量普遍化的beta分布。为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷（Peter Gustav Lejeune Dirichlet）而命名。狄利克雷分布常作为贝叶斯统计的先验概率。

3 Dirichlet 分布

3.1 Dirichlet 分布

依据wikipedia上的介绍。维度K ≥ 2（x1,x2…xK-1维。共K个）的狄利克雷分布在參数α1, ..., αK > 0上、基于欧几里得空间RK-1里的勒贝格測度有个概率密度函数，定义为：

当中，相当于是多项beta函数

且

此外，x1+x2+…+xK-1+xK=1，x1,x2…xK-1>0，且在(K-1)维的单纯形上，其它区域的概率密度为0。

当然，也能够例如以下定义Dirichlet 分布

当中的称为Dirichlet 分布的归一化系数：

且依据Dirichlet分布的积分为1（概率的基本性质）。能够得到：

$int_{vec{p}}prod_{k=1}^kp_k^{alpha_k - 1}dvec{p} = delta(vec{alpha})$

3.2 Dirichlet-Multinomial 共轭

以下。在2.2节问题2的基础上继续深入。引出问题3。

，
排序后相应的顺序统计量,
问的联合分布是什么？

为了简化计算，取x3满足x1+x2+x3=1,但仅仅有x1,x2是变量。例如以下图所看到的：

从而有：

继而得到于是我们得到的联合分布为：

观察上述式子的终于结果，能够看出上面这个分布事实上就是3维形式的 Dirichlet 分布

令，于是分布密度能够写为

这个就是一般形式的3维 Dirichlet 分布，即便延拓到非负实数集合，以上概率分布也是良定义的。

将Dirichlet分布的概率密度函数取对数，绘制对称Dirichlet分布的图像例如以下图所看到的（截取自wikipedia上）：

上图中。取K=3。也就是有两个独立參数x1,x2，分别相应图中的两个坐标轴。第三个參数始终满足x3=1-x1-x2且α1=α2=α3=α，图中反映的是參数α从α=(0.3, 0.3, 0.3)变化到(2.0, 2.0, 2.0)时的概率对数值的变化情况。

为了论证Dirichlet分布是多项式分布的共轭先验概率分布，以下咱们继续在上述问题3的基础上再进一步，提出问题4。

问题4 ，排序后相应的顺序统计量
令,,（此处的p3非变量，仅仅是为了表达方便）。如今要推測。
。Yi中落到，。三个区间的个数分别为 m1,m2,m3，m=m1+m2+m3。
问后验分布的分布是什么。

为了方便讨论，记，及。依据已知条件“，Yi中落到，，三个区间的个数分别为 m1,m2”，可得、各自是这m+n个数中第大、第大的数。于是。后验分布应该为，即一般化的形式表示为：。

相同的，依照贝叶斯推理的逻辑，可将上述过程整理例如以下：

我们要推測參数，其先验分布为；
数据Yi落到三个区间。，的个数分别为，所以服从多项分布
在给定了来自数据提供的知识后，的后验分布变为

上述贝叶斯分析过程的直观表述为：

令，可把从整数集合延拓到实数集合，从而得到更一般的表达式例如以下：

针对于这样的观測到的数据符合多项分布，參数的先验分布和后验分布都是Dirichlet 分布的情况，就是Dirichlet-Multinomial 共轭。

换言之，至此已经证明了Dirichlet分布的确就是多项式分布的共轭先验概率分布。

意味着，假设我们为多项分布的參数p选取的先验分布是Dirichlet分布，那么以p为參数的多项分布用贝叶斯预计得到的后验分布仍然服从Dirichlet分布。

进一步，一般形式的Dirichlet 分布定义例如以下：

而对于给定的

和

，其多项分布为：

结论是：Dirichlet分布

和多项分布

是共轭关系。

4 主题模型LDA

在開始以下的旅程之前，先来总结下我们眼下所得到的最基本的几个收获：

通过上文的第2.2节，我们知道beta分布是二项式分布的共轭先验概率分布：

“对于非负实数和，我们有例如以下关系

当中相应的是二项分布的计数。针对于这样的观測到的数据符合二项分布，參数的先验分布和后验分布都是Beta分布的情况。就是Beta-Binomial 共轭。”

通过上文的3.2节，我们知道狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布：

“ 把从整数集合延拓到实数集合。从而得到更一般的表达式例如以下：

针对于这样的观測到的数据符合多项分布。參数的先验分布和后验分布都是Dirichlet 分布的情况，就是 Dirichlet-Multinomial 共轭。 ”

以及贝叶斯派思考问题的固定模式：
- 先验分布 + 样本信息后验分布
上述思考模式意味着，新观察到的样本信息将修正人们曾经对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布，在得到新的样本信息后。人们对的认知为。
顺便提下频率派与贝叶斯派各自不同的思考方式：
- 频率派把须要判断的參数θ看做是固定的未知常数。即概率尽管是未知的，但最起码是确定的一个值，同一时候，样本X 是随机的，所以频率派重点研究样本空间，大部分的概率计算都是针对样本X 的分布；
- 而贝叶斯派的观点则截然相反，他们觉得待预计的參数是随机变量，服从一定的分布。而样本X 是固定的，由于样本是固定的。所以他们重点研究的是參数的分布。

OK，在杀到终极boss——LDA模型之前，再循序渐进理解基础模型：Unigram model、mixture of unigrams model，以及跟LDA最为接近的pLSA模型。

为了方便描写叙述，首先定义一些变量：

表示词，表示全部单词的个数（固定值）
表示主题，是主题的个数（预先给定。固定值）
表示语料库，当中的是语料库中的文档数（固定值）
表示文档，当中的表示一个文档中的词数（随机变量）

4.1 各个基础模型

4.1.1 Unigram model

对于文档。用表示词的先验概率。生成文档的概率为：

其图模型为（图中被涂色的w表示可观測变量，N表示一篇文档中总共N个单词，M表示M篇文档）：

或为：

unigram model假设文本中的词服从Multinomial分布。而我们已经知道Multinomial分布的先验分布为Dirichlet分布。
上图中的表示在文本中观察到的第n个词。n∈[1,N]表示该文本中一共同拥有N个单词。

加上方框表示反复，即一共同拥有N个这样的随机变量。

当中，p和α是隐含未知变量：

p是词服从的Multinomial分布的參数
α是Dirichlet分布（即Multinomial分布的先验分布）的參数。

一般α由经验事先给定，p由观察到的文本中出现的词学习得到，表示文本中出现每一个词的概率。

4.1.2 Mixture of unigrams model

该模型的生成过程是：给某个文档先选择一个主题，再依据该主题生成文档。该文档中的全部词都来自一个主题。
假设主题有。生成文档的概率为：

~~其图模型为（图中被涂色的w表示可观測变量，未被涂色的z表示未知的隐变量。N表示一篇文档中总共N个单词，M表示M篇文档）：~~

4.2 PLSA模型

啊哈，长征两万五，经过前面这么长的铺垫。终于快要接近LDA模型了！由于跟LDA模型最为接近的便是以下要阐述的这个pLSA模型，理解了pLSA模型后，到LDA模型也就一步之遥——给pLSA加上贝叶斯框架，便是LDA。

4.2.1 pLSA模型下生成文档

~~OK。在上面的Mixture of unigrams model中。我们假定一篇文档仅仅有一个主题生成。可~~实际中，一篇文章往往有多个主题，仅仅是这多个主题各自在文档中出现的概率大小不一样。比方介绍一个国家的文档中。往往会分别从教育、经济、交通等多个主题进行介绍。

那么在pLSA中，文档是怎样被生成的呢？

假设你要写M篇文档。由于一篇文档由各个不同的词组成，所以你须要确定每篇文档里每一个位置上的词。

再假定你一共同拥有K个可选的主题，有V个可选的词，咱们来玩一个扔骰子的游戏。

1. 假设你每写一篇文档会制作一颗K面的“文档-主题”骰子（扔此骰子能得到K个主题中的随意一个），和K个V面的“主题-词项” 骰子（每一个骰子相应一个主题，K个骰子相应之前的K个主题。且骰子的每一面相应要选择的词项，V个面相应着V个可选的词）。

比方可令K=3。即制作1个含有3个主题的“文档-主题”骰子，这3个主题能够是：教育、经济、交通。然后令V = 3，制作3个有着3面的“主题-词项”骰子，当中，教育主题骰子的3个面上的词能够是：大学、老师、课程。经济主题骰子的3个面上的词能够是：市场、企业、金融，交通主题骰子的3个面上的词能够是：高铁、汽车、飞机。

2. 每写一个词。先扔该“文档-主题”骰子选择主题，得到主题的结果后，使用和主题结果相应的那颗“主题-词项”骰子，扔该骰子选择要写的词。

先扔“文档-主题”的骰子，假设（以一定的概率）得到的主题是教育，所以下一步便是扔教育主题筛子，（以一定的概率）得到教育主题筛子相应的某个词：大学。

上面这个投骰子产生词的过程简化下便是：“先以一定的概率选取主题。再以一定的概率选取词”。事实上，一開始可供选择的主题有3个：教育、经济、交通。那为何偏偏选取教育这个主题呢？事实上是随机选取的，仅仅是这个随机遵循一定的概率分布。比方可能选取教育主题的概率是0.5，选取经济主题的概率是0.3。选取交通主题的概率是0.2，那么这3个主题的概率分布便是{教育：0.5。经济：0.3。交通：0.2}。我们把各个主题z在文档d中出现的概率分布称之为主题分布，且是一个多项分布。
相同的，从主题分布中随机抽取出教育主题后，依旧面对着3个词：大学、老师、课程。这3个词都可能被选中，但它们被选中的概率也是不一样的。比方大学这个词被选中的概率是0.5，老师这个词被选中的概率是0.3，课程被选中的概率是0.2，那么这3个词的概率分布便是{大学：0.5，老师：0.3。课程：0.2}，我们把各个词语w在主题z下出现的概率分布称之为词分布，这个词分布也是一个多项分布。
所以，选主题和选词都是两个随机的过程。先从主题分布{教育：0.5，经济：0.3，交通：0.2}中抽取出主题：教育，然后从该主题相应的词分布{大学：0.5，老师：0.3。课程：0.2}中抽取出词：大学。

3. 最后，你不停的反复扔“文档-主题”骰子和”主题-词项“骰子。反复N次（产生N个词），完毕一篇文档，反复这产生一篇文档的方法M次。则完毕M篇文档。

上述过程抽象出来即是PLSA的文档生成模型。在这个过程中，我们并未关注词和词之间的出现顺序，所以pLSA是一种词袋方法。详细说来，该模型假设一组共现(co-occurrence)词项关联着一个隐含的主题类别

。

同一时候定义：

表示海量文档中某篇文档被选中的概率。
表示词在给定文档中出现的概率。

怎么计算得到呢？针对海量文档，对全部文档进行分词后，得到一个词汇列表。这样每篇文档就是一个词语的集合。
对于每一个词语，用它在文档中出现的次数除以文档中词语总的数目便是它在文档中出现的概率。

表示详细某个主题在给定文档下出现的概率。
表示详细某个词在给定主题下出现的概率，与主题关系越密切的词，其条件概率越大。

利用上述的第1、3、4个概率，我们便能够依照例如以下的步骤得到“文档-词项”的生成模型：

依照概率选择一篇文档
选定文档后，从主题分布中依照概率选择一个隐含的主题类别
选定后，从词分布中依照概率选择一个词

所以pLSA中生成文档的整个过程便是选定文档生成主题，确定主题生成词。

4.2.1 依据文档反推其主题分布

反过来，既然文档已经产生，那么怎样依据已经产生好的文档反推其主题呢？这个利用看到的文档判断其隐藏的主题（分布）的过程（事实上也就是产生文档的逆过程），便是主题建模的目的：自己主动地发现文档集中的主题（分布）。

换言之。人类依据文档生成模型写成了各类文章，然后丢给了计算机，相当于计算机看到的是一篇篇已经写好的文章。如今计算机须要依据一篇篇文章中看到的一系列词归纳出当篇文章的主题，进而得出各个主题各自不同的出现概率：主题分布。

即文档d和单词w是可被观察到的，但主题z却是隐藏的。

例如以下图所看到的（图中被涂色的d、w表示可观測变量。未被涂色的z表示未知的隐变量。N表示一篇文档中总共N个单词，M表示M篇文档）：

上图中，文档d和词w是我们得到的样本（样本随机，參数虽未知但固定，所以pLSA属于频率派思想。差别于下文要介绍的LDA中：样本固定，參数未知但不固定，是个随机变量，服从一定的分布。所以LDA属于贝叶斯派思想）。可观測得到，所以对于随意一篇文档。其

是已知的。

从而能够依据大量已知的文档-词项信息

，训练出文档-主题

和主题-词项

，例如以下公式所看到的：

故得到文档中每一个词的生成概率为：

由于可事先计算求出，而和未知，所以就是我们要预计的參数（值），通俗点说。就是要最大化这个θ。

用什么方法进行预计呢，经常使用的參数预计方法有极大似然预计MLE、最大后验证预计MAP、贝叶斯预计等等。由于该待预计的參数中含有隐变量z，所以我们能够考虑EM算法。

4.2.1.1 EM算法的简介

EM算法。全称为Expectation-maximization algorithm，为期望最大算法，其基本思想是：首先随机选取一个值去初始化待预计的值，然后不断迭代寻找更优的使得其似然函数likelihood 比原来的要大。

换言之，假定如今得到了。想求，使得

EM的关键便是要找到的一个下界（注：。当中。X表示已经观察到的随机变量）。然后不断最大化这个下界。通过不断求解下界的极大化，从而逼近要求解的似然函数。

所以EM算法的一般步骤为：

1. 随机选取或者依据先验知识初始化；
2. 不断迭代下述两步

①给出当前的參数预计，计算似然函数的下界
②又一次预计參数θ。即求，使得

3. 上述第二步后，假设收敛（即收敛）则退出算法，否则继续回到第二步。

上述过程好比在二维平面上。有两条不相交的曲线，一条曲线在上（简称上曲线）。一条曲线在下（简称下曲线），下曲线为上曲线的下界。如今对上曲线未知。仅仅已知下曲线，为了求解上曲线的最高点，我们试着不断增大下曲线。使得下曲线不断逼近上曲线，下曲线在某一个点达到局部最大值并与上曲线在这点的值相等，记录下这个值，然后继续增大下曲线，寻找下曲线上与上曲线上相等的值，迭代到收敛（即收敛）停止，从而利用当前下曲线上的局部最大值当作上曲线的全局最大值（换言之，EM算法不保证一定能找到全局最优值）。

例如以下图所看到的：

以下是详细介绍。

假定有训练集。包括m个独立样本，希望从中找到该组数据的模型p(x,z)的參数。

然后通过极大似然预计建立目标函数--对数似然函数：

这里，z是隐随机变量，直接找到參数的预计是非常困难的。

我们的策略是建立的下界。而且求该下界的最大值；反复这个过程，直到收敛到局部最大值。

令Qi是z的某一个分布。Qi≥0，且结合Jensen不等式，有：

为了寻找尽量紧的下界。我们能够让使上述等号成立，而若要让等号成立的条件则是：

换言之。有以下式子成立：。且由于有：

所以可得：

终于得到EM算法的总体框架例如以下：

OK，EM算法还会在本博客后面的博文中详细阐述。

接下来，回到pLSA參数的预计问题上。

4.2.1.2 EM算法预计pLSA的两未知參数

首先尝试从矩阵的角度来描写叙述待预计的两个未知变量和。

假定用表示词表在主题上的一个多项分布，则能够表示成一个向量，每一个元素表示词项出如今主题中的概率，即

用表示全部主题在文档上的一个多项分布，则能够表示成一个向量，每一个元素表示主题出如今文档中的概率，即

这样，巧妙的把和转换成了两个矩阵。

换言之，终于我们要求解的參数是这两个矩阵：

由于词和词之间是相互独立的，所以整篇文档N个词的分布为：

再由于文档和文档之间也是相互独立的，所以整个语料库中词的分布为（整个语料库M篇文档，每篇文档N个词）：

当中。表示词项在文档中的词频。表示文档di中词的总数。显然有。

从而得到整个语料库的词分布的对数似然函数（下述公式中有个小错误，正确的应该是：N为M。M为N）：

如今，我们须要最大化上述这个对数似然函数来求解參数和。对于这样的含有隐变量的最大似然预计，能够使用EM算法。EM算法，分为两个步骤：先E-step，后M-step。

E-step：假定參数已知，计算此时隐变量的后验概率。

利用贝叶斯法则，能够得到：

M-step：带入隐变量的后验概率，最大化样本分布的对数似然函数，求解相应的參数。

观察之前得到的对数似然函数

的结果。由于文档长度

能够单独计算。所以去掉它不影响最大化似然函数。

此外，依据E-step的计算结果，把代入，于是我们仅仅要最大化以下这个函数就可以（下述公式中有个小错误，正确的应该是：N为M，M为N）：

这是一个多元函数求极值问题，而且已知有例如以下约束条件（下述公式中有个小错误，正确的应该是：M为N）：

熟悉凸优化的朋友应该知道。一般处理这样的带有约束条件的极值问题，经常使用的方法便是拉格朗日乘数法，即通过引入拉格朗日乘子将约束条件和多元（目标）函数融合到一起，转化为无约束条件的极值问题。

这里我们引入两个拉格朗日乘子和，从而写出拉格朗日函数（下述公式中有个小错误，正确的应该是：N为M。M为N）：

由于我们要求解的參数是和，所以分别对和求偏导。然后令偏导结果等于0，得到（下述公式中有个小错误。正确的应该是：N为M，M为N）：

消去拉格朗日乘子，终于可预计出參数和（下述公式中有个小错误，正确的应该是：N为M，M为N）：

综上。在pLSA中：

由于和未知，所以我们用EM算法去预计这个參数的值。
而后，用表示词项出如今主题中的概率。即，用表示主题出如今文档中的概率，即。从而把转换成了“主题-词项”矩阵Φ（主题生成词），把转换成了“文档-主题”矩阵Θ（文档生成主题）。
终于求解出、。

4.3 LDA模型

事实上，理解了pLSA模型，也就差点儿相同快理解了LDA模型。由于LDA就是在pLSA的基础上加层贝叶斯框架，即LDA就是pLSA的贝叶斯版本号（正由于LDA被贝叶斯化了，所以才须要考虑历史先验知识，才加的两个先验參数）。

4.3.1 pLSA跟LDA的对照：生成文档与參数预计

在pLSA模型中，我们依照例如以下的步骤得到“文档-词项”的生成模型：

依照概率选择一篇文档
选定文档后。确定文章的主题分布
从主题分布中依照概率选择一个隐含的主题类别
选定后，确定主题下的词分布
从词分布中依照概率选择一个词 ”

以下。咱们对照下本文开头所述的LDA模型中一篇文档生成的方式是怎样的：

依照先验概率选择一篇文档
从狄利克雷分布（即Dirichlet分布）中取样生成文档的主题分布，换言之，主题分布由超參数为的Dirichlet分布生成
从主题的多项式分布中取样生成文档第 j 个词的主题
从狄利克雷分布（即Dirichlet分布）中取样生成主题相应的词语分布。换言之，词语分布由參数为的Dirichlet分布生成
从词语的多项式分布中採样终于生成词语 ”

从上面两个过程能够看出，LDA在PLSA的基础上，为主题分布和词分布分别加了两个Dirichlet先验。

继续拿之前解说PLSA的样例进行详细说明。

如前所述。在PLSA中，选主题和选词都是两个随机的过程，先从主题分布{教育：0.5，经济：0.3。交通：0.2}中抽取出主题：教育，然后从该主题相应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。

而在LDA中。选主题和选词依旧都是两个随机的过程。依旧可能是先从主题分布{教育：0.5，经济：0.3。交通：0.2}中抽取出主题：教育。然后再从该主题相应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。

那PLSA跟LDA的差别在于什么地方呢？差别就在于：

PLSA中，主题分布和词分布是唯一确定的。能明确的指出主题分布可能就是{教育：0.5。经济：0.3。交通：0.2}。词分布可能就是{大学：0.5，老师：0.3，课程：0.2}。
但在LDA中，主题分布和词分布不再唯一确定不变。即无法确切给出。
比如主题分布可能是{教育：0.5，经济：0.3，交通：0.2}。也可能是{教育：0.6。经济：0.2，交通：0.2}，究竟是哪个我们不再确定（即不知道）。由于它是随机的可变化的。但再怎么变化。也依旧服从一定的分布，即主题分布跟词分布由Dirichlet先验随机确定。

看到这，你可能凌乱了，你说面对多个主题或词，各个主题或词被抽中的概率不一样，所以抽取主题或词是随机抽取，还好理解。但如今你说主题分布和词分布本身也都是不确定的，这是怎么回事？没办法，谁叫Blei等人“强行”给PLSA安了个贝叶斯框架呢。正由于LDA是PLSA的贝叶斯版本号。所以主题分布跟词分布本身由先验知识随机给定。

进一步，你会发现：

pLSA中，主题分布和词分布确定后。以一定的概率（、）分别选取详细的主题和词项，生成好文档。
而后依据生成好的文档反推其主题分布、词分布时，终于用EM算法（极大似然预计思想）求解出了两个未知但固定的參数的值：（由转换而来）和（由转换而来）。

文档d产生主题z的概率。主题z产生单词w的概率都是两个固定的值。

举个文档d产生主题z的样例。给定一篇文档d，主题分布是一定的，比方{ P(zi|d), i = 1,2,3 }可能就是{0.4,0.5,0.1}，表示z1、z2、z3。这3个主题被文档d选中的概率都是个固定的值：P(z1|d) = 0.4、P(z2|d) = 0.5、P(z3|d) = 0.1，例如以下图所看到的（图截取自沈博PPT上）：

但在贝叶斯框架下的LDA中，我们不再觉得主题分布（各个主题在文档中出现的概率分布）和词分布（各个词语在某个主题下出现的概率分布）是唯一确定的（而是随机变量），而是有非常多种可能。但一篇文档总得相应一个主题分布和一个词分布吧。怎么办呢？LDA为它们弄了两个Dirichlet先验參数，这个Dirichlet先验为某篇文档随机抽取出某个主题分布和词分布。

文档d产生主题z（准确的说。事实上是Dirichlet先验为文档d生成主题分布Θ，然后依据主题分布Θ产生主题z）的概率，主题z产生单词w的概率都不再是某两个确定的值。而是随机变量。

还是再次举下文档d详细产生主题z的样例。给定一篇文档d，如今有多个主题z1、z2、z3，它们的主题分布{ P(zi|d), i = 1,2,3 }可能是{0.4,0.5,0.1}，也可能是{0.2,0.2,0.6}，即这些主题被d选中的概率都不再觉得是确定的值，可能是P(z1|d) = 0.4、P(z2|d) = 0.5、P(z3|d) = 0.1，也有可能是P(z1|d) = 0.2、P(z2|d) = 0.2、P(z3|d) = 0.6等等。而主题分布究竟是哪个取值集合我们不确定（为什么？这就是贝叶斯派的核心思想。把未知參数当作是随机变量，不再觉得是某一个确定的值）。但其先验分布是dirichlet 分布，所以能够从无穷多个主题分布中依照dirichlet 先验随机抽取出某个主题分布出来。例如以下图所看到的（图截取自沈博PPT上）：

换言之，LDA在pLSA的基础上给这两參数（

、

）加了两个先验分布的參数（贝叶斯化）：一个主题分布的先验分布Dirichlet分布

，和一个词语分布的先验分布Dirichlet分布

。

综上，LDA真的仅仅是pLSA的贝叶斯版本号，文档生成后，两者都要依据文档去判断其主题分布和词语分布（~~即两者本质都是为了预计给定文档生成主题。给定主题生成词语的概率~~），仅仅是用的參数判断方法不同。在pLSA中用极大似然预计的思想去判断两未知的固定參数。而LDA则把这两參数弄成随机变量，且增加dirichlet先验。

所以，pLSA跟LDA的本质差别就在于它们去预计未知參数所採用的思想不同，前者用的是频率派思想，后者用的是贝叶斯派思想。
好比，我去一朋友家：

依照频率派的思想，我预计他在家的概率是1/2。不在家的概率也是1/2，是个定值。
而依照贝叶斯派的思想。他在家不在家的概率不再觉得是个定值1/2，而是随机变量。比方依照我们的经验（比方当天周末），推測他在家的概率是0.6，但这个0.6不是说就是全然确定的。也有可能是0.7。
如此。贝叶斯派没法确切给出參数的确定值（0.3,0.4，0.6,0.7，0.8,0.9都有可能），但至少明确在哪个范围或哪些取值（0.6,0.7。0.8,0.9）更有可能，哪个范围或哪些取值（0.3,0.4）不太可能。
进一步。贝叶斯预计中，參数的多个预计值服从一定的先验分布，而后依据实践获得的数据（比如周末不断跑他家）。不断修正之前的參数预计。从先验分布慢慢过渡到后验分布。

OK，相信已经解释清晰了。

假设是在机器学习班上face-to-face，更好解释和沟通。

4.3.2 LDA生成文档过程的进一步理解

上面说。LDA中，主题分布 —— 比方{ P(zi), i =1,2,3 }等于{0.4,0.5,0.1}或{0.2,0.2,0.6} —— 是由dirichlet先验给定的，不是依据文档产生的。所以。LDA生成文档的过程中，先从dirichlet先验中“随机”抽取出主题分布，然后从主题分布中“随机”抽取出主题。最后从确定后的主题相应的词分布中“随机”抽取出词。

那么，dirichlet先验究竟是怎样“随机”抽取主题分布的呢？

事实上。从dirichlet分布中随机抽取主题分布，这个过程不是全然随机的。

为了说清晰这个问题，咱们得回想下dirichlet分布。事实上。假设我们取3个事件的话，能够建立一个三维坐标系。相似xyz三维坐标系，这里。我们把3个坐标轴弄为p1、p2、p3，例如以下图所看到的：

在这个三维坐标轴所划分的空间里，每一个坐标点(p1,p2,p3)就相应着一个主题分布。且某一个点(p1,p2,p3)的大小表示3个主题z1、z2、z3出现的概率大小（由于各个主题出现的概率和为1。所以p1+p2+p3 = 1，且p1、p2、p3这3个点最大取值为1）。比方(p1,p2,p3) = (0.4,0.5,0.1)便相应着主题分布{ P(zi), i =1,2,3 } = {0.4,0.5,0.1}。

能够想象到，空间里有非常多这样的点(p1,p2,p3)。意味着有非常多的主题分布可供选择，那dirichlet分布怎样选择主题分布呢？把上面的斜三角形放倒。映射究竟面的平面上，便得到例如以下所看到的的一些彩图（3个彩图中，每一个点相应一个主题分布，高度代表某个主题分布被dirichlet分布选中的概率。且选不同的。dirichlet 分布会偏向不同的主题分布）：

我们来看上图中左边这个图，高度就是代表dirichlet分布选取某个坐标点(p1,p2,p3)（这个点就是一个主题分布）的概率大小。例如以下图所看到的，平面投影三角形上的三个顶点上的点：A=(0.9,0.05,0.05)、B=(0.05,0.9,0.05)、C=(0.05,0.05,0.9)各自相应的主题分布被dirichlet分布选中的概率值非常大。而平面三角形内部的两个点：D、E相应的主题分布被dirichlet分布选中的概率值非常小。

所以尽管说dirichlet分布是随机选取随意一个主题分布的，但依旧存在着P(A) = P(B) = P(C) >> P(D) = P(E)。即dirichlet分布还是“偏爱”某些主题分布的。至于dirichlet分布的參数

是怎样决定dirichlet分布的形状的。能够从dirichlet分布的定义和公式思考。

此外。就算说“随机”选主题也是依据主题分布来“随机”选取。这里的随机不是全然随机的意思，而是依据各个主题出现的概率值大小来抽取。比方当dirichlet先验为文档d生成的主题分布{ P(zi), i =1,2,3 }是{0.4,0.5,0.1}时，那么主题z2在文档d中出现的概率便是0.5。所以。从主题分布中抽取主题，这个过程也不是全然随机的。而是依照各个主题出现的概率值大小进行抽取。

4.3.3 pLSA跟LDA的概率图对照

接下来，对照下LDA跟pLSA的概率模型图模型，左图是pLSA。右图是LDA（右图不太规范，z跟w都得是小写。当中，阴影圆圈表示可观測的变量。非阴影圆圈表示隐变量，箭头表示两变量间的条件依赖性conditional dependency，方框表示反复抽样，方框右下角的数字代表反复抽样的次数）：

相应到上面右图的LDA，仅仅有W / w是观察到的变量，其它都是隐变量或者參数。当中。Φ表示词分布，Θ表示主题分布，

是主题分布Θ的先验分布（即Dirichlet 分布）的參数。

是词分布Φ的先验分布（即Dirichlet 分布）的參数，N表示文档的单词总数，M表示文档的总数。

所以，对于一篇文档d中的每一个单词，LDA依据先验知识

确定某篇文档的主题分布θ，然后从该文档所相应的多项分布（主题分布）θ中抽取一个主题z，接着依据先验知识

确定当前主题的词语分布ϕ，然后从主题z所相应的多项分布（词分布）ϕ中抽取一个单词w。然后将这个过程反复N次。就产生了文档d。

换言之：

假定语料库中共同拥有M篇文章，每篇文章下的Topic的主题分布是一个从參数为的Dirichlet先验分布中採样得到的Multinomial分布。每一个Topic下的词分布是一个从參数为的Dirichlet先验分布中採样得到的Multinomial分布。
对于某篇文章中的第n个词，首先从该文章中出现的每一个主题的Multinomial分布（主题分布）中选择或採样一个主题，然后再在这个主题相应的词的Multinomial分布（词分布）中选择或採样一个词。不断反复这个随机生成过程，直到M篇文章全部生成完毕。

综上，M 篇文档会相应于 M 个独立的 Dirichlet-Multinomial 共轭结构。K 个 topic 会相应于 K 个独立的 Dirichlet-Multinomial 共轭结构。

当中。→θ→z 表示生成文档中的全部词相应的主题，显然 →θ 相应的是Dirichlet 分布，θ→z 相应的是 Multinomial 分布。所以总体是一个 Dirichlet-Multinomial 共轭结构。例如以下图所看到的：

相似的，→φ→w，easy看出，此时β→φ相应的是 Dirichlet 分布， φ→w 相应的是 Multinomial 分布，所以总体也是一个Dirichlet-Multinomial 共轭结构，例如以下图所看到的：

4.3.4 pLSA跟LDA參数预计方法的对照

上面对照了pLSA跟LDA生成文档的不同过程，以下，咱们反过来，假定文档已经产生，反推其主题分布。那么，它们预计未知參数所採用的方法又有什么不同呢？

在pLSA中，我们使用EM算法去预计“主题-词项”矩阵Φ（由转换得到）和“文档-主题”矩阵Θ（由转换得到）这两个參数，而且这两參数都是个固定的值。仅仅是未知，使用的思想事实上就是极大似然预计MLE。
而在LDA中，预计Φ、Θ这两未知參数能够用变分(Variational inference)-EM算法，也能够用gibbs採样，前者的思想是最大后验预计MAP（MAP与MLE相似，都把未知參数当作固定的值），后者的思想是贝叶斯预计。贝叶斯预计是对MAP的扩展，但它与MAP有着本质的不同。即贝叶斯预计把待预计的參数看作是服从某种先验分布的随机变量。

关于贝叶斯预计再举个样例。假设中国的大学仅仅有两种：理工科和文科，这两种学校数量的比例是1:1。当中，理工科男女比例7:1，文科男女比例1:7。某天你被外星人随机扔到一个校园，问你该学校可能的男女比例是多少？然后，你实际到该校园里逛了一圈，看到的5个人全是男的。这时候再次问你这个校园的男女比例是多少？

由于刚開始时，有先验知识，所以该学校的男女比例要么是7:1。要么是1:7，即P(比例为7:1) = 1/2，P(比例为1:7) = 1/2。
然后看到5个男生后又一次预计男女比例。事实上就是求P(比例7:1|5个男生）= ？，P(比例1:7|5个男生) = ？
用贝叶斯公式，可得：P(比例7:1|5个男生) = P(比例7:1)*P(5个男生|比例7:1) / P(5个男生)，P(5个男生)是5个男生的先验概率。与学校无关，所以是个常数；相似的，P(比例1:7|5个男生) = P((比例1:7)*P(5个男生|比例1:7)/P(5个男生)。
最后将上述两个等式比一下。可得：P(比例7:1|5个男生)/P(比例1:7|5个男生) = {P((比例7:1)*P(5个男生|比例7:1)} / { P(比例1:7)*P(5个男生|比例1:7)}。

由于LDA把要预计的主题分布和词分布看作是其先验分布是Dirichlet分布的随机变量，所以，在LDA这个预计主题分布、词分布的过程中，它们的先验分布（即Dirichlet分布）事先由人为给定，那么LDA就是要去求它们的后验分布（LDA中可用gibbs採样去求解它们的后验分布。得到期望

、

）！

此外，不厌其烦的再插一句，在LDA中，主题分布和词分布本身都是多项分布，而由上文3.2节可知“Dirichlet分布是多项式分布的共轭先验概率分布”。因此选择Dirichlet 分布作为它们的共轭先验分布。意味着为多项分布的參数p选取的先验分布是Dirichlet分布，那么以p为參数的多项分布用贝叶斯预计得到的后验分布仍然是Dirichlet分布。

4.3.5 LDA參数预计：Gibbs採样

理清了LDA中的物理过程，以下咱们来看下怎样学习预计。

相似于pLSA。LDA的原始论文中是用的变分-EM算法预计未知參数，后来发现还有一种预计LDA未知參数的方法更好，这样的方法就是：Gibbs Sampling，有时叫Gibbs採样或Gibbs抽样。都一个意思。Gibbs抽样是马尔可夫链蒙特卡尔理论（MCMC）中用来获取一系列近似等于指定多维概率分布（比方2个或者多个随机变量的联合概率分布）观察样本的算法。

OK，给定一个文档集合。w是能够观察到的已知变量，和是依据经验给定的先验參数，其它的变量z，θ和φ都是未知的隐含变量，须要依据观察到的变量来学习预计的。依据LDA的图模型，能够写出全部变量的联合分布：

注：上述公式中及下文中。等价上文中定义的。等价于上文中定义的。等价于上文中定义的。等价于上文中定义的。

由于产生主题分布θ，主题分布θ确定详细主题，且产生词分布φ、词分布φ确定详细词，所以上述式子等价于下述式子所表达的联合概率分布：

当中，第一项因子表示的是依据确定的主题和词分布的先验分布參数採样词的过程，第二项因子是依据主题分布的先验分布參数採样主题的过程，这两项因子是须要计算的两个未知參数。

由于这两个过程是独立的。所以以下能够分别处理。各个击破。

第一个因子，能够依据确定的主题和从先验分布取样得到的词分布Φ产生：

由于样本中的词服从參数为主题的独立多项分布，这意味着能够把上面对词的乘积分解成分别对主题和对词的两层乘积：

当中，是词 t 在主题 k 中出现的次数。

回到第一个因子上来。

目标分布须要对词分布Φ积分。且结合我们之前在3.1节定义的Dirichlet 分布的归一化系数的公式

可得：

这个结果能够看作K个Dirichlet-Multinomial模型的乘积。
如今開始求第二个因子。相似于的步骤。先写出条件分布，然后分解成两部分的乘积：

当中。表示的单词 i 所属的文档，是主题 k 在文章 m 中出现的次数。

对主题分布Θ积分可得：

综合第一个因子和第二个因子的结果，得到的联合分布结果为：

接下来，有了联合分布。咱们便能够通过联合分布来计算在给定可观測变量 w 下的隐变量 z 的条件分布（后验分布）来进行贝叶斯分析。

换言之，有了这个联合分布后，要求解第m篇文档中的第n个词（下标为

的词）的全部条件概率就好求了。

先定义几个变量。

表示除去

的词。

，

。

然后。排除当前词的主题分配。即依据其它词的主题分配和观察到的单词来计算当前词主题的概率公式为：

勘误：考虑到

，所以上述公式的第二行的分子，非p(w,z) *p(z)。而是p(w|z)*p(z)。

且有：

最后一步，便是依据Markov链的状态

获取主题分布的參数Θ和词分布的參数Φ。

换言之依据贝叶斯法则和Dirichlet先验，以及上文中得到的

和

各自被分解成两部分乘积的结果，能够计算得到每一个文档上Topic的后验分布和每一个Topic下的词的后验分布分别例如以下（据上文可知：其后验分布跟它们的先验分布一样，也都是Dirichlet 分布）：

当中，

是构成文档m的主题数向量，

是构成主题k的词项数向量。

此外，别忘了上文中2.4节所述的Dirichlet的一个性质，例如以下：

“ 假设，相同能够证明有下述结论成立：

即：假设

。则

中的任一元素

的期望是：

能够看出。超參数

的直观意义就是事件先验的伪计数(prior pseudo-count)。

”
所以，终于求解的Dirichlet 分布期望为：

然后将

和

的结果代入之前得到的

的结果中，可得：

细致观察上述结果。能够发现，式子的右半部分便是

，这个概率的值相应着

的路径概率。

如此，K 个topic 相应着K条路径，Gibbs Sampling 便在这K 条路径中进行採样。例如以下图所看到的：

何等奇异。就这样，Gibbs Sampling通过求解出主题分布和词分布的后验分布，从而成功解决主题分布和词分布这两參数未知的问题。

5 读者微评

本文发表后。部分热心的读者在微博上分享了他们自己理解LDA的心得。也欢迎很多其它朋友分享你的理解心得（比方评论在本文下，或评论在微博上），从而在分享、讨论的过程中让很多其它人能够更好的理解：

@SiNZeRo：lda 假设用em就是 map预计了. lda本意是要去找后验分布然后拿后验分布做bayesian分析. 比方theta的期望 . 而不是把先验作为正则化引入。最后一点gibbs sampling事实上不是求解的过程是去explore后验分布去採样用于求期望.
@研究者July：好问题好建议，这几天我陆续完好下！//@帅广应s：LDA这个东西该怎么用？能够用在哪些地方？还有就是Gibbs抽样的原理是什么？代码怎么实现？假设用EM来做，代码怎么实现？ LDA模型的变形和优化有哪些？LDA不适用于解决哪类的问题？总之，不明确怎么用，參数怎么调优？
@xiangnanhe：写的非常好，4.1.3节中的那两个图非常赞，非常直观的理解了LDA模型加了先验之后在学參数的时候要比PLSI更灵活；PLSI在学參数的过程中比較easy陷入local minimum然后overfitting。
@asker2：不管是pLSA中，还是LDA中，主题分布和词分布本身是固定的存在，但都未知。
pLSA跟LDA的差别在于，去探索这两个未知參数的方法或思想不一样。
pLSA是求到一个能拟合文本最好的參数（分布），这个值就觉得是真实的參数。
但LDA觉得，事实上我们没法去全然求解出主题分布、词分布究竟是什么參数，我们仅仅能把它们当成随机变量。通过缩小其方差（变化度）来尽量让这个随机变量变得更“确切”。换言之，我们不再求主题分布、词分布的详细值，而是通过这些分布生成的观測值（即实际文本）来反推分布的參数的范围，即在什么范围比較可能，在什么范围不太可能。所以，事实上这就是一种贝叶斯分析的思想，尽管无法给出真实值详细是多少。但能够依照经验给一个相对合理的真实值服从的先验分布。然后从先验出发求解其后验分布。
..

6 參考文献与推荐阅读

Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Latent Dirichlet allocation（LDA原始论文）：http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf。
Blei. Probabilistic Topic Models：http://www.cs.princeton.edu/~blei/papers/Blei2012.pdf，一网友的翻译：http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html。
一堆wikipedia，比方隐含狄利克雷分布LDA的wiki：http://zh.wikipedia.org/wiki/%E9%9A%90%E5%90%AB%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83，狄利克雷分布的wiki：http://zh.wikipedia.org/wiki/%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83。
从贝叶斯方法谈到贝叶斯网络；
rickjin的LDA数学八卦（力荐，本文部分图片和公式来自于此文档）网页版：http://www.flickering.cn/tag/lda/。PDF版：http://emma.memect.com/t/9756da9a47744de993d8df13a26e04e38286c9bc1c5a0d2b259c4564c6613298/LDA；
Thomas Hofmann.Probabilistic Latent Semantic Indexing（pLSA原始论文）：http://cs.brown.edu/~th/papers/Hofmann-SIGIR99.pdf；
Gregor Heinrich.Parameter estimation for text analysis（关于Gibbs 採样最精准细致的论述）：http://www.arbylon.net/publications/text-est.pdf；
Probabilistic latent semantic analysis (pLSA)：http://blog.tomtung.com/2011/10/plsa/http://blog.tomtung.com/2011/10/plsa/。
《概率论与数理统计教程第二版茆诗松等人著》。假设忘了相关统计分布。建议复习此书或此文第二部分；
《支持向量机通俗导论：理解SVM的三层境地》。第二部分关于拉格朗日函数的讨论；
机器学习班第11次课上，邹博讲EM & GMM的PPT：http://pan.baidu.com/s/1i3zgmzF；
机器学习班第12次课上。邹博讲主题模型LDA的PPT：http://pan.baidu.com/s/1jGghtQm；
主题模型之pLSA：http://blog.jqian.net/post/plsa.html。
主题模型之LDA：http://blog.jqian.net/post/lda.html；
搜索背后的奥秘——浅谈语义主题计算：http://www.semgle.com/search-engine-algorithms-mystery-behind-search-on-the-calculation-of-semantic-topic；
LDA的EM推导：http://www.cnblogs.com/hebin/archive/2013/04/25/3043575.html；
Machine Learning读书会第8期上，沈博讲主题模型的PPT：http://vdisk.weibo.com/s/zrFL6OXKgKMAf；
Latent Dirichlet Allocation （LDA）- David M.Blei：http://www.xperseverance.net/blogs/2012/03/17/。
用GibbsLDA做Topic Modeling：http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/#comment-87；
主题模型在文本挖掘中的应用：http://net.pku.edu.cn/~zhaoxin/Topic-model-xin-zhao-wayne.pdf；
二项分布和多项分布，beta分布的对照：http://www.cnblogs.com/wybang/p/3206719.html；
LDA简介：http://cos.name/2010/10/lda_topic_model/；
LDA的相关论文、工具库：http://site.douban.com/204776/widget/notes/12599608/note/287085506/。
一个网友学习LDA的心得：http://www.xuwenhao.com/2011/03/20/suggestions-for-programmers-to-learn-lda/。
http://blog.csdn.net/hxxiaopei/article/details/7617838；
主题模型LDA及其在微博推荐&广告算法中的应用：http://www.wbrecom.com/?
p=136。
LDA发明人之中的一个Blei 写的毕业论文：http://www.cs.princeton.edu/~blei/papers/Blei2004.pdf；
LDA的一个C实现：http://www.cs.princeton.edu/~blei/lda-c/index.html。
LDA的一些其它资料：http://www.xperseverance.net/blogs/2012/03/657/。

7 后记

这个LDA的笔记从11月17日下午開始动笔。到21日基本写完，25日基本改完。前前后后。基本写完 + 基本改完，总共花了近10 天的时间，后面还得不断完好。

前5天就像在树林里中行走，要走的慷慨向非常明确，但在选取哪条小道上则颇费了一番周折，但当最后走出了树林。登上山顶，俯瞰整个森林时，奥，原来它就长这样，会有一种彻爽的感觉！

而后5 天。则慢慢開始接近LDA的本质：pLSA的贝叶斯版本号。

写作过程艰难但结果透彻，也希望读者能享受到当中。

最后，再次感谢本文最基本的參考：LDA原始论文、pLSA原始论文、LDA数学八卦、机器学习班第12次课主题模型PPT。和Parameter estimation for text analysis等等的作者们（本文中大部分的图片、公式截取自这些參考资料上），由于有他们的创造或分享。我才有机会理解和再加工LDA，终于让本文得以成文。

兴许几天会不断改动完好本文，若有不论什么问题。可在本文下评论，thanks。

July、二零一四年十一月二十一日。