LDA训练过程（吉布斯采样）

吉布斯采样 (Gibbs Sampling) 首先选取概率向量的一个维度，给定其他维度的变量值当前维度的值，不断收敛来输出待估计的参数。具体地

1.随机给每一篇文档的每一个词 ww，随机分配主题编号 zz
2.统计每个主题 zizi 下出现字 ww 的数量，以及每个文档 nn 中出现主题 zizi 中的词 ww的数量
3.每次排除当前词 ww 的主题分布 zizi，根据其他所有词的主题分类，来估计当前词 ww 分配到各个主题 z1,z2,…,zkz1,z2,…,zk 的概率，即计算 p(zi|z−i,d,w)p(zi|z−i,d,w) (Gibbs updating rule))。得到当前词属于所有主题z1,z2,…,zkz1,z2,…,zk 的概率分布后，重新为词采样一个新的主题 z1z1。用同样的方法不断更新的下一个词的主题，直到每个文档下的主题分布θnθn 和每个主题下的词分布 ϕkϕk 收敛。
4.最后输出待估计参数，θnθn 和 ϕkϕk ，每个单词的主题 zn,kzn,k 也可以得到。

LDA 对于每个文档的每一个字都有一个主题下标。但从文档聚类的角度来说，LDA 没有一个文档统一的聚类标签，而是每个字都有一个聚类标签，这个就是主题。LDA 每个字都有可能属于不同的类别，每个文档都有可能属于不同的类别。在大量的迭代后，主题分布和字分布都比较稳定也比较好了，LDA 模型收敛。