NLP 学习|DAY2|LDA是什么?

1. 共轭形式保证了(先验+似然=后验概率)其中后验和先验是同样的形式。

对于二项分布来说,其共轭是Beta分布,而对于多项分布来说,其共轭是Dirichlet分布,也是名字Latent Dirichlet allocation的来历。

2.从β分布到Dirichlet分布是从二维到多维的扩展。

3.Latent Dirichlet allocation 即隐藏的Dirichlet分布,为何有此名字呢?

对于M篇文章的集合,每个文章有N个单词。

Goal:我们的目标是找到每一篇文章的主题分布和每一个主题的词分布。

(以下变量都是假设)

LDA假设各文档主题的先验分布是Dirichlet分布,参数为α,假设有K个主题,则α为K维向量。

LDA假设各主题中词的先验分布是Dirichlet分布,参数为lamda,V代表词汇表的所有单词的个数,lamda是V维向量。

(以上变量都是假设)

先验部分

对于数据中的文章D中的单词N,我们可以从假设的分布中得到主题编号分布,这是多项分布。

而对于主题编号,我们可以利用假设的词分布的多项分布得到概率分布。

似然部分

得到的结果必定是Dirichlet分布形式(因为共轭关系)

后验部分

问题是如何基于该模型求解我们想要的每一篇主题分布和主题中的词分布呢?

Gibbs采样算法

参考博客

原文地址:https://www.cnblogs.com/billdingdj/p/10446012.html