LDA（latent dirichlet allocation）的应用

http://www.52ml.net/1917.html

主题模型LDA（latent dirichlet allocation）的应用还是很广泛的，之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过，做feature、降维等。例如可以用主题维度来表示原来的字典维度，大大的降低了文本表示的维度。这其实也很deep learning中的对特征的抽象有点相似，通过一些聚类等的思想，将一些细粒度的特征组合到一个新的空间上去，例如主题空间。

而且GibbsSampling的LDA实现也相对容易，可以参考一些代码。

最近看微博上志飞Google 发起的帖子，大多业界用lda或者plsa的都表态了。腾讯的rickjin等。摘录一些，大家以后遇到类似的问题可以尝试下topic model。

===

rickjin ：PLSA 和 LDA 在广告系统中做文本语义相似度的计算还是可以的,至少能保证弱语义相关性。另外，我们把 LDA inference 出来的 topic 用在了文本分类器中做feature, 可以显著的提升分类器的 precission/recall

机器学习那些事儿：在计算搜索query相似度时直接采用LSA了，因为SVD的效率在工业界已经很成熟。//@rickjin :回复 @志飞Google :哦，没有说清楚，我指的是弱语义关联，比如 LDA 可以有效的用于计算 "柯南" 和 "火影忍者" 这两个 query 的相似度

机器学习那些事儿：打个比方，有1000万个样本，只用learning的100个topic做feature，结果可想而知// @余凯_西二旗民工 :只用topic分类，效果不好，尤其是在训练样本多的时候。// @老师木 : 只用topic作文本分类，效果怎样。

李沐mu ：有公司用lda做cookie做user group，然后当feature用，效果挺好/ @洪亮劼 : 目前正在做LDA在大规模user profiling + personalization的工作。

张栋_机器学习：PLSA （dirichlet prior = zero 的 LDA）还是很实用的，我们用它解过几个工业界的问题

袁全V ：我们在广告中在用lda做cookie-url grouping, 最近在尝试用来发现长尾语义

苏劲松XMUNLP ：baidu好像把plsa用得挺好的，lda就不知道了。