LDA主题模型

1、什么是LDA主题模型？

　　LDA主题模型是一种无监督的贝叶斯模型；

　　是一种主题模型，它可以将文档集中的每个文档的主题按照概率给出，同时他是一种无监督学习算法，在训练时不需要手工标注的数据集，仅仅需要文档集和主题的数量K即可。此外LDA的每一个主题均可以找到一些词语来描述它。

　　是一种典型的词袋模型，即它认为每一篇文档是由一组词构成的集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中的每个词都由一个主题生成。

　　贝叶斯模型：

　　 P(A|B) = P(B|A)*P(A)/P(B)

　　标准版解释：

　　以一篇文章的词，来解释LDA

　　一篇文章的每个词都是以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语而组成的

　　P(单词|文档) = P(单词|主题)*P(主题|文档)

2、怎么生成LDA主题模型

　　对于语料库中的每篇文档，LDA定义了如下生成过程：
　　1、对于每一篇文档，从主题分布中抽取一个主题；

　　2、从上述被抽到的主题所对应的单词分布中抽取一个单词；

　　3、重复上述过程直至遍历文档中的每一个单词

　　更详细的解释：

　　w代表单词、d代表文档、t代表主题、大写代表总集合、小写代表个体

　　D中每个文档d看作一个单词序列<w1,w2,....,wn>,wi表示第i个单词；

　　D中涉及的所有不同单词组成一个词汇表大集合V，LDA以文档集合D作为输入、希望训练处两个结果向量（假设形成k个topic，V中一共m个词）:
　　

　　对每个D中的文档d，对应到不同topic的概率θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率。计算方法很直观，就是pti= nti/n,其中nti表示d中对应第i个topic的词的数目，n是d中所有词的总数。

　　对于每个T中的topic，生成不同单词的概率φt<pw1,pw2,....,pwm>,其中，pwi表示t生成V中第i个单词的概率。计算方法同样很直观，pwi = Nwi/N，其中Nwi表示对应到topic的V中第i个单词的数目，N表示所有对应到topic的单词总数。

　　LDA的核心公式如下：

　　P(w|d) = P(w|t)*P(t|d)

　　直观的看这个公式，就是以Topic作为中间层，可以通过当前的θd和φt，计算出文档d中出现单词w的概率。其中p(t|d)利用θd计算得到，p(w|t)利用φt计算得到。

LDA参数的选取：

1、经验值：aphla选择为 50／k，k为主题topic个数，beta一般选为0.01

2、aphla使用贝叶斯估计，EM算法估计

LDA模型应用：分析希拉里的邮件，看看希拉里平时都在聊一些什么东西

首先，导入一些依赖库

import numpy as np 
import pandas as pd 
import re

import numpy as np
import pandas as pd
import re

# 数据预处理
df = pd.read_csv('../email.csv')
# 删除是Nan的字符
df[['Id','Body']].dropna()

def clean_email_text(text):
    text = text.replace('
'," ")
    text = re.sub('-','',text)
    #text = re.sub()

    pure_text = ''
    for letter in text:
        # 只留下字母和空格
        if letter.isalpha() or letter == '':
            pure_text +=text
    text = ' '.join(word for word in text if len(word)>1)
    return text
#建立新的一个colum
docs =  df['ExtractedBodyText']
docs = docs.apply(lambda s:clean_email_text(s))

#把所有的邮件内容拿出来
doclist = docs.values
# LDA模型构建
# 需要把文档转化为tokens模式
# 引入库
from gensim import corpora,models,similarities
import gensim

stoplist = ['the','....']

#分词，英文根据空白处分割即可，中文可使用结巴分词
texts = [[word for word in doc.lower().split() if word not in stoplist] for doc in doclist]

#建立语料库
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

#构建模型
lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=20
                                )
#输出10号主题的关键词
lda.print_topic(10,topn=5)
#新文本预测，属于那个主题
lda.get_document_topics(bow=corpus[0])