[NLP]语言模型

语言模型:是一种计算语句自然程度的算法,通过计算概率来做,举个例子:

sent:我想学英语,先将句子分词为:我 想 学 英语,则这个句子的自然程度的计算为p(sent) = p(我)p(想|我)p(学|我,想)p(英语|我,想,学)

但是p(英语|我,想,学)的概率是很难计算的,所以为解决这种问题,我们会做一个马尔科夫假设,并在该假设下提出unigram,bi-gram,tri-gram等方法:

unigram:p(sent) = p(我)p(想)p(学)p(英语)

bi-gram:p(sent) = p(我)p(想|我)p(学|想)p(英语|学)

tri-gram:p(sent) = p(我)p(想|我)p(学|我,想)p(英语|想,学)

注:马尔科夫假设是指一个事物的状态与他的之前状态有关,并计算条件概率的一种假设。

原文地址:https://www.cnblogs.com/mj-selina/p/12788120.html