【NLP_Stanford课堂】语言模型1

一、语言模型

旨在：给一个句子或一组词计算一个联合概率

作用：

相关任务：在原句子的基础上，计算一个新词的条件概率，该概率与P(w1w2w3w4w5)息息相关。

任何一个模型计算以上两个概率的，我们都称之为语言模型LM。

方法：依赖概率的链式规则

从而有：

问题：如何预估这些概率

但是不可能做到！

原因：句子数量过于庞大；永远不可能有足够的数据来预估这些（语料库永远不可能是完备的）

或者：

即：

所以：

其假设词是相互独立的

但是并不有效，因为语言本身存在长距离依存关系

比如"The computer which ......crashed" 单词crash本身其实是依赖于主语computer的，但是中间隔了一个很长的从句，在马尔可夫模型中就很难找到这样的依存关系

但是在实际应用中，发现N-gram可以一定程度上解决这个问题

以bigram为例。

，即，

分子表示wi紧跟着wi-1出现的计数，分母表示wi-1出现的计数

举例如下：

语料库：

结果：

更复杂的举例如下：

一语料库中有9222个句子，这里我们只计数其中8个我们想要关注的单词

其中每个单词后面紧跟着的单词计数如下：

其中有些为0，是因为偶然性或者结构语法上的原因

举例如下：

其中<s>是一个句子开始的标记，</s>是一个句子结束的标记

原因：

1. 避免计数下溢，多个小于0的数相乘之后可能得到的数会非常非常小，甚至接近于0

2. 使用log之后可以将乘法转换成加法，计算更快