草稿1

语言模型

语言模型的通俗理解：给定一句话，用语言模型来判断这句话是否是正常语句。

而从机器学习的角度来看，语言模型是对语句的概率分布的建模。

标准定义：对于语言序列S = $w_1,w_2,...,w_n$ ，(S代表一句话，而W_i代表的是一个单词)。语言模型就是计算该序列的概率，即 $P(w_1, w_2, ...,w_n)$ 。

就是对于语言序列 $w_1,w_2,...,w_n$ ，语言模型就是计算 $w_1,w_2,...,w_n$ 的联合概率，即 $P(w_1, w_2, ...,w_n)$ 。而联合概率可以通过条件概率来表达。如下图

我们构建一个语言模型就是去最大化这个联合概率 $P(w_1, w_2, ...,w_n)$ 。也就是去最大化条件概率中的每一个因式。

抛开数学上的定义并结合语言背景来理解条件概率中每个因式的意思。

P(W₃|W₁W₂)

就是给定单词W₁和单词W₂, 准确预测出W₃的概率

比如这样的话

I like Jerry's CV course

语言模型就是

我看到I的时候能够预测出like, 看到I like的时候能够预测出Jerry's， ...

这个是构建语言模型的核心思路。