语言模型
语言模型的通俗理解:给定一句话,用语言模型来判断这句话是否是正常语句。
而从机器学习的角度来看,语言模型是对语句的概率分布的建模。
标准定义:对于语言序列S = ,(S代表一句话,而Wi代表的是一个单词)。语言模型就是计算该序列的概率,即 。
就是对于语言序列 ,语言模型就是计算的联合概率,即 。而联合概率可以通过条件概率来表达。如下图
我们构建一个语言模型就是去最大化这个联合概率 。也就是去最大化条件概率中的每一个因式。
抛开数学上的定义并结合语言背景来理解条件概率中每个因式的意思。
P(W3|W1W2)
就是给定单词W1和单词W2, 准确预测出W3的概率
比如这样的话
I like Jerry's CV course
语言模型就是
我看到I的时候能够预测出like, 看到I like的时候能够预测出Jerry's, ...
这个是构建语言模型的核心思路。