N-gram

N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。

N-gram本身也指一个由N个单词组成的集合,各单词具有先后顺序,且不要求单词之间互不相同。常用的有 Bi-gram (N=2) 和 Tri-gram (N=3),一般已经够用了。例如在"i love deep learning"里,我可以分解的 Bi-gram 和 Tri-gram :

 具体参考:https://blog.csdn.net/songbinxu/article/details/80209197

原文地址:https://www.cnblogs.com/zf-blog/p/12615286.html