n-gram

n-gram 中文名叫 N元语法,是把 n个连续的词作为子序列。

N元语法中的参数n,一般取2到5之间的值就可以,权值越大,效果越好,但计算量越大。

举例

当n取3时,我们从下面引文中抽取前几个N元语法。Always look on the bright side of life.

第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on the bright。

主要用途

1. 基于单词的N元语法被用于文本主题模型

2. 基于字符的N元语法被用于作者归属问题

3. 基于字符的N元语法被用于识别拼写错误

优点

N元语法的计算方法与单个词计算方法相同,但比起单个词,N元语法能更好的描述文档,它提取了词语的上下文信息,有助于理解词语用法和词语分布。

缺点

词向量矩阵变得更加稀疏

N元语法是连续几个词,这种情况出现的概率肯定比单个词低,而且这相当于是个组合,其长度肯定比单个词的词向量要从,所有矩阵会更稀疏

所以N元语法不太适合短文章,在长文章中比较有效

这是我在深度学习自然语言处理的博客 https://www.cnblogs.com/yanshw/p/10529394.html,单词预测,里面也有对n-gram的介绍

原文地址:https://www.cnblogs.com/yanshw/p/10647157.html