n-gram 中文名叫 N元语法,是把 n个连续的词作为子序列。
N元语法中的参数n,一般取2到5之间的值就可以,权值越大,效果越好,但计算量越大。
举例
当n取3时,我们从下面引文中抽取前几个N元语法。Always look on the bright side of life.
第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on the bright。
主要用途
1. 基于单词的N元语法被用于文本主题模型
2. 基于字符的N元语法被用于作者归属问题
3. 基于字符的N元语法被用于识别拼写错误
优点
N元语法的计算方法与单个词计算方法相同,但比起单个词,N元语法能更好的描述文档,它提取了词语的上下文信息,有助于理解词语用法和词语分布。
缺点
词向量矩阵变得更加稀疏
N元语法是连续几个词,这种情况出现的概率肯定比单个词低,而且这相当于是个组合,其长度肯定比单个词的词向量要从,所有矩阵会更稀疏
所以N元语法不太适合短文章,在长文章中比较有效
这是我在深度学习自然语言处理的博客 https://www.cnblogs.com/yanshw/p/10529394.html,单词预测,里面也有对n-gram的介绍