python+NLTK 自然语言学习处理七：N-gram标注

在上一章中介绍了用pos_tag进行词性标注。这一章将要介绍专门的标注器。
首先来看一元标注器，一元标注器利用一种简单的统计算法，对每个标识符分配最有可能的标记，建立一元标注器的技术称为训练。
from nltk.corpus import brown
brown_tagged_sents=brown.tagged_sents(categories='news')
brown_sents=brown.sents(categories='news')
unigram_tagger=nltk.UnigramTagger(brown_tagged_sents)
unigram_tagger.tag(brown_sents[2007])
在上面的例子中，首先得到布朗新闻中的news类别中的词语标注器。然后通过nltk.UnigramTagger对这个词语标注器进行训练。然后通过得到的训练器对brown_sents[2007]进行训练。得到如下结果，这个结果就是根据之前的训练集合进行的标注。通过在初始化标注器时指定已标注的句子数据作为参数来训练一元标注器。训练过程中涉及检查每个词的标记，将所有词的可能标记存储在一个字典里面，这个字典存储在标注器内部
[('Various', 'JJ'), ('of', 'IN'), ('the', 'AT'), ('apartments', 'NNS'), ('are', 'BER'), ('of', 'IN'), ('the', 'AT'), ('terrace', 'NN'), ('type', 'NN'), (',', ','), ('being', 'BEG'), ('on', 'IN'), ('the', 'AT'), ('ground', 'NN'), ('floor', 'NN'), ('so', 'QL'), ('that', 'CS'), ('entrance', 'NN'), ('is', 'BEZ'), ('direct', 'JJ'), ('.', '.')]
对于这个标注结果还可以用evaluate来看下标注准确度。
unigram_tagger.evaluate(brown_tagged_sents)
标注成功率为0.9349006503968017

一般的N-grim的标注：
当基于unigrams处理语言处理任务时，可使用上下文中的项目。标注的时候只考虑当前的标识符，而不考虑其他上下文。但是实际的情况是一个词的标记其实是依赖上下文的。一元标注器又称为1-gram. 那么对应的如果考虑当前词的前一个词的标记称为二元标注器bigramTagger，如果考虑当前词的前二个词的标记称为二元标注器triramTagger，对于前面的例子我们用二元标注器来做下测试
brown_tagged_sents=brown.tagged_sents(categories='news')
brown_sents=brown.sents(categories='news')
train_sents=brown_tagged_sents[:4000]
test_sents=brown_tagged_sents[4200:]
bigram_tagger=nltk.BigramTagger(train_sents)
bigram_tagger.tag(brown_sents[2007])
print(bigram_tagger.evaluate(train_sents))
print(bigram_tagger.evaluate(test_sents))
在这里train_sents为训练采用的句子，用的是前4000个句子。test_sents为测试有那个的句子，用的是从第4200之后的句子。但是用train_sents进行训练。来看下针对train_sents和test_sents的标注成功率
一个是0.78,一个是0.09.
0.78845977433263
0.09980237154150198
为什么二元标注器的成功率这么小呢，原因在于因为要考虑前面的词的词性。因此如果前面的词标记为None，训练过程中也从来没有见过它前面有None标记的词，因此标注器也无法标注句子的其余部分，这就是准确度很低的原因。当n越大的时候，上下文的特异性就会增加，要标注的数据中包含训练数据中不存在的上下文几率也增大，这被称为数据稀疏问题。要解决这个问题，可以采用组合标注器。步骤如下：
1 使用bigram标注器标注标识符
2 如果bigram标注器无法找到标记，尝试unigram标注器
3 如果unigram标注器也无法找到标记，使用默认标注器
代码如下：
t0=nltk.DefaultTagger('NN')
t1=nltk.UnigramTagger(train_sents,backoff=t0)
t2=nltk.BigramTagger(train_sents,backoff=t1)
print(t2.evaluate(test_sents))
t0代表默认标注器，词性是NN，t1是一元标注器，设置backoff=t0代表的是如果找不到则采用默认标注器，t2是二元标注器，设置backoff=t1代表的是如果找不到则采用二元标注器，
经过这种联合标注器，标注准确度提升到0.8447518664909969
在大语料库中训练标注器需要大量的时间，没有必要重复训练标注器，可以将一个训练好的标注器保存到文件后以后使用.
将标注器t2保存到文件t2.pkl中
from cPickle import dump
output=open(‘t2.pkl’,’wb’)
dump(t2,output,-1)
output.close()
从文件中导入
input=open(‘t2.pkl’,’rb’)
tagger=load(input)
input.close()