获得文本语料和词汇资源

语料库的访问方法:

raw( )       没有经过任何语言学处理之前把文件内容分析出来

words( )     把文本处理成一个个单词    

sents( )      把文本划分成语句,其中每一个句子都是一个词汇链表

注意: 数值比较: ==                           单词比较: =

条件频率分布

条件频率分布是一个对许多NLP都有用的数据结构。

频率分布计算观察到的事件,如词汇。条件频率分布需要给每个事件关联一个条件,所以处理的不是一个词序列,而是一系列的配对序列。

常用方法:

FreqDist( ) :  以一个简单的链表作为输入

ConditionalFreqDist( ) : 以一个配对链表作为输入   从配对链表中创建条件频率分布

tabulate( ) :   参数 conditions 指定显示哪些条件, samples 限制要显示的样本

为条件频率分布制表

plot( ) :  为条件频率分布绘图

bigrams( ) :    接受一个词汇链表,并建立起一个连续的词对链表

conditions( ) :   将条件按字母排序来分类

 

 

 

原文地址:https://www.cnblogs.com/lidan-prime/p/9153093.html