nltk.probability.FreqDist 自动识别语料库中词汇的频率分布

自动识别语料库中词汇的频率分布

方法描述
fdist=FreqDist(samples) 创建包含给定样本的频率分布(samples可以是nltk.text.Text、空格分割的字符串、列表或者其他)
fdist.inc(sample) 增加样本
fdist[word] word在样本中出现的次数
fdist.freq(word) word在样本中出现的频率
fdist.N() 样本总数
fdist.keys() 样本list
for sample in fdist: 以频率递减顺序遍历样本
fdist.max() 数值最大样本
fdist.plot() 绘制频率分布图
fdist.plot(cumulative=True) 绘制累积频率分布图
>>> fdist = FreqDist(text1)
>>> fdist.plot(50, cumulative=True)



原文地址:https://www.cnblogs.com/demo-deng/p/12910303.html