中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20

将代码与运行结果截图发布在博客上。

import jieba

f=open('hero.txt','r',encoding='utf-8')
text=f.read()
notelist=list(jieba.lcut(text))

textDic={}
for i in set(notelist):   #计算次数
    textDic[i]=notelist.count(i)

delete={'',' ','','', '', '', '', '','','','','','','','
','','','"','','','u3000','',
             '','','','','','','他们','','我们','','','你们','便','','','','',}

for i in delete:  #删除非法词汇
   if i in textDic:
       del textDic[i]

word = sorted(textDic.items(), key=lambda d: d[1], reverse=True)  # 由大到小排序
for i in  range(10):   # 输出词频Top10
       print(word[i])

截图

原文地址:https://www.cnblogs.com/168-hui/p/8664524.html