中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20

将代码与运行结果截图发布在博客上。

import jieba

f=open('hero.txt','r',encoding='utf-8')
text=f.read()
notelist=list(jieba.lcut(text))

textDic={}
for i in set(notelist):   #计算次数
    textDic[i]=notelist.count(i)

delete={'。',' ','他','；', '的', '说', '道', '你','了','，','．','：','也','是','
','”','“','"','我','又','u3000','？',
             '去','都','来','有','这','人','他们','不','我们','在','着','你们','便','就','还','们','那',}

for i in delete:  #删除非法词汇
   if i in textDic:
       del textDic[i]

word = sorted(textDic.items(), key=lambda d: d[1], reverse=True)  # 由大到小排序
for i in  range(10):   # 输出词频Top10
       print(word[i])

截图