中文词频统计

1.下载一中文长篇小说,并转换成UTF-8编码。

2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

3.排除一些无意义词、合并同一词。

4.对词频统计结果做简单的解读。

import jieba
news=open('htys.txt','r',encoding='utf-8').read()    
words=list(jieba.cut(news))
keys=set(words)

dic
={} for w in keys: if len(w)>1: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(15): print(wc[i])
('叶子', 9)
('荷塘', 8)
('月光', 5)
('采莲', 5)
('一个', 4)
('什么', 4)
('热闹', 4)
('今晚', 4)
('杨柳', 4)
('流水', 3)
('没有', 3)
('可以', 3)
('一片', 3)
('一些', 3)
('四面', 2)

这篇文章写的是作者在烦闷之时外出散步,在荷塘月色中得到心灵的宁静。

原文地址:https://www.cnblogs.com/00js/p/7610317.html