中文词频统计与词云生成

中文词频统计

1. 下载一长篇中文小说。

《 神雕侠侣》金庸

2. 从文件读取待分析文本。

text=open('artical.txt',encoding='utf-8').read();

e=

''',，.。？?！!-:：《》< >"“”、
 
 u3000 ufeff'''

for i in e:

text=text.replace(i,"")

3. 生成词频统计

代码

dict={}

for i in tokens:

if i not in dict:

dict[i]=tokens.count(i)

print(dict)

('杨过', 816),
('孙婆婆', 720),
('师父', 240),
('小龙女', 216),
('少女', 192),
('婆婆', 168),
('一个', 168),
('孩子', 168),
('不知', 144),
('只是', 144),
('自己', 120),
('罢', 120),
('却', 120),
('老妇', 120),
('声音', 120)

4. 排除语法型词汇，代词、冠词、连词等停用词。

5. 输出词频最大TOP20，把结果存放到文件里

result=[]

for i in range(20):

result.append(word[i])

pd.DataFrame(data=result).to_csv('f.csv',encoding='utf-8')

print(result)