中文词频统计与词云生成

中文词频统计

1. 下载一长篇中文小说。

  《 神雕侠侣》金庸

2. 从文件读取待分析文本。

text=open('artical.txt',encoding='utf-8').read();

e=''',,.。??!!-::《》< >"“”、 u3000 ufeff'''
for in e:
    text=text.replace(i,"")

3. 生成词频统计

代码

dict={}

for in tokens:
    if not in dict:
        dict[i]=tokens.count(i)
print(dict)
 

('杨过', 816),
('孙婆婆', 720),
('师父', 240),
('小龙女', 216),
('少女', 192),
('婆婆', 168),
('一个', 168),
('孩子', 168),
('不知', 144),
('只是', 144),
('自己', 120),
('罢', 120),
('却', 120),
('老妇', 120),
('声音', 120)

4. 排除语法型词汇,代词、冠词、连词等停用词。

5. 输出词频最大TOP20,把结果存放到文件里

result=[]

for in range(20):
    result.append(word[i])
pd.DataFrame(data=result).to_csv('f.csv',encoding='utf-8')
print(result)

6. 生成词云。

原文地址:https://www.cnblogs.com/gzcchyf/p/10595045.html