综合练习:词频统计


#
读取英文歌词文件 file=open('dd.txt','r',encoding='utf-8') word=file.read() file.close() #排除符号 di='''.,''""?!:;''' for i in di: word=word.replace(i,'') #大写转换小写 空格分割 word=word.lower().split() #定义字典存放数据 diet={} for c in word: count=word.count(c) diet[c]=count for c in diet: print(diet[c],c) #排除介词等无关词语 de={'the','and','i','in','to','in','with','it'} for i in de: diet.pop(i) #排序 count = sorted(diet.items(),key=lambda items: items[1], reverse=True) #将结果存放在文件夹 f=open("F:text.txt",'w') for i in range(20): f.write(count[i][0]+" "+str(count[i][1] )+' ') f.close()

1.英文词频统

下载一首英文的歌词或文章

将所有,.?!’:等分隔符全部替换为空格

将所有大写转换为小写

生成单词列表

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20

将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。

2.中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20(或把结果存放到文件里)

#导入jieba
import jieba
#读取文件获取文件内容
file=open('f:text.txt','r',encoding='utf-8')
word=file.read()
file.close()
#jieba分割获取list
listword=jieba.cut_for_search(word)
data=list(listword)
#存放数据
diet={}
for c in data:
    count=word.count(c)
    diet[c]=count
#排除空格等
for c in diet:
    print(diet[c],c)
de={' ','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','',''}
for c in de:
    diet.pop(c)
#排序
count = sorted(diet.items(),key=lambda items: items[1], reverse=True)
#将结果存放在文件夹
f=open("F:text2.txt",'w')
for i in range(20):
    f.write(count[i][0]+" "+str(count[i][1] )+'
')
f.close()

原文地址:https://www.cnblogs.com/zzl-0402/p/8658718.html