综合练习：词频统计


#读取英文歌词文件
file=open('dd.txt','r',encoding='utf-8')
word=file.read()
file.close()
#排除符号
di='''.,''""?!:;'''
for i in di:
    word=word.replace(i,'')
#大写转换小写 空格分割
word=word.lower().split()
#定义字典存放数据
diet={}
for c in word:
    count=word.count(c)
    diet[c]=count
for c in diet:
    print(diet[c],c)
#排除介词等无关词语
de={'the','and','i','in','to','in','with','it'}
for i in de:
    diet.pop(i)
#排序
count = sorted(diet.items(),key=lambda items: items[1], reverse=True)
#将结果存放在文件夹
f=open("F:text.txt",'w')
for i in range(20):
    f.write(count[i][0]+" "+str(count[i][1] )+'
')
f.close()

1.英文词频统

下载一首英文的歌词或文章

将所有,.？！’:等分隔符全部替换为空格

将所有大写转换为小写

生成单词列表

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20

将分析对象存为utf-8编码的文件，通过文件读取的方式获得词频分析内容。

2.中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20（或把结果存放到文件里）

#导入jieba
import jieba
#读取文件获取文件内容
file=open('f:text.txt','r',encoding='utf-8')
word=file.read()
file.close()
#jieba分割获取list
listword=jieba.cut_for_search(word)
data=list(listword)
#存放数据
diet={}
for c in data:
    count=word.count(c)
    diet[c]=count
#排除空格等
for c in diet:
    print(diet[c],c)
de={' ','，','。','“','”','的','这','『','』','我','他','中','而','个','有','来','了','三','时','是','一','门','大','？','就','那','你','们','见','人','为','外','出','也','不'}
for c in de:
    diet.pop(c)
#排序
count = sorted(diet.items(),key=lambda items: items[1], reverse=True)
#将结果存放在文件夹
f=open("F:text2.txt",'w')
for i in range(20):
    f.write(count[i][0]+" "+str(count[i][1] )+'
')
f.close()