python练习册 每天一个小程序 第0006题

 1 # -*-coding:utf-8-*-
 2 __author__ = 'Deen'
 3 '''
 4 题目描述:
 5     你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
 6 
 7 
 8 思路:
 9     获取目录下所有txt文件,逐个打开,进行词频统计,选出出现次数最多的那个
10 '''
11 import os
12 import re
13 
14 
15 def list_files(dir, wirldcard, recursion):
16     files_text = list()
17     exts = wirldcard.split(" ")
18     files = os.listdir(dir)
19     for name in files:
20         fullname = os.path.join(dir, name)
21         if (os.path.isdir(fullname) & recursion):
22             list_files(fullname, wirldcard, recursion)
23         else:
24             for ext in exts:
25                 if (name.endswith(ext)):
26                     files_text.append(fullname)
27                     break
28     # print files_text
29     return files_text
30 
31 
32 if __name__ == '__main__':
33     txt_files = list_files()

这个感觉有点麻烦,应该需要一个词频统计,然后是过滤,再选择出现次数最多的关键词

原文地址:https://www.cnblogs.com/deen-/p/7155920.html