计算与软件工程第四次作业

这个作业要求在哪里	https://edu.cnblogs.com/campus/jssf/infor_computation17-31/homework/10534
我在这个课程的目标是	了解学习软件工程相关知识、应用，为以后打下基础。
此作业在哪个具体方面帮我实现目标	学会代码复审和结对编程
其他参考文献	https://www.cnblogs.com/xinz/archive/2011/11/20/2255971.html https://www.cnblogs.com/xinz/archive/2011/08/07/2130332.htmlintro_zh_CN.html https://www.cnblogs.com/-1307/p/6529269.html https://pypi.org/project/matplotlib/#files https://www.cnblogs.com/Sabre/p/8007034.html

作业正文|https://i-beta.cnblogs.com/posts/edit;postId=12431633

作业1

每个人针对之前两次作业所写的代码，请按照代码规范（风格规范、设计规范）要求评判其他学生的程序，同时进行代码复审（按照代码复审核表 https://www.cnblogs.com/xinz/archive/2011/11/20/2255971.html），要求评价数目不少于8。
对代码复审的博客链接：https://www.cnblogs.com/chenyu666/p/12609752.html

作业2 结对编程

1人物统计程序

参考结对编程的方法、过程（https://www.cnblogs.com/xinz/archive/2011/08/07/2130332.html）开展两人合作完成本项目
实现一个简单而完整的软件工具（中文文本文件人物统计程序）：针对小说《红楼梦》要求能分析得出各个人物在每一个章回中各自出现的次数。
队友结对编程链接：https://www.cnblogs.com/li-lingling/p/12620082.html

此代码中利用到的函数：

（1）Readtxt(filename)：读取文件，文件名是由用户输入，本函数需要对文件存在与否进行判断和处理，如果存在则返回读取的文本内容，否则提示“检查文件是否存在”，并返回读取内容为空。
（2）Txtcut(txt)：功能是分词并生成结果字典（单词：数量）counts
（3）word_exclude(counts,excludes):功能是对分词结果字典进行数据清洗（排除干扰单词）和排序。其中参数counts为Txtcut(txt)分词结果字典，excludes为用户自己设置的排除内容。
（4）word_out(items,num)：功能是输出用户希望看到的统计人物数量情况。其中参数items是函数word_exclude(counts,excludes)的处理结果，num是用户输入的数量程序

利用Python编程要注意：

（1）下载jieba：下载放到Python文件夹中。
（2）下载可以进行图表的软件：matplotlib,利用cmd下载失败，则用网站下载。注意找到合适的matplotlib版本，[下载指南]https://www.cnblogs.com/Sabre/p/8007034.html

（3）建立new file,命名并run,即可得到关于词频统计的柱状图。

import jieba
excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己",
            "一面","只见","怎么","奶奶","两个","没有","不是","不知","这个","听见","这样","进来","咱们","告诉","就是",
            "东西","袭人","回来","只是","大家","只得","老爷","丫头","这些","不敢","出去","所以","不过","的话","不好",
            "姐姐","探春","鸳鸯","一时","不能","过来","心里","如此","今日","银子","几个","答应","二人","还有","只管",
            "这么","说话","一回","那边","这话","外头","打发","自然","今儿","罢了","屋里","那些","听说","小丫头","不用","如何"}
'''
这些是一些干扰词汇，先列出，之后把这些词删除
'''
txt = open("shz.txt","r",encoding='utf-8').read()
'''
不写明路径的话，默认和保存的python文件在同一目录下 注意打开格式是utf-8，这个可以打开txt文件，选择另存为，注意界面右下角的格式
'''
words = jieba.lcut(txt)
'''
利用jieba库将红楼梦的所有语句分成词汇
'''
counts = {}
'''
创建的一个空的字典
'''
for word in words:
    if len(word) == 1:      #如果长度是一，可能是语气词之类的，应该删除掉
        continue
    else:         counts[word] = counts.get(word,0) + 1
    '''
    如果字典中没有这个健（名字）则创建，如果有这个健那么就给他的计数加一
    [姓名:数量]，这里是数量加一
    '''
for word in excludes:			
    del(counts[word])
    '''
    #这一步：如果列出的干扰词汇在分完词后的所有词汇中那么删除
    '''
items = list(counts.items())
'''
把保存[姓名：个数]的字典转换成列表
'''
items.sort(key=lambda x:x[1],reverse = True)
'''
对上述列表进行排序，'True'是降序排列
'''
for i in range(20):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count)) 
'''
这里是打印前二十个
因为列表也是[姓名：个数]
word就是保存姓名的变量
count就是保存个数的变量
'''

import jieba
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np


class HlmNameCount():
    # 此函数用于绘制条形图
    def showNameBar(self,name_list_sort,name_list_count):
        # x代表条形数量
        x = np.arange(len(name_list_sort))
        # 处理中文乱码
        plt.rcParams['font.sans-serif'] = ['SimHei']
        # 绘制条形图，bars相当于句柄
        bars = plt.bar(x,name_list_count)
        # 给各条形打上标签
        plt.xticks(x,name_list_sort)
        # 显示各条形具体数量
        i = 0
        for bar in bars:
            plt.text((bar.get_x() + bar.get_width() / 2), bar.get_height(), '%d' % name_list_count[i], ha='center', va='bottom')
            i += 1
        # 显示图形
        plt.show()

    # 此函数用于绘制饼状图
    def showNamePie(self, name_list_sort, name_list_fracs):
        # 处理中文乱码
        plt.rcParams['font.sans-serif'] = ['SimHei']
        # 绘制饼状图
        plt.pie(name_list_fracs, labels=name_list_sort, autopct='%1.2f%%', shadow=True)
        # 显示图形
        plt.show()

    def getNameTimesSort(self,name_list,txt_path):
        # 将所有人名临时添加到jieba所用字典，以使jieba能识别所有人名
        for k in name_list:
            jieba.add_word(k)
        # 打开并读取txt文件
        file_obj = open(txt_path, 'rb').read()
        # jieba分词
        jieba_cut = jieba.cut(file_obj)
        # Counter重新组装以方便读取
        book_counter = Counter(jieba_cut)
        # 人名列表，因为要处理凤姐所以不直接用name_list
        name_dict ={}
        # 人名出现的总次数，用于后边计算百分比
        name_total_count = 0
        for k in name_list:
            if k == '熙凤':
                # 将熙凤出现的次数合并到凤姐
                name_dict['凤姐'] += book_counter[k]
            else:
                name_dict[k] = book_counter[k]
            name_total_count += book_counter[k]
        # Counter重新组装以使用most_common排序
        name_counter = Counter(name_dict)
        # 按出现次数排序后的人名列表
        name_list_sort = []
        # 按出现次数排序后的人名百分比列表
        name_list_fracs = []
        # 按出现次数排序后的人名次数列表
        name_list_count = []
        for k,v in name_counter.most_common():
            name_list_sort.append(k)
            name_list_fracs.append(round(v/name_total_count,2)*100)
            name_list_count.append(v)
            # print(k+':'+str(v))
        # 绘制条形图
        self.showNameBar(name_list_sort, name_list_count)
        # 绘制饼状图
        self.showNamePie(name_list_sort,name_list_fracs)
        

if __name__ == '__main__':
    # 参与统计的人名列表，可修改成自己想要的列表
    name_list = ['宝玉', '黛玉', '宝钗', '元春', '探春', '湘云', '妙玉', '迎春', '惜春', '凤姐', '熙凤', '巧姐', '李纨', '可卿', '贾母', '贾珍', '贾蓉', '贾赦', '贾政', '王夫人', '贾琏', '薛蟠', '香菱', '宝琴', '袭人', '晴雯', '平儿', '紫鹃', '莺儿']
    # 红楼梦txt文件所在路径，修改成自己文件所在路径
    txt_path = 'C:/Users/hp/Desktop/hl.txt'
    hnc = HlmNameCount()
    hnc.getNameTimesSort(name_list,txt_path)

4.使用源代码管理系统Gitee

5.针对上述形成的软件程序，对于新的文本小说分析各个章节人物出现次数，用图表来表现。

单元测试

import unittest
from ceshi import *
class MyTestCase(unittest.TestCase):
    def setUp(self):
        print("测试开始")
    def test_something(self):
        name_list = ['熙凤', '黛玉', '宝钗', '探春', '湘云', '迎春', '元春', '惜春', '妙玉', '巧姐', '李纨', '可卿']
        txt_path = 'hl.txt'
        name_list_count = [1149, 953, 696, 448, 393, 146, 126, 105, 81, 40, 36, 14]
        items = list()
        for i in range(12):
            items.append([name_list[i], name_list_count[i]])
        self.assertEqual(items, NameCount().getNameTimesSort(name_list,txt_path))
    def tearDown(self):
        print("测试结束")
if __name__ == '__main__':
    unittest.main()

效能测试

效能测试
if name == "main":
import cProfile
import pstats
cProfile.run("main()", "result")
# 直接把分析结果打印到控制台
p = pstats.Stats("result") # 创建Stats对象
p.strip_dirs().sort_stats("call").print_stats() # 按照调用的次数排序
p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序
p.print_callers(0.5, "process_file") # 如果想知道有哪些函数调用了process_file,小数,表示前百分之几的函数信息
p.print_callers(0.5, "process_buffer") # 如果想知道有哪些函数调用了process_buffer
p.print_callers(0.5, "output_result") # 如果想知道有哪些函数调用了output_res

# 水浒传人物统计
import jieba
import csv
import pstats
import profile
class NameCount():
     def getNameTimesSort(self, name_list, txt_path):
         # 添加jieba分词
        mydict = ['及时雨','黑旋风','行者','豹子头','花和尚','智多星','玉麒麟','小旋风','小李广','九纹龙','青面兽','母大虫','母夜叉','王教头','扈三娘','陆虞候']
        for item in mydict:
            jieba.add_word(item)
        #打开并读取txt文件
        txt = open('shz.txt','r',encoding='utf-8').read()
         # 定义别名列表
        bieming = [['及时雨','宋江','呼保义','孝义黑三郎','宋公明','宋押司'],['黑旋风','李逵','铁牛'],['武松','武二郎','行者','武行者','武都头'],['豹子头','林冲','林教头'],
                   [ '鲁提辖' ,'鲁达','智深','花和尚','鲁智深'],['智多星','吴用','吴学究','吴加亮','赛诸葛','加亮先生'],['卢俊义','玉麒麟','卢员外'],[ '小旋风','柴进'],
                   ['花荣','小李广'],['九纹龙','史进'],['杨志','杨制使','杨提辖','青面兽'],['顾大嫂','母大虫'],['孙二娘','母夜叉'],['王进','王教头'],['扈三娘','一丈青'],['陆虞候','陆谦']]
        words = jieba.lcut(txt)
        counts = {}
        for word in words:
            if len(word) == 1:
                continue
            else:
                counts[word] = counts.get(word, 0) + 1
        # 计算出场次数（各个别名的合计次数）
        lst = list()
        for i in range(16):
            lt = 0
            for item in bieming[i]:
                lt += counts.get(item, 0)
            lst.append(lt)
        items = list()
        for i in range(16):
            items.append([name_list[i], lst[i]])
        items.sort(key=lambda x: x[1], reverse=True)
        f = open('水浒传人物统计.csv', 'w', newline='', encoding='utf-8')
        csv_writer = csv.writer(f)
        csv_writer.writerow(['水浒传人物统计'])
        csv_writer.writerow(["姓名", "出现次数"])
        for i in range(16):
            word, count = items[i]
            csv_writer.writerow([word, count])
            print("{0:<10}{1:>5}".format(word, count))
        f.close()      
        return items
if __name__ == '__main__':

    # 参与统计的人名列表，可修改成自己想要的列表
    name_list = ['宋江','李逵','武松','林冲','鲁智深','吴用','卢俊义','柴进','花荣','史进','杨志','顾大嫂','孙二娘','王进','扈三娘','陆谦']
    # txt文件所在路径
    txt_path = 'shz.txt'
    NameCount().getNameTimesSort(name_list,txt_path)
    print("效能测试：")
    profile.run('NameCount()', 'result')
    # 直接把分析结果打印到控制台
    p = pstats.Stats('result')  # 创建Stats对象
    p.strip_dirs().sort_stats("call").print_stats()  # 按照调用的次数排序
    p.strip_dirs().sort_stats("cumulative").print_stats()  # 按执行时间次数排序