如何统计文件重复率

假设某个目录下有N个文件夹,每个文件夹下是某个人的项目代码,一个人一个文件夹,代码有可能文件名不同,但内容可能相同

程序执行时,通过指定路径,分析出某个人和其他人的重复率,如:

被比较者姓名    比较者姓名1   重复率

张三                   李四               90

张三                   王五               30

重复率是所有文件比较完成后,每个文件的重复率平均值,在分析的过程中,要有分析的过程情况,如:

**************欢迎使用xxx查重系统*************************

此次查重总共需要分析【20】人

开始分析第【1】人张三

正在分析【张三】和【李四】,完成度【30%】,当前重复率【50%】

分析完成【张三】和【李四】,重复率为【90%】

开始分析第【2】人【王五】

。。。

最后输出整体比对结果:

此次查重总共分析【20】人,用时【20分钟】

结果如下:

被比较者姓名    比较者姓名1   重复率

张三                   李四               90

张三                   王五               30

原文地址:https://www.cnblogs.com/java-ty/p/9803296.html