实现文章重复的删除

最近项目需要网上抓取了论坛文章,文章是按照作者关联的,一个作者下面有很多文章,不同的作者之间的文章有可能是重复,发现里面有很多文章内容是重复。现在需要通过程序自动识别,如果文章 的相识度达到30%就删除时间比较晚更新的那篇。

原文地址:https://www.cnblogs.com/zhanggl/p/4762328.html