大数据技术大作业1

作业内容:

1、 项目名称:信息技术手册查重错误比对分析

2、 功能概述:

    (1) 数据导入:要求将提供的信息技术手册文档倒入数据库中

    (2) 数据分类:将手册涉及的热词自动分类展示,将每个热词自 动创建关键字、模糊检索两个字段便于检索;

    (3)数据查重错误分析报告: 按照提供的维普论文检测报告的形式,将信息技术手册中的 所有词语解释与网络资源(例如百度百科等),至少提供两个 网络资源实现全文检索查重,并分析根据名词解释的上下文的 关系判断出词语使用错误的情况,生成检测报告。

要求4月1号前完成

我的思路:

首先将老师给的文档数据导入

然后将数据库中热词自动分类,对每个热词创建关键字,存进数据库

接着将数据库中词语的解释与百度百科中查询与之关键字相关的词条内容对比,将抄袭的部分写入数据库

最后将抄袭的部分与全文比较得出重复率;将数据库中每个词语的解释写入PDF,并将抄袭部分标红,每个词条都有重复率显示;生成PDF文档

原文地址:https://www.cnblogs.com/lovema1210/p/10646077.html