Pipeline组Alpha版本发布说明

Pipeline组Alpha版本发布说明

项目名称

Pipeline

项目版本

Alpha版本

负责人

北京航空航天大学计算机学院 ILoveSE

联系方式

http://www.cnblogs.com/ ILoveSE

要求发布日期

2013-11-20

 

更新内容

1.1      修复缺陷

1)数据库重复输入

2)中文分词算法改进

3)Tf-idf关键词算法改进

1.2   新增功能

1)英文分词算法

2)用户手动插入信息

2  环境要求

操作系统需求

Windows操作系统

运行环境需求

数据库需求

需配置数据库到Windows(或Windows   server)数据源中,数据库名为crawler


3  安装说明

直接解压安装,在PipelinePipelinein Debug文件夹中找到Pipeline.exe可以打开程序。

4 使用说明

UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。

表名

WebPage表

WebPage_Tags表

Tags表

Sensitive_Words表

作用

存有每个网页的具体属性信息。

网页号,标签号,还有每个网页对应标签的对应信息。

具体每个标签的属性信息。

是每个敏感词的属性信息。

主要功能有输入用户自己的新信息,根据提供的网页分词和提取关键词还有对应的摘要。主要的几个操作界面有Rawdata:原始信息,Denoisingdata:降噪后信息,WordSegment:分词后结果,FinalData:关键词和对应摘要,Input New Content:用户自主输入信息。

其他的操作都在按钮上面写的很清楚。

5  已知缺陷和限制

中文分词用朴素贝叶斯算法效果较差;

关键词和对应的preview命中率较低;

由于一些英文网页需要进行机器翻译,联网的速度较慢,限制了改进后的效果。

6  发布地址

该版本代码发布在服务器上,可自行下载试用。

                                                                                                                                                        ————edited by 杨军

原文地址:https://www.cnblogs.com/IloveSE/p/3444789.html