在线问答网站结构定义和信息处理系统---技术规格说明书

1、引言

1-1、编写目的

   明确设计,供项目管理者阅读。

1-2、定义

缩写、术语

解 释

关键词

从报告、论文中选取出来用以表示全文主题内容信息的单词或术语;关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词

停用词

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词

标签

一种互联网内容组织方式,是相关性很强的关键字,它帮助人们轻松的描述和分类内容,以便于检索和分享

元数据 (meta data)

描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

数据库实体

数据库管理系统中的不同管理对象

 

1-3、参考资料

  1、http://shiyanjun.cn/archives/548.html

  2、http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

  3、http://xwrwc.blog.163.com/blog/static/46320003201010634132451/

  4、http://www.cnblogs.com/kissdodog/archive/2013/02/28/2937900.html

  5、http://zhoufoxcn.blog.51cto.com/792419/280320

  6、http://zhoufoxcn.blog.51cto.com/792419/280580

  7、http://zhoufoxcn.blog.51cto.com/792419/281956

  8、http://zhoufoxcn.blog.51cto.com/792419/283021

  9、http://developer.baidu.com/wiki/index.php?title=%E5%B8%AE%E5%8A%A9%E6%96%87%E6%A1%A3%E9%A6%96%E9%A1%B5/%E7%99%BE%E5%BA%A6%E7%BF%BB%E8%AF%91/%E7%BF%BB%E8%AF%91API

 

 

2、总体设计

2-1、需求

  1. 定义在线问答网站的内容结构,找出其中涉及的实体及它们之间的关系;
  2. 能够支持增量式的将输入的新数据,按照定义好的内容结构合并到已有的内容中(重复内容怎么处理,更新内容怎么处理,用户上传内容怎么处理);
  3. 支持标签;
  4. 支持关键词翻译;
  5. 有一个界面来跟踪和报告数据处理的进度。

2-1-1、定义内容结构,得到实体关系,建立数据库

  • 输入:无
  • 输出:无

2-1-2、数据库连接

  • 输入:serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)
  • 输出:无

2-1-3、插入新数据

  • 输入:PageTitle、Author、postdate、link、<tag,文本>组
  • 输出:插入数据库

2-1-4、去重、去噪

  • 输入:未经过处理的rawdata
  • 输出:去掉html标签等噪声数据的文本,去掉非utf-8编码的文本

2-1-5、分词

  • 输入:文本数据、分词器(默认用PanGu分词器)
  • 输出:用该分词器处理得到的分词数据

2-1-6、关键词抽取

  • 输入:数据库中的分词后的数据
  • 输出:通过TF-IDF方法得到关键词

2-1-7、翻译

  • 输入:数据库中的文本数据
  • 输出:实现中英对照

2-1-8、最终数据展示

  • 输入:Ttile、Author、Postdate、满足前面条件下的标签
  • 输出:满足前面所有要求的文本数据

2-1-9、跟踪报告数据处理进度

  • 输入:无
  • 输出:显示数据处理的进度

2-2、软件结构

程序

功能

输入

输出

数据库连接

连接数据库

serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)

插入数据

向数据库中增加数据

    PageTitle、Author、postdate、link、<tag,文本>组

去重、去噪

去除噪声数据、非utf-8文本

原始数据

去噪后数据

分词

对去噪数据进行分词

去噪后数据

分词数据

关键词抽取

得到文本的关键词

数据库中分词数据

若干个关键词

翻译

进行文本中英对照

文本数据

中英对照的文本数据

最终数据展示

对得到的最终数据进行功能展示

数据库中相应数据

展示数据库中数据

跟踪报告处理数据进度

一个界面来跟踪和报告数据处理的进度

选择的文本数据(可有很多个)

输出现在正在处理得数据以及处理得进度

 

2-2-1、模块汇总表

关键词抽取子系统

模块名称

功能简述

去噪、去重

去除噪声数据、非utf-8文本

分词

对去噪数据进行分词

关键词抽取

抽取出数据的关键词

翻译子系统

模块名称

功能简述

中英互译

对文本进行翻译对照

UI展示子系统

模块名称

功能简述

处理单个数据界面

对数据进行插入、去噪、分词、提取关键词、中英对照、最终结果显示

 

处理多个文件界面

跟踪和报告数据处理的进度界面

原文地址:https://www.cnblogs.com/cheneygroup/p/4932900.html