Teamwork——Week4 团队项目之NABC

项目框架——NABC模型

一.N（Need需求）

我们组主要的用户对象是第三小组——UI小组的同学们，因此我们的用户需求就是他们的数据需求。

1）提供给UI小组整理好的数据库，和前一组讨论好数据结构。

2）给每一条记录添加合理的标签，既不使数据结构过于麻烦，也不能增加方便UI小组进行查询。

3）作出爬取步骤的UI，方便UI小组知道软件的每个功能，并有助于他们更好的理解我们定义的每个接口和方法。

4）对英文网页做翻译，并以中文的形式存入数据库（暂定采用较好的Google翻译）

5）支持继续向pipeline中输入新内容。

二.A（Approach 做法）

1）对于爬到的数据先进行去噪处理，提取关键信息。（例如问题信息，回答信息，领域关键词）

2）利用所学的sql server数据库的知识，对上一组crawler爬到的数据进行分组聚类，相应的贴上标签。

3）识别英文网页，对其进行中文翻译后再将其存入数据库。

以上提到的做法中主要要解决以下几个技术难点：

1）提取信息是如何准确匹配信息。

2）和前一组爬虫小组（crawler）商量好数据结构，以便于决定好数据提取的形式

3）决定标签如何分配，从而得到一个清晰的分类

4）翻译时除了借用谷歌翻译，还要借鉴其他良好的翻译算法，从而得到最佳的翻译文本

三.B（Benefit 好处）

像前面提到的一样，由于我们组的任务不是具体的面向用户，因此benefit方面就提一下和学长相比的改进：

1）增加了可以根据需要实时添加数据记录的功能

2）数据标签的设计更加贴合实际情况，具体情况具体分析

3）翻译更加贴合中文

四.C（Competitors 竞争）

我们这个层次暂时不存在竞争，因为第一，我们也不知道其他同类系统的这一层面是如何实现的，第二，我认为竞争性的主要体现是表现在学霸组三个分组的综合功能上。

由于做爬虫的小组还没有决定好结束时爬取的网页、问答对、PDF文件、视频文件等的数量，以及抽取信息的数量，因此我们组预估的信息基础是建立在上一届项目的基础上。

上一届的爬虫小组爬到的结果为32万个网页，包括问答对，PDF，美国名校计算机学院网页，其中问答对最多，近28万个。我们计划处理的网页数量应该是在这个数据基础上只增不减吧（具体还要看爬虫小组的实际情况）。

——edited by 柴泽华