Daily Scrum 11.6

今日总结：

针对昨天讨论的结果，今天我们并没有开会，对昨天的任务分配稍作修改，之后大家按照分配好的任务努力。在晚上的时候，我们在群里共享了自己今天的劳动成果，并且PM做出总结，布置明天的任务。

今日组员所完成任务具体如下：

1、柴泽华（PM)：学习tf-idf算法，并且为组员讲明其中的关键部分。

★TF-IDF算法在两个方面都有重要的作用：1）提取文章的关键字词2）根据关键词检索出相关度高的文本。这个算法被公认为信息检索领域最重要的发明，是很多算法的模型的基础。

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。　　某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的 TF-IDF。因此，TF-IDF倾向於过滤掉常见的词语，保留重要的词语。

2、杨军、乔力男：下载中科院ICTCLAS的分词包，进行试验，做结果分析图表；搜索Web数据挖掘中关于朴素贝叶斯算法的部分，开始学习。

他们对于分词包所作分析如下图所示，并且向组员讲明了该算法的优点。

★ICTCLAS 是中科院张华平博士开发的一款基于HMM的智能分词软件，而imdict-chinese-analyzer 和 ictclas4j 都是基于同一模型开发的Java版分词软件，我们采用了ICTCLAS算法，事实证明它的分词速度最快，分词效果也最好。三者的分词效率对比如下图：

测试数据采用中文文件大小为62390KB，内容长度为33477693字符，各模型独立分词并将分开的词写到文件里。

测试环境为：酷睿E7200双核，内存2G，JDK参数为："-Xms512m -Xmx1024m "

★ICTCLAS主要功能包括:中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。其中包含了层叠隐马尔可夫模型，具体涉及到的内容较复杂，小组成员还有待进一步学习，但是我们掌握了在C#语言中使用该算法的方法，并且可以进行测试。

★ 朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的流程可以由下图表示（暂时不考虑验证）：

应用阶段

3、徐姗、李超：研究C#中对pdf的信息提取。

英文论文：对于英文论文的提取，要比中文论文简单。但是由于学术论文一般都含有图片，所以我们决定先将pdf转换成txt。首先利用解析工具 PDFBOX、Jpedal和 PDFTextStream 将 PDF 格式论文的首部转换为 TXT 格式的文本。然后采用正则表达式去掉文本中的冗余信息，例如出版日期、期刊名称、期次、刊号、作者详细信息(如地址、电话、网址和邮箱等)、摘要关键词等，并且以“1 Introduction（引言）”等之类的信息作为最后一个分块的结束。将论文首部按行划分为文本块序列，之后采用元数据处理方式进行提取。

中文论文：由于 PDF 文档格式是面向显示的，所以首先要利用 PDFBox 类库对其进行解析。每个 PDF 页面都可以作为一个对象，其中包括该页的数据信息和视觉显示信息等内容。并且科技论文的格式一般都是固定的，特定有效信息都会有固定的关键词来标识。所以我们想利用论文格式、视觉特征和关键词相结合的方式来提取 PDF 格式的中文科技论文的有效信息。

明日规划：

1、柴泽华：考虑tf-idf算法的实现问题。

2、杨军、乔力男：继续学习朴素贝叶斯算法。

3、徐姗、李超：学习元数据处理方式，将pdf（英文版）转换成txt。

编辑：徐姗