Daily Scrum 11.6

今日总结:

    针对昨天讨论的结果,今天我们并没有开会,对昨天的任务分配稍作修改,之后大家按照分配好的任务努力。在晚上的时候,我们在群里共享了自己今天的劳动成果,并且PM做出总结,布置明天的任务。

今日组员所完成任务具体如下:

1、柴泽华(PM):学习tf-idf算法,并且为组员讲明其中的关键部分。

   

★TF-IDF算法在两个方面都有重要的作用:1)提取文章的关键字词2)根据关键词检索出相关度高的文本。这个算法被公认为信息检索领域最重要的发明,是很多算法的模型的基础。

    在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频 ,而不管该词语重要与否。)    逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。  某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的 TF-IDF。因此,TF-IDF倾向於过滤掉常见的词语,保留重要的词语。

2、杨军、乔力男:下载中科院ICTCLAS的分词包,进行试验,做结果分析图表;搜索Web数据挖掘中关于朴素贝叶斯算法的部分,开始学习。

他们对于分词包所作分析如下图所示,并且向组员讲明了该算法的优点。

★ICTCLAS 是中科院张华平博士开发的一款基于HMM的智能分词软件,而imdict-chinese-analyzer 和 ictclas4j 都是基于同一模型开发的Java版分词软件,我们采用了ICTCLAS算法,事实证明它的分词速度最快,分词效果也最好。三者的分词效率对比如下图:

测试数据采用中文文件大小为62390KB,内容长度为33477693字符,各模型独立分词并将分开的词写到文件里。

测试环境为:酷睿E7200双核,内存2G,JDK参数为:"-Xms512m -Xmx1024m "

 ★ICTCLAS主要功能包括:中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。其中包含了层叠隐马尔可夫模型,具体涉及到的内容较复杂,小组成员还有待进一步学习,但是我们掌握了在C#语言中使用该算法的方法,并且可以进行测试。

★ 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的流程可以由下图表示(暂时不考虑验证):

                                        应用阶段

3、徐姗、李超:研究C#中对pdf的信息提取。

英文论文:对于英文论文的提取,要比中文论文简单。但是由于学术论文一般都含有图片,所以我们决定先将pdf转换成txt。首先利用解析工具 PDFBOX、Jpedal和 PDFTextStream 将 PDF 格式论文的首部转换为 TXT 格式的文本。然后采用正则表达式去掉文本中的冗余信息,例如出版日期、期刊名称、期次、刊号、作者详细信息(如地址、电话、网址和邮箱等)、摘要关键词等,并且以“1 Introduction(引言)”等之类的信息作为最后一个分块的结束。将论文首部按行划分为文本块序列,之后采用元数据处理方式进行提取。

中文论文:由于 PDF 文档格式是面向显示的,所以首先要利用 PDFBox 类库对其进行解析。每个 PDF 页面都可以作为一个对象,其中包括该页的数据信息和视觉显示信息等内容。并且科技论文的格式一般都是固定的,特定有效信息都会有固定的关键词来标识。所以我们想利用论文格式、视觉特征和关键词相结合的方式来提取 PDF 格式的中文科技论文的有效信息。

明日规划:

1、柴泽华:考虑tf-idf算法的实现问题。

2、杨军、乔力男:继续学习朴素贝叶斯算法。

3、徐姗、李超:学习元数据处理方式,将pdf(英文版)转换成txt。

编辑:徐姗

原文地址:https://www.cnblogs.com/IloveSE/p/3439756.html