广东外语外贸大学16-17学年上学期第1周例会会议纪要

广东外语外贸大学

16-17学年上学期第1周例会会议纪要

广外数据挖掘实验室【2016】

会议时间：2016年10月15日

会议地点：C505

会议记录：徐传懋、黎柏棋

请假人员：林楠凯、黎国本、高俊辉

迟到人员：无

会议内容：

一、 英语文本预处理大致流程（Python语言；nltk库）

（1）数据准备（去除空白符）

（2）单词小写化、分离标点符号和单词（lower方法；nltk的toknize函数）

（3）去停用词（使用nltk内部的英语停用词表）

（4）去标点符号（string包；maketrans和tranlate方法组合使用）

（5）单词词干化（nltk包内的LancasterStemmer工具）

（6）去低频词（去掉在整个语料库中出现次数为1的低频词）

二、 github使用（linux系统）

参考网站：http://www.linuxidc.com/Linux/2014-03/97821.htm

1 Linux下Git和GitHub环境的搭建

2 利用Git从本地上传到GitHub

3 从GitHub克隆项目到本地

4 GitHub的分支管理

5 常见错误

三、 《基于评价对象类别的跨领域情感分类方法研究》论文总结

情感分类任务（领域相关性）

→构建基于评价对象类别的跨领域学习方法

→将评价对象分为4类

→人工标注句子，构建评价对象类别分类器

→将不同对象当作不同的图，使用协同学习进行跨领域情感分类。

四、 分词工具

java建议用NLPIR和ansj，python建议nltk和 jieba（中文）

提取出的正确信息条数提取出的信息条数样本中的信息条数正确率召回率 F值 NLPIR 103689 114699 113527 0.90400963 0.91334220 0.9086519524239685

ansj 99010 113698 113527 0. 87081567 0.87212734 0.8714710114445083

Stanford 101812 111147 113527 0. 91601213 0. 89680869 0.9063086977668424

Jieba 后续给出

* 正确率 = 提取出的正确信息条数 / 提取出的信息条数 * 召回率 = 提取出的正确信息条数 / 样本中的信息条数两者取值在0和1之间，数值越接近1，查准率或查全率就越高。

* F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) （F 值即为正确率和召回率的调和平均值）

NLPIR分词原理：1、通过基于字典、词库匹配的分词方法； 2、基于词频度统计的分词方法； 3 、基于知识理解的分词方法进行分词；

Stanford分词原理：可以针对某个句子解析其句子结构，为句子中不同的成分打上成分标签，具体到某个分词单元，可以为其打上词性标签。输入为内存中的 String 或者 List ，或者 utf-8 编码的文本文件，分词单元间以空格符分隔。

ansj分词原理： 1、全切分，原子切分；

2、 N最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划；

3、人名识别； 4、系统词典补充； 5、用户自定义词典的补充； 6、词性标注（可选）

Jieba分词原理：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

1，支持三种分词模式： a,精确模式，试图将句子最精确地切开，适合文本分析； b,全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； c,搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 2，支持繁体分词 3，支持自定义词典

*结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_search)，词性标注，关键词提取没有实现(今后如用到，可以考虑实现)。

印度尼语匹配数字：21