关键字抽取论文阅读笔记

刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究

一、研究背景和论文工作介绍

　　关键词抽取分为两步：选取候选关键词和从候选集合中推荐关键词。

1.1. 选取候选关键词

关键词：单个词或者多个单词组成的短语。

抽取难点：如何正确判定候选关键词的边界。（在英文关键词抽取中，一般选N元词串，计算N元词串内部联系的紧密程度来判断是否是一个有独立语义的短语。类比搭配抽取、多词表达抽取任务）

1.2. 推荐关键词

　　得到候选关键词集合后，两种途径解决关键词选取问题。

（1）无监督的方法

　　利用统计特性（egTF-IDF），排序，选取最高若干作为关键词。

（2）有监督的方法

　　将关键词抽取问题转换为判断每个候选关键词是否为关键词的二分类问题，它需要一个已经标注关键词的文档集合训练分类模型。（什么意思？具体怎么做？）

注：标注虽效果好，但耗时耗力，不能灵活面对时间变化下文档主题的变化，因此方法集中在无监督。

知识扩展（了解一些算法思想）：

　　PageRank算法：对网页进行排序，基本思想，一个网页的重要性由链向它的其他网页重要性来决定，即如果越多重要的网页指向某网页，那么该网页也就相应越重要。

　　PageRank引出TextRank（基于图的关键词抽取算法），用在关键字抽取和文档摘要。基本思想，将文档看作一个词的网络，该网络中的链接表示词与词之间的语义关系。基于与PageRank相似的思想，TextRank认为一个词的重要性由链向它的其他词的重要性来决定，利用PageRank计算网络中词的重要性，然后根据候选关键词的PageRank值进行排序，从而选择排名最高的若干个词作为关键词。优点是考虑了文档中词与词之间的语义关系。

　　用于网页排序的HITS算法用于候选关键词排序，效果也相似。

主流方法：基于图的算法成为无监督关键词抽取的主流方法。关键词抽取以文档的词网作为基础。

应用扩展：社会标签自动标注(1.3节)分为两部分

（1）基于图的方法（涉及概念：协同标注、协同过滤、FolkRank算法、矩阵分解技术, 冷启动）

（2）基于内容的方法（涉及概念：K 近邻、隐含主题模型）

图传统方法

总结：以上为传统方法，已有实现，但未系统考虑文档主题结构对关键词标注的作用。文档关键词同时有三个特点：可读性，相关性，覆盖度（考虑多主题问题）。论文主要解决关键词对文档主题覆盖度问题和文档与主题之间的词汇差异问题（什么是词汇差异？1.4.2节介绍）。

二、文档词汇聚类算法构建文档主题（利用文档内部信息、提高对文档主题的覆盖度）

主要步骤：

1. 去停用词，选取候选词2. 计算候选词之间的语义相似度

3. 根据语义相似度进行聚类

4. 选取每个聚类中心词，在文档中选取合适的关键词

对每个步骤详细介绍：

2.1. 去停用词，选取候选词

2.1.1 英语要进行断词，如果是汉语，先分词。（断词和分词的区分）

2.1.2 去停用词得到候选词。（一种候选关键词研究方法：先将单词作为候选词，聚类中心词，再将单个候选词扩展为多个词的短语）^4，73

2.2. 计算候选词之间的语义相似度

2.2.1 基于文档内的词同现关系（度量词与词的相似度）

　　词与词的同现关系简单地表示为两个词在一个最多为w个词的滑动窗口内同现的次数。窗口大小w一般设为2到10之间的数值。在计算同现相似度时，利用每个文档中的每个词（不去停用词，无意义词用来提供距离信息），转换为词的序列。

2.2.2 利用外部知识库

　　利用维基百科来度量词与词之间的相似度，基本思想：将每个维基百科词条看作是一个独立的概念，一个词的语义信息可以用维基百科概念上的分布来表示，在某个概率上的权重可以用这个词的概率词条中的TF-IDF值来表示。比较两个词的概念向量来度量相似度。（很有效）

　　选用余弦相似度（COS）、欧式距离（EU-C）、点互信息（PMI）和规范化Google距离（NGD）来计算相似度。具体公式查看第12页

2.3 聚类方法（无监督，将对象划分为不同组，每个组内对象相互比较相似，组与组之间对象不同）

　　采用三种典型聚类算法：层次聚类、谱聚类、信任传播聚类。

2.4 从聚类中心词扩展关键词

　　词聚类完成后，选取每个聚类的中心词作为种子词。在信任传播聚类中，算法本身会提供聚类中心；在层次聚类中，聚类中心词可以通过Matlab计算获得；而谱聚类选取距离聚类中心点最近的词作为聚类中心词。

三、隐含主题模型构建文档主题（利用文档外部信息，不受限文档长短）

3.3 基于隐含主题模型的关键字抽取方法

前提：从大规模数据中学习得到主题模型。

1. 获取文档中的候选关键词，通过词性标注选取名词性短语作为候选关键词。

2. 根据主题模型，计算获取文档和候选关键词的主题分布。

3. 计算文档和候选关键词的主题相似度，排序并选取最高的几个作为关键词。

3.3.1 获取文档和候选关键词的主题分布

　　根据公式得到主题的概率、主题中某个词的概率，利用吉布斯采样，对其中的每个词利用公式赋予主题，反复迭代直到收敛，最后根据相关公式计算文档主题分布。

3.3.2 计算文档和候选关键词相似度

对文档关键词排序：

方法1：给定一个文档的主题分布Pr(k|d)和候选关键词的主题分布Pr(k|p)，可以通过余弦相似度、KL距离等来计算两个主题分布之间的相似度来对候选关键词进行排序。

方法2：使用预测似然度方法，计算某个关键词的概率。

四、基于主题的随机游走模型（隐含主题模型和文档结构信息相结合）

4.1　将传统的PageRank分解成在不同主题上的带偏好的PageRank。每个词在不同的主题上会有不同的PageRank排序值。根据文档主题分布，可以计算得到每个候选关键词的最终排序值，用以推荐关键词。这种方法称为Topical PageRank(TPR)。

4.2 基于隐含主题模型的图方法（TPR）

通过两个阶段进行关键字提取：

1. 构建一个主题解释器来得到给定单词和文档的主题。

2. 运行TPR算法，从文档中抽取关键词。

给定文档，利用TPR进行关键词抽取主要包括四个步骤：

1. 根据文档中单词的同现关系，构建文档对应的单词图；
2. 在图上运行TPR算法，得到每个单词在不同主题上的PageRank值；
3. 在不同的主题上，根据单词在该主题上的PageRank值得到候选关键词在该主题上的值；
4. 获得文档d的主题分布，综合不同主题上候选关键词的重要性，得到对候选关键词的最终排序，选取排序最高的若干作为推荐关键词。

五、基于文档与关键词主题一致性的关键词抽取方法

　　一个典型的方法是ExpandRank [19,20] 。这是基于TextRank的算法，基本思想是，当需要给某个文档抽取关键词的时候，在构建单词图的时候，除了考察该文档中词与词的同现关系外，还寻找文档集合中与该文档最相似的k个文档，也将他们中词与词的同现关系加入到该图中。这样可以通过近邻文档中的单词之间的关系，在词网中添加更加丰富和精确的语义信息，从而在一定程度上缓解词汇差异问题。

　　另外一个典型的方法是采用隐含主题模型进行关键词抽取。这类方法由于是通过主题相似度推荐关键词，避免了传统的基于统计信息的方式推荐关键词的弊端，也能够一定程度上缓解词汇差异问题。

　　本文提出一种在词汇层次上引入外部信息的方法，即利用统计机器翻译的词对齐技术在大规模文档集合上学习文档中的词与关键词之间的语义关系，从而在给定文档和关键词之间建立精确的语义映射，能够推荐更相关的关键词。

　　本文将算法划分为三个步骤：准备翻译对，训练翻译模型和对给定文档抽取关键词。

总结：

1. 读完全篇论文了解了部分名词概念，未在刘知远老师的主页找到代码实现，很遗憾。