论文研读

论文名称：姜芳、李国和、岳翔.基于语义的文档关键词提取方法
.

研究对象

中文文档为处理对象，通过同义词词林-计算词语间语义距离，对词语进行密度聚类，得到主题相关类，并从主题相关类中选取中心词作为关键词
研究动机
- 现有的关键词抽取算法主要有基于启发式规则的方法、基于统计的算法和基于机器学习的算法等，这些算法都有各自的缺点，这篇论文提出一种基于语义的关键词提取方法。该方法不受领域限制，不需要大规模的训练样本，并且比传统方法在准确率和召回率上有所提高。　　
文献综述
- 　　
研究方案设计　　
- 提取关键词
  - 利用词语间的语义距离构造网络，并采用密度聚类的方法选择关键词
- 系统整体结构与流程
  - 提取关键词后对文档进行分词和词性标注，获得候选词语列表
  - 去除后选择与列表中的停用词后，保留形容词、副形词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词，获得词语数据集
  - 运用哈工大《同义词词林》扩展版的词语树型结构，进行编码。通过词语的对应编码可以计算出词语间的语义距离。
  - 法对词语数据集进行密度聚类，根据阈值筛选出主题相关类。
  - 计算所有主题相关类的中心词"并得到关键词集。
- 实验
  - 人工对比实验，对其进行人工关键词提取，作为实验标准。将基于语义的关键词提取方法和基于统计的方法、最大熵模型、基于知网的方法，进行对比实验，评价标准包括准确率、召回率以及两者调和的平均值测度值。
  - 分类语料库对比实验，采用复旦大学计算机学院提供的文档集，对已标注关键词的文章，进行基于语义的关键词提取方法和基于统计的方法的对比实验
  - 打分实验，利用TF-IDF和SKEM算法对每个文档的提取结果进行打分"统计每个分值的文档百分比作为实验结果
使用数据集

《人民日报》1988年1月语料库中选取20篇文档作为实验语料，对其进行人工关键词提取，作为实验标准
研究结论
- 相对于传统关键词提取方法，该方法不受领域限制，不需要大规模的训练样本，并且比传统方法在准确率和召回率上有所提高。　　
学习心得
　　对传统关键词进行改进，在关键词提取方面增加了哈工大的《同义词词林》，设计了明确的算法逻辑流程，最后采用各种实验来说明自己算法比传统算法的优势