论文研读

论文名称:姜 芳、李国和、岳 翔.基于语义的文档关键词提取方法
.

  • 研究对象
    中文文档为处理对象,通过同义词词林-计算词语间语义距离,对词语进行密度聚类,得到主题相关类,并从主题相关类中选取中心词作为关键词
  • 研究动机
    • 现有的关键词抽取算法主要有基于启发式规则的方法、基于统计的算法和基于机器学习的算法等,这些算法都有各自的缺点,这篇论文提出一种基于语义的关键词提取方法。该方法不受领域限制,不需要大规模的训练样本,并且比传统方法在准确率和召回率上有所提高。  
  • 文献综述
    •   
    研究方案设计  
    • 提取关键词
      • 利用词语间的语义距离构造网络,并采用密度聚类的方法选择关键词
    • 系统整体结构与流程
      • 提取关键词后对文档进行分词和词性标注,获得候选词语列表
      • 去除后选择与列表中的停用词后,保留形容词、副形词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得词语数据集
      • 运用哈工大《同义词词林》扩展版的词语树型结构,进行编码。通过词语的对应编码可以计算出词语间的语义距离。
      • 法对词语数据集进行密度聚类,根据阈值筛选出主题相关类。
      • 计算所有主题相关类的中心词"并得到关键词集。
    • 实验
      • 人工对比实验,对其进行人工关键词提取,作为实验标准。将基于语义的关键词提取方法和基于统计的方法、最大熵模型、基于知网的方法,进行对比实验,评价标准包括准确率、召回率以及两者调和的平均值测度值。
      • 分类语料库对比实验,采用复旦大学计算机学院提供的文档集,对已标注关键词的文章,进行基于语义的关键词提取方法和基于统计的方法的对比实验
      • 打分实验,利用TF-IDF和SKEM算法对每个文档的提取结果进行打分"统计每个分值的文档百分比作为实验结果
  • 使用数据集
    《人民日报》1988年1月语料库中选取20篇文档作为实验语料,对其进行人工关键词提取,作为实验标准
  • 研究结论
    • 相对于传统关键词提取方法,该方法不受领域限制,不需要大规模的训练样本,并且比传统方法在准确率和召回率上有所提高。  
  • 学习心得
      对传统关键词进行改进,在关键词提取方面增加了哈工大的《同义词词林》,设计了明确的算法逻辑流程,最后采用各种实验来说明自己算法比传统算法的优势
原文地址:https://www.cnblogs.com/lkl7117/p/11247153.html