论文研读

论文名称：姜芳，李国和，岳翔.基于语义的文档特征提取研究方法.

研究对象

中文文本特征词
研究动机
- 一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词，然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围，之后再利用信息增益算法高效地提取文档特征
文献综述
- 　　
研究方案设计　　
- 基于语义的文档特征提取方法
- - 完成聚类后，选择聚类结果中包含词语数据最多的 N个子集作为提取特征的主题相关类
  - 得到主题相关类集合 M(D)后，通过信息增益方法，对词语进行评价，选取若干分类效果最好的词语作为特征词
- 系统整体结构与流程
- - 计算词语语义距离
  - 对分词结果集 D(w)中登录词进行密度聚类，确定主题相关类集合 M(D)
  - 对主题相关类集合 M(D)和未登录词集合U(W)中的特征进行筛选，得到代表这类文档的特征集合 D(Wt)
- 实验验证
- 使用数据集
  
  　　实验数据采用复旦大学计算机学院提供的文档集，其类别数 lCI一20，文档数 lDI一19637。采用 ICTCLAS分词系统进行分词，得到特征词数 lT1约 13万。采用 TFIDF对所有文档进行加权：
研究结论
- 算法有效性实验表明，上述方法选取的特征词能够有效区分不同类别的文档；对比实验表明，上述方法所选取的特征词的分类能力优于其他现有方法，该方法是一种高效的文本特征选取方法
  　　
学习心得
　　上一篇是同一个作者采用关键词提取，本文是用特征提取研究，运用的数据集、语义间的距离计算和聚类都是一样的。从这篇论文感受到，第一步踏出去，后面的论文写作就要容易好多。