论文研读

论文名称:张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法.

    • 研究对象
      中文语料库和英文语料库
    • 研究动机
      • 一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词,然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围,之后再利用信息增益算法高效地提取文档特征
      • 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题,
        本方法从文档集中运用 FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,还可以构建文本集中文本间的关联关系
    • 文献综述
      •   
      研究方案设计  
      • 相关算法介绍
        • FIC算法
        • FIHC算法
        • MC算法
      • 本文提出的FIC算法
        • 频发词数据挖掘,本文采用 FP-Growth算法来挖掘频繁词集
        • 文本表示模型,本文采用基于频繁词集的文本表示模型
        • 构建文本网络,FIC算法将文本集中的每个文本当作文本网络中的节点,根据2文本之间的关联程度来建立边
        • 社区划分,通过文本与节点的对应关系将文本直接匹配到对应的社区,即类簇。使用硬划分的社区划分方法,每个文本只能被指派到唯一的社区中,解决了类间 重叠的问题.本文中选用 K-rank-D与谱聚类(spectralclustering)对网络进行划分
        • 主题描述,将出现频率较大的频繁词集作为主题的描述词.
      • 实验结果和分析
        • 数据集为标准数据集20-Newsgroup和 Reuters-21578,对于中文数据,选择文本分类语料库搜狗新闻数据
        • 聚类评价指标,采用文本聚类中常用的外部评价标准 F-measure
        • 实验设计方案,预处理时运用特征选择的方法,采用文档-反文档频率方法保留对划分文本更有利的特征单词。
        • 实验分析,在不同的算法上对5组数据进行聚类,其中对于 K-means,SPK-means,LDA,GNMF,FIC-S这5种不确定型算法分别运行10次取平均值作为最后聚类的精度结果
        • 实验中的阈值调整,本文算法中主要涉及到3个参数,包括在筛选特征词时的阈值、挖掘频繁词集中的最小支持度和计算文本间相似性的相似度阈值.本文通过采用手动调整、多次实验的方式,获得了聚类的最佳效果
        • 实验中对文本主题的描述,对每个类簇内的文本,统计所有文本内的频繁词集的出现频率,并选择按频率排名前10的频繁词集来描述每个主题,展示由FIC-K 算法所聚成类簇的主题描述情况,同时与LDA 算法得到的主题描述词进行对比
      • 使用数据集
          
        标准数据集20-Newsgroup和 Reuters-21578,对于中文数据,选择文本分类语料库搜狗新闻数据.其中,20-newsgroup数据包括近20000篇新闻报道,分为20个不同的新闻组,除了小部分文档,每个文档都只属于一个新闻组;Reuters-21578是文本分类的测试集,其中包含的文档来自于路透社1987年的新闻,搜狗新闻数据包括9个新闻类,共有17910个文本.
    • 研究结论
      • 本文提出一种新的文本聚类方法 FIC,该方法运用基于频繁词集的文本表示模型,解决了传统的VSM 模型的高维和数据稀疏的问题,采用基于网络的社区划分聚类方法和谱聚类算法,由于考虑了多个文本间的关系,聚类性能相比于之前的方法有了一定程度的提升

          
    • 学习心得
        这篇论文解决了传统VSM模型高维和数据稀疏的问题,增加了每个文本直接的联系,使相似文本之间联系增大。
原文地址:https://www.cnblogs.com/lkl7117/p/11266925.html