论文研读

论文名称：张雪松，贾彩燕.一种基于频繁词集表示的新文本聚类方法.

研究对象

中文语料库和英文语料库
研究动机
- 一种基于语义距离的文档特征提取方法。首先利用基于语义距离的方法提取主题相关词，然后利用信息增益算法从主题相关词中提取出文档特征。该方法首先利用语义距离准确缩小特征范围，之后再利用信息增益算法高效地提取文档特征
- 传统的文本聚类方法大部分采用基于词的文本表示模型，这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系．同时，传统文本表示模型存在高维的问题，
  本方法从文档集中运用ＦＰ－Ｇｒｏｗｔｈ算法挖掘出频繁词集，运用频繁词集来表示每个文本从而大大降低了文本维度，还可以构建文本集中文本间的关联关系
文献综述
- 　　
研究方案设计　　
- 相关算法介绍
- 本文提出的FIC算法
  - 频发词数据挖掘，本文采用ＦＰ－Ｇｒｏｗｔｈ算法来挖掘频繁词集
  - 文本表示模型，本文采用基于频繁词集的文本表示模型
  - 构建文本网络，ＦＩＣ算法将文本集中的每个文本当作文本网络中的节点，根据２文本之间的关联程度来建立边
  - 社区划分，通过文本与节点的对应关系将文本直接匹配到对应的社区，即类簇。使用硬划分的社区划分方法，每个文本只能被指派到唯一的社区中，解决了类间重叠的问题．本文中选用Ｋ－ｒａｎｋ－Ｄ与谱聚类（ｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ）对网络进行划分
  - 主题描述，将出现频率较大的频繁词集作为主题的描述词．
- 实验结果和分析
  - 数据集为标准数据集２０－Ｎｅｗｓｇｒｏｕｐ和Ｒｅｕｔｅｒｓ－２１５７８，对于中文数据，选择文本分类语料库搜狗新闻数据
  - 聚类评价指标，采用文本聚类中常用的外部评价标准Ｆ－ｍｅａｓｕｒe
  - 实验设计方案，预处理时运用特征选择的方法，采用文档-反文档频率方法保留对划分文本更有利的特征单词。
  - 实验分析，在不同的算法上对５组数据进行聚类，其中对于Ｋ－ｍｅａｎｓ，ＳＰＫ－ｍｅａｎｓ，ＬＤＡ，ＧＮＭＦ，ＦＩＣ－Ｓ这５种不确定型算法分别运行１０次取平均值作为最后聚类的精度结果
- 使用数据集
  
  　　
  标准数据集２０－Ｎｅｗｓｇｒｏｕｐ和Ｒｅｕｔｅｒｓ－２１５７８，对于中文数据，选择文本分类语料库搜狗新闻数据．其中，２０－ｎｅｗｓｇｒｏｕｐ数据包括近２００００篇新闻报道，分为２０个不同的新闻组，除了小部分文档，每个文档都只属于一个新闻组；Ｒｅｕｔｅｒｓ－２１５７８是文本分类的测试集，其中包含的文档来自于路透社１９８７年的新闻，搜狗新闻数据包括９个新闻类，共有１７９１０个文本．
研究结论
- 本文提出一种新的文本聚类方法ＦＩＣ，该方法运用基于频繁词集的文本表示模型，解决了传统的ＶＳＭ模型的高维和数据稀疏的问题，采用基于网络的社区划分聚类方法和谱聚类算法，由于考虑了多个文本间的关系，聚类性能相比于之前的方法有了一定程度的提升
  
  　　
学习心得
　　这篇论文解决了传统VSM模型高维和数据稀疏的问题，增加了每个文本直接的联系，使相似文本之间联系增大。