libsvm 文本分类（分两类）（实验结果）直接调用Libsvm工具

作者 finallyliuyu,转载请注明出处

前言：

研究生时期的最后一门作业是《统计机器学习》的阅读报告。为了让作业熠熠生辉，也同时是加深对某些混淆知识的理解，预计报告中包括以下几部分内容

1. 统计机器学习机的基本框架图

2.线性SVM的基本原理（主体部分）

　　包括如何转化成数学上的凸优化问题，转化成对偶问题。（此部分已经完成，数学推导没有看懂，只知道个流程。如果要想看懂此部分的数学推导，需要有泛函和凸优化理论的基础）

3.实验部分:

用libsvm进行文本分类。

1.在训练样本集不变的前提下，不断加大测试样本集的规模。测试 svm模型的VC维，即能够正确分类的文章的最大数目。在实验中具体实现为，当测试样本集规模达到何种程度时分类准确率《50%

2.在训练样本集合测试样本集均不变的前提下，调解特征维数，并且观察特征维数对分类准确率的影响

由于第一次使用libsvm，所以将基本命令写在下面

测试数据见lib svm 测试数据，可提供下载。访问libsvm官方网址，可以下载到很多UCI的数据库，本博文中给出的测试数据并非来自于UCI，而是将搜狗开放新闻分类语料库中的“C000013（健康类），C000024（军事）”经过处理，形成的libSVM要求的数据格式。文本预处理阶段（包括分词，提取特征词，建立文档向量模型，费了好大的牛劲哈。train.libsvm 中共202行数据，前101行数据是C000024(0.txt-100.txt)的VSM模型，后101行数据是对C000013(0.txt-100.txt)的VSM模型。test.libsvm共200篇文章，前100行数据是C000024(101.txt-200.txt)的VSM模型，后100行数据是对C000013(101.txt-200.txt)的VSM模型。文件可以通过Ultraedit查看

4。对数回归分类，感知机分类

对数回归，感知机分类，和SVM分类一样，都属于判别式分类器。这一对比模块的主要目的在于区别这三种模型，上学期弄对数回归分类的时候，对对数回归分类，感知机分类搞的就不太清楚，希望通过这次能够搞清楚

5。不同的分类特征词选择方法对特征词选择的影响

此部分主要实现Yiming Yang 1999年的论文 a Comparative Study on Feature Selection in Text Categorization,研究文本分类问题中的特征词选择方法，是为了启发文本聚类问题中的特征词选择方法。目前文本分类问题中的特征词选择方法已经趋于成熟如IG，MI,CHI，DF，TF权证，TF-IDF等等。可是聚类问题中的特征词选择方法尚未成熟，有发展空间。上学期我倒是想到了一种针对文本聚类问题的特征词选择方法，可是效果不好。