文本分类项目总结

摘抄：https://zhuanlan.zhihu.com/p/25928551（原文地址）

一.传统文本分类

1）文本预处理

文本预处理过程是在文本中提取关键词表示文本的过程，中文文本处理中主要包括文本分词和去停用词两个阶段。

2）文本表示和特征提取

文本表示：

传统做法常用词袋模型（BOW, Bag Of Words）或向量空间模型（Vector Space Model），最大的不足是忽略文本上下文关系，每个词之间彼此独立，并且无法表征语义信息。

特征提取：

向量空间模型的文本表示方法的特征提取对应特征项的选择和特征权重计算两部分。

特征选择的基本思路是根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。

1>文档频率

2>互信息

3>信息增益

4>X^2统计（卡方统计）

特征权重主要是经典的TF-IDF方法及其扩展方法，主要思路是一个词的重要度与在类别内的词频成正比，与所有类别出现的次数成反比。

基于语义的文本表示

1>LDA主题模型

2>LSI/PLSI概率潜在语义索引

3）分类：

1>朴素贝叶斯

2>KNN

3>SVM

二.深度学习方法

传统做法主要问题的文本表示是高纬度高稀疏的，特征表达能力很弱，而且神经网络很不擅长对此类数据的处理；此外需要人工进行特征工程，成本很高。

文本的分布式表示：

1）神经网络语言模型（NNLM）

2）CBOW 和 Skip-Gram

文本分类模型：

1）fastText

《Bag of Tricks for Efficient Text Classification》

2）TextCNN

核心点在于可以捕捉局部相关性，具体到文本分类任务中可以利用CNN来提取句子中类似 n-gram 的关键信息。

特征：这里的特征就是词向量，有静态（static）和非静态（non-static）方式。static方式采用比如word2vec预训练的词向量，训练过程不更新词向量，实质上属于迁移学习了，特别是数据量比较小的情况下，采用静态的词向量往往效果不错。non-static则是在训练过程中更新词向量。推荐的方式是 non-static 中的 fine-tunning方式，它是以预训练（pre-train）的word2vec向量初始化词向量，训练过程中调整词向量，能加速收敛，当然如果有充足的训练数据和资源，直接随机初始化词向量效果也是可以的。

3）TextRNN

4）Hierarchical Attention Networks

5）TextRCNN

利用前向和后向RNN得到每个词的前向和后向上下文的表示：

这样词的表示就变成词向量和前向后向上下文向量concat起来的形式了，