文本数据特征选取的四种方法

目前大多数中文文本分类系统都采用词作为特征项，作为特征项的词称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。

1 基于频率的过滤方法

基于频率的过滤方法中，一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语，则被包含的词语的次数不能加一，例如第一条留言中出现“清楚”，包含“清”，第二条留言中包含“清”，则“清出现的次数只能是一次，而不是两次”，还有一种特殊情况是“松”被分作了两个词性，“松/a”和“松/ng”，对于这种情况我们把所有词语的词性去掉之后再统计这个词语出现的次数。