互信息 & 卡方

在做文本挖掘，特别是有监督的学习时，常常需要从文本中提取特征，提取出对学习有价值的分类，而不是把所有的词都用上，因此一些词对分类的作用不大，比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法：

互信息

　　一个常用的方法是计算文档中的词项t与文档类别c的互信息MI，MI度量的是词的存在与否给类别c带来的信息量。

卡方是基于显著统计性来选择特征的，因此他会比MI选出更多的罕见词项，而这些词项对分类并不靠谱。

　　虽然卡方和互信息的出发点不同，但它们的准确性却相差不多，因为大部分文本分类问题中，只有很少的强特征，大部分都是弱特征。只要所有的强特征和很多弱特征被选出，那么分类的准确率就不会低。

　　另外上面介绍的两种特征选择主要用于文本的分类等用监督学习，而不适宜聚类等无监督学习，因为聚类我们不知道每篇文档属于的类别，也就无从计算互信息和卡方值，这时一般使用TF-IDF作为特征词的选取方法。