TFIDF<细读>

概念

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

<TF-IDF是一种统计方法，用以评估每个字词对于一个文件集或一个语料库中的其中一份文件的重要程度: 评价一个语料库中的每一个词，对于每个文档的重要性，其中这个语料库是所有文档中词的汇总>

原理

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化（分子一般小于分母区别于IDF），以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）归一化，是该词出现的次数除以该文档所有词的个数。

逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由（总文件数目除以包含该词语之文件的数目）>1，再将得到的商取对数得到。

<总文件数目除以包含该词语之文件的数目: 假如一个词在所有文件中都出现，那么这个商就接近1，log后的值接近0，重要度接近0.如果一个词就在很少的文件中出现，那么这个商值很大，就是重要性也很大> ，这样看来，TF-IDF倾向于过滤掉常见的词语，保留重要的词语>

$mathrm{tf_{i,j}} = frac{n_{i,j}}{sum_k n_{k,j}}$ TF:表达一个词在一个文件的出现频率程度

$mathrm{idf_{i}} = log frac{|D|}{|{j: t_{i} in d_{j}}|}$ IDF:表达一个词在所有文件份中出现的频率程度

|D|：语料库中的文件总数

$|{ j: t_{i} in d_{j}}|$ ：包含词语 $t_{i}$ 的文件数目（即 $n_{i,j} eq 0$ 的文件数目）如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用 $1 + |{j : t_{i} in d_{j}}|$

$mathrm{tf{}idf_{i,j}} = mathrm{tf_{i,j}} imes mathrm{idf_{i}}$

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。

因此，TF-IDF倾向于过滤掉[通过设置TFIDF值的阈值]常见的词语，保留重要的词语。