TF-IDF概念

之前就了解过TF-IDF,现在做一个回顾。

概念:

TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数,

IDF(Inverse Document Frequency)逆文档频率:

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词),这就是一个调整系数,如果某个词在语料库中总体比较少见,但是它在这篇文档里出现频率很高,那这个词就很有可能是我们需要的关键词

得到"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

人生苦短,何不用python
原文地址:https://www.cnblogs.com/yqpy/p/8629808.html