学习 NLP（一）—

学习 NLP（一）—— TF-IDF

TF-IDF（Term Frequency & Inverse Document Frequency），是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是：如果某个词或短语在一篇文章中出现的频率（term frequency）高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

tf i, j = n i , j \sum k n k , j idf i = log | D | | { j : t i \in d j } |

IF 定义式的：
- j：第 j 篇文章（文章编号）；
- i：某个待考察的单词（第 i 个单词，单词在文章中的编号）；
- k：第 j 篇文章的全部单词（文章中的全部单词）；
idf 定义式：
- j：文章编号；
- i：待考察的单词编号；
- |⋅|：表示集合的大小；