学习 NLP(一)—— TF-IDF

TF-IDF(Term Frequency & Inverse Document Frequency),是一种用于信息检索数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

tfi,j=ni,jknk,jidfi=log|D||{j:tidj}|

  • IF 定义式的:

    • j:第 j 篇文章(文章编号);
    • i:某个待考察的单词(第 i 个单词,单词在文章中的编号);
    • k:第 j 篇文章的全部单词(文章中的全部单词);
  • idf 定义式:

    • j:文章编号;
    • i:待考察的单词编号;
    • ||:表示集合的大小;
原文地址:https://www.cnblogs.com/mtcnn/p/9423135.html