TF-IDF学习

--------------------------------------------------------概念定义-----------------------------------------------------------

参考以下链接:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

  逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

  某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语

--------------------------------------------------------计算方法------------------------------------------------------------------

参考以下链接:http://blog.csdn.net/baimafujinji/article/details/51476117

一些基于自然语言处理的预处理过程也会在本文中出现。如果你对NLTK和Scikit-Learn两个库还很陌生可以参考如下文章:

NLTK

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言工具箱(NLTK,Natural Language Toolkit)是一个基于Python语言的类库

当然本文涉及的主要任务都是自然语言处理中最常用,最基础的pre-processing过程,

可以利用NLTK:1 进行分句 2 进行分词  等我想说《Python 自然语言处理》是一本很好的书。

      

原文地址:https://www.cnblogs.com/maowuyu-xb/p/7240651.html