TF-IDF

词袋模型

　　如上图所示，计算机不能直接识别文字信息，它会把上面的两句话转换成词频向量来表示，就是每组词在这个句子中出现的次数，但是它并不考虑词的先后顺序，这种模型就叫词袋模型。　

　　上图中表示每个词的出现的数量作为向量的，就叫人词频向量

jieba分词三种模式：

　　1、精确模式：试图将句子精确地分开，适合文本分析

　　2、全模式：把句子中所有可以成词的词语都分开，速度快，但不能解决歧义

　　3、搜索引擎模式：在精确模式的基础上对长词再次切分，适合搜索引擎分词

TF-IDF模型

　　TF(term frequency):表示词频，某个词在文档中出现的次数

　　DF(doucument frequency):某个词在所有文档中出现的文档数

　　IDF(inverse doucument frequency):逆文档频率，它是DF的倒数，IDF越大表示该词越少见，也即越重要

　　TF-IDF: TF*IDF综合了TF和IDF的因素来平衡词的重要性