nlp——词袋模型BOW

词袋模型也称为BOW,亦即bag of words

 

下面通过一个列子说明词袋模型

有两个文本文档如下A和B:

A:John likes to watch movies. Mary likes too.
B:John also likes to watch football games.

 

具体实现方式:

基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

上面的词典中包含10个单词, 每个单词有唯一的索引, 那么对应A和B文本我们可以使用一个10维的向量来表示。如下:

A:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] #John在A中出现一次,likes在A中出现2次,.......,also在A中出现0次

B:[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

对向量解释如下:

向量的维度根据词典中不重复单词的个数确定。

向量中每个位置的指代的单词与文本中单词出现的顺序没有关系,与词典中的单词顺序——对应。

向量中每个数值是词典中每个单词在文本中出现的频率——即词频表示。

缺点:

无法考虑词语之间的顺序。

原文地址:https://www.cnblogs.com/AntonioSu/p/12259348.html