nlp——词袋模型BOW

词袋模型也称为BOW，亦即bag of words

下面通过一个列子说明词袋模型

有两个文本文档如下A和B：

A：John likes to watch movies. Mary likes too.
B：John also likes to watch football games.

具体实现方式：

基于上述两个文档中出现的单词，构建如下一个词典 (dictionary)：

{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

上面的词典中包含10个单词, 每个单词有唯一的索引, 那么对应A和B文本我们可以使用一个10维的向量来表示。如下：

A：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] #John在A中出现一次，likes在A中出现2次，.......,also在A中出现0次

B：[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

对向量解释如下：

向量的维度根据词典中不重复单词的个数确定。

向量中每个位置的指代的单词与文本中单词出现的顺序没有关系,与词典中的单词顺序——对应。

向量中每个数值是词典中每个单词在文本中出现的频率——即词频表示。

缺点：

无法考虑词语之间的顺序。