bag-of-words 词袋模型

https://blog.csdn.net/Jaster_wisdom/article/details/81539623

就是首先对于一个文章而言，把一个文章的所有单词提取出来，去重，得到所有出现的单词，这就是词袋。

然后对于一个句子，把句子里面的所有单词提取出来，然后在对应位置修改这些单词出现的频度

这样，对于一个句子，就抽象成为了一个map，例如：I have an egg, you have an apple. 可以看作：{{I:1},{you:1},{an:2},{have:2},{egg:1},{apple:1}}

对于一般的图像或者音频，首先分成一个个小段，但是这些小段可能太散了，直接抽象成单词会使得频度过小，没有意义

所以用聚类算法，把一些小段归为一类，这就得到了抽象以后的词袋。

然后和文章的处理一样就行了。

词袋算法有广泛应用，可以想到的是：

1.fhr扔给我的题，有这种影子。但也不完全一样。

2.论文查重，感觉不知道是不是也是一样的算法（句子中的语气词虚词什么的先略掉，然后再处理频度）