word2vec学习

词向量只是对词的特征表征,如果要对一篇文档进行特征表征,需要更进一步 ,有几种可以一试的方法:

1.直接使用文档中所有词的词向量的平均值

2.根据文档中每个词的词向量对文档进行聚类,使用聚类后包含词最多的 那个类的中心点作为文档特征向量

3.使用doc2vec模型,这是个类似word2vec的模型,不过它是直接对doc 来建模

4.使用文档中每个词的TF-IDF值作为权重,与每个词的词向量进行加权平均

原文地址:https://www.cnblogs.com/ICDTAD/p/14941633.html