word2vec和onehot

相比与bow(bag of word),两个都是特征的降维,

bow 每个词是一个文档向量中的一维

而one-hot是一个词本身是一个向量(一维是1,其他是0),不同词之间的区别是1的位置不同,但是1的位置不表示实际意义

而word2vec中,每个词用一个实数向量表示,语义相近的词的向量夹角余弦相似度更相近 比如 都是水果等等

one-hot和word2vec 都属于 distributed represent 表示法

word2vec可能需要涉及到一些聚类等,具体还没深入研究

原文地址:https://www.cnblogs.com/brainstorm/p/8784941.html