word2vec学习

提取文本特征的方法之一——词向量

　　词向量，英文叫 Word2Vec，又叫词嵌入（Word Embedding），这种方法可以解决词袋模型的稀疏性问题，它的核心思想是：每一个词映射到一个多维空间中，成为空间中的一个向量，一般这个多维空间的维数不会太高，在几百个的量级。这几百维的特征向量是稠密的，向量中的每一个成员值都是非0的，例如：

　　“我”这个词可以表征为：[0.4, -0.11, 0.55, 0.3 . . . 0.1, 0.02]

　　“喜欢”这个词可以表征为：[-0.02, -0.09,0.04, 0.02. . . , 0.5, 0.03]

　　由于词向量由几百个维度构成，所以也被称为分布式表征（DistributedRepresentation）。词向量模型是通过对原始文本建模训练学习得到的。

　　由于词向量把每一个词映射到了一个高维空间中，并用向量表示，向量的生成是基于词与词之间的相关性得来，可以理解为相关的词在空间中的位置会比较靠近，所以词向量有一个非常有趣的特性，那就是类比。如下图所示，我们对不同词的词向量进行运算可以得到有趣的结果：

vector(“国王”) - vector(“王后”) ≈ vector(“男人”) - vector(“女人”)

vector(“英国”) + vector(“首都”) ≈ vector(“伦敦”)