背景

很多当前的NLP系统和技术都把单词像ont-hot一样当做原子性的一个概念去对待，单纯就是一个索引，无法表示词之间的相似性。原因就是往往一个简单的、鲁棒的、可观测的模型在海量数据集上的学习效果要优于一个复杂模型在少量数据集上的学习效果。

然而，基于简单技术的模型有以下缺陷：比如语音识别和机器翻译等NLP任务，获取海量的可用数据是相当困难的，必须从根本上改进技术，使得利用海量的数据进行学习向量表示的成本更低更有效。

这几年基于神经网络的分布式词向量表示学习获得了不错的表现，超越了N-gram模型。

本文目的

介绍一种新的方法，其可以史无前例的在十亿量级的单词量及百万级的词典规模上学习出高质量的词向量表示。

惊喜的是，其不仅可以表示此之间的相似性及此法规则，还可以表达词语之间简单的代数计算，比如：vector(King)-vector(Queen) = vector(Man)-vector(Woman)

本文通过开发新的模型结构尝试最大化以上操作包括词法的准确率。我们设计了一个新的测试集来测量词法和句法、语义的准确性。此外也讨论了训练时间对词向量维度与数据量的依赖。

模型复杂度为：

Q = N*D + N*D*H + H*V

N是输入模型的词序列的长度，即词个数

D是词向量维度

H是隐藏层的节点数

V是词典大小

其中，计算量占大头的是隐藏层到输出层的H*V，词典都比较大，这一层的计算量也很大。为避免昂贵的计算，这一层通常用 hierarchical softmax来做输出，这一层的复杂度可以降低至log2(V)。因此，整个模型的复杂度通常为 N*D*H。

在我们的模型中，使用了霍夫曼二叉树的hierarchical softmax来做输出层，详见霍夫曼二叉树。

模型复杂度

Q = H*H + H*V

H是隐藏层节点数
V是词向量维度
同理，H*V的复杂度可通过hierarchical softmax降低至log2(V)，只要的计算复杂度来源于H*H。

在大规模分布式集群进行多机多核并行训练。

以上分析可知，模型复杂度通常集中在非线性隐藏层，下面两个模型在此处做了改进。

模型结构如上图所示

使用w(t)上下文的词w(t-2), w(t-1), w(t+1), w(t+1)预测当前词w(t)。
去掉隐藏层，词序列通过Embedding层得到词向量后求平均，然后接 softmax 输出层。当输入词序打乱后求平均得到的值是一样的，因此本质上是一个词袋模型。

模型复杂度：

Q = N*D +D*log2(V)

模型结构如上图所示

模型复杂度

Q = C*(D + D*log2(V))

C代表取当前周围词的最大距离，本片文章取C=10。

可以看到，在以上实验中，CBOW和skip-gram对以往模型无论是精度还是训练速度上都是碾压姿态。

通过Paris - France + Italy = Rome这种计算方法来寻找具有某种关系的word pairs。sklip-gram在783M语料、300维词向量的设定上训练的词向量，案例如下，准去率60%左右，相信在更大的语料和更高的词向量维度上可以取得更优异的表现。

构建了两个复杂度更加简单的词向量模型
复杂度简单，得以在更大规模的语料上进行训练，从而训练得到更高质量的词向量。