word2vec原理(二) 基于Hierarchical Softmax的模型

在word2vec原理(一) CBOW与Skip-Gram模型基础中，我们讲到了使用神经网络的方法来得到词向量语言模型的原理和一些问题，现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。由于word2vec有两种改进方法，一种是基于Hierarchical Softmax的，另一种是基于Negative Sampling的。本文关注于基于Hierarchical Softmax的改进方法，在下一篇讨论基于Negative Sampling的改进方法。

1. 基于Hierarchical Softmax的模型概述

　　　　我们先回顾下传统的神经网络词向量语言模型，里面一般有三层，输入层（词向量），隐藏层和输出层（softmax层）。里面最大的问题在于从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值。这个模型如下图所示。其中 $V$

　　　　word2vec对这个模型做了改进，首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。比如输入的是三个4维词向量： $(1, 2, 3, 4), (9, 6, 11, 8), (5, 10, 7, 12)$

　　　　第二个改进就是从隐藏层到输出的softmax层这里的计算量个改进。为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。我们在上一节已经介绍了霍夫曼树的原理。如何映射呢？这里就是理解word2vec的关键所在了。

　　　　由于我们把之前所有都要计算的从输出softmax层的概率计算变成了一颗二叉霍夫曼树，那么我们的softmax概率计算只需要沿着树形结构进行就可以了。如下图所示，我们可以沿着霍夫曼树从根节点一直走到我们的叶子节点的词 $w_{2}$

　　　　和之前的神经网络语言模型相比，我们的霍夫曼树的所有内部节点就类似之前神经网络隐藏层的神经元,其中，根节点的词向量对应我们的投影后的词向量，而所有叶子节点就类似于之前神经网络softmax输出层的神经元，叶子节点的个数就是词汇表的大小。在霍夫曼树中，隐藏层到输出层的softmax映射不是一下子完成的，而是沿着霍夫曼树一步步完成的，因此这种softmax取名为"Hierarchical Softmax"。

　　　　如何“沿着霍夫曼树一步步完成”呢？在word2vec中，我们采用了二元逻辑回归的方法，即规定沿着左子树走，那么就是负类(霍夫曼树编码1)，沿着右子树走，那么就是正类(霍夫曼树编码0)。判别正类和负类的方法是使用sigmoid函数，即：

P (+) = σ (x T w θ) = 1 1 + e - x T w θ

　　　　其中 $x_{w}$

　　　　使用霍夫曼树有什么好处呢？首先，由于是二叉树，之前计算量为 $V$

　　　　容易理解，被划分为左子树而成为负类的概率为 $P (-) = 1 - P (+)$

　　　　对于上图中的 $w_{2}$

　　　　回到基于Hierarchical Softmax的word2vec本身，我们的目标就是找到合适的所有节点的词向量和所有内部节点 $θ$

2. 基于Hierarchical Softmax的模型梯度计算

　　　我们使用最大似然法来寻找所有节点的词向量和所有内部节点 $θ$

\prod i = 1 3 P (n (w i), i) = (1 - 1 1 + e - x T w θ 1 ) ( 1 -

　　　　对于所有的训练样本，我们期望最大化所有样本的似然函数乘积。

　　　　为了便于我们后面一般化的描述，我们定义输入的词为 $w$

　　　　定义 $w$

P (d w j | x w, θ w j - 1) = {σ (x T w θ w j - 1) 1 -

　　　　那么对于某一个目标输出词 $w$

\prod j = 2 l w P (d w j | x w, θ w j - 1) = \prod j = 2 l w

　　　　在word2vec中，由于使用的是随机梯度上升法，所以并没有把所有样本的似然乘起来得到真正的训练集最大似然，仅仅每次只用一个样本更新梯度，这样做的目的是减少梯度计算量。这样我们可以得到 $w$

L = l o g \prod j = 2 l w P (d w j | x w, θ w j - 1) = \sum j = 2

　　　　要得到模型中 $w$

\partial L \partial θ w j - 1 = ( 1 - d w j ) ( σ ( x T w θ w

　　　　如果大家看过之前写的逻辑回归原理小结，会发现这里的梯度推导过程基本类似。

　　　　同样的方法，可以求出 $x_{w}$

\partial L \partial x w = ( 1 - d w j - σ ( x T w θ w j - 1 ) ) θ w j - 1

　　　　有了梯度表达式，我们就可以用梯度上升法进行迭代来一步步的求解我们需要的所有的 $θ_{j - 1}^{w}$

3. 基于Hierarchical Softmax的CBOW模型

　　　　由于word2vec有两种模型：CBOW和Skip-Gram,我们先看看基于CBOW模型时， Hierarchical Softmax如何使用。

　　　　首先我们要定义词向量的维度大小 $M$

　　　　在做CBOW模型前，我们需要先将词汇表建立成一颗霍夫曼树。

　　　　对于从输入层到隐藏层（投影层），这一步比较简单，就是对 $w$

x w = 1 2 c \sum i = 1 2 c x i

　　　　第二步，通过梯度上升法来更新我们的 $θ_{j - 1}^{w}$

θ w j - 1 = θ w j - 1 + η (1 - d w j - σ (x T w θ w j - 1)) x w

x w = x w + η (1 - d w j - σ (x T w θ w j - 1)) θ w j - 1

　　　　其中 $η$

　　　　这里总结下基于Hierarchical Softmax的CBOW模型算法流程，梯度迭代使用了随机梯度上升法：

　　　　输入：基于CBOW的语料训练样本，词向量的维度大小 $M$

　　　　输出：霍夫曼树的内部节点模型参数 $θ$

　　　　1. 基于语料训练样本建立霍夫曼树。

　　　　2. 随机初始化所有的模型参数 $θ$

　　　　3. 进行梯度上升迭代过程，对于训练集中的每一个样本 $(c o n t e x t (w), w)$

　　　　　　a) e=0，计算 $x_{w} = \frac{1}{2 c} \sum_{i = 1}^{2 c} x_{i}$

　　　　　　b) for j = 2 to $l_{w}$

f = σ (x T w θ w j - 1)

g = (1 - d w j - f) η

e = e + g θ w j - 1

θ w j - 1 = θ w j - 1 + g x w

　　　 c) 对于 $c o n t e x t (w)$

x i = x i + e

　　　　　　d) 如果梯度收敛，则结束梯度迭代，否则回到步骤3继续迭代。

4. 基于Hierarchical Softmax的Skip-Gram模型

　　　　现在我们先看看基于Skip-Gram模型时， Hierarchical Softmax如何使用。此时输入的只有一个词 $w$

　　　　我们对于训练样本中的每一个词，该词本身作为样本的输入，其前面的 $c$

　　　　Skip-Gram模型和CBOW模型其实是反过来的，在上一篇已经讲过。

　　　　在做CBOW模型前，我们需要先将词汇表建立成一颗霍夫曼树。

　　　　对于从输入层到隐藏层（投影层），这一步比CBOW简单，由于只有一个词，所以，即 $x_{w}$

　　　　第二步，通过梯度上升法来更新我们的 $θ_{j - 1}^{w}$

　　　　这里总结下基于Hierarchical Softmax的Skip-Gram模型算法流程，梯度迭代使用了随机梯度上升法：

　　　　输入：基于Skip-Gram的语料训练样本，词向量的维度大小 $M$

　　　　输出：霍夫曼树的内部节点模型参数 $θ$

　　　　1. 基于语料训练样本建立霍夫曼树。

　　　　2. 随机初始化所有的模型参数 $θ$

　　　　3. 进行梯度上升迭代过程，对于训练集中的每一个样本 $(w, c o n t e x t (w))$

　　　　　　a) for i =1 to 2c:

　　　　　　　　i) e=0

ii)for j = 2 to $l_{w}$

f = σ (x T i θ w j - 1)

g = (1 - d w j - f) η

e = e + g θ w j - 1

θ w j - 1 = θ w j - 1 + g x i

　　　　　　　　iii)

x i = x i + e

　　　　　　b)如果梯度收敛，则结束梯度迭代，算法结束，否则回到步骤a继续迭代。

5. Hierarchical Softmax的模型源码和算法的对应　　　　

　　　　这里给出上面算法和word2vec源码中的变量对应关系。

　　　　在源代码中，基于Hierarchical Softmax的CBOW模型算法在435-463行，基于Hierarchical Softmax的Skip-Gram的模型算法在495-519行。大家可以对着源代码再深入研究下算法。

　　　　在源代码中，neule对应我们上面的 $e$

　　　　另外，vocab[word].code[d]指的是，当前单词word的，第d个编码，编码不含Root结点。vocab[word].point[d]指的是，当前单词word，第d个编码下，前置的结点。

　　　　以上就是基于Hierarchical Softmax的word2vec模型，下一篇我们讨论基于Negative Sampling的word2vec模型。