Tranformer模型学习

全部采用self-attention 层进行编码，引入三个变换矩阵，得到Q K V向量，然后利用词与词之间Q K相乘的结构进行注意力计算，将权重系数乘以V就是新的词向量表示。

位置向量

self-attention计算并没有考虑位置信息，如果将K，V的顺序打乱，获得的Attention的结果还是一样的，因此要引入位置嵌入
位置嵌入的维度和字向量的维度一致，将每个位置编号，然后每个编号对应这一向量，最后将该向量和词向量相加（注意是相加而不是拼接），这样就给每个词引入了一定的位置信息。

我们在上一步得到了经过注意力矩阵加权之后的(V), 也就是(Attention(Q, K, V)), 我们对它进行一下转置, 使其和(X_{embedding})的维度一致, 也就是([batch size, sequence length, embedding dimension]), 然后把他们加起来做残差连接, 直接进行元素相加, 因为他们的维度一致

作用是吧神经网络中的隐藏层归一化为标准正太分布，也就是(i.i.d)独立同分布，以起到加快训练速度，加速收敛的过程，
[mu_{i}=frac{1}{m} sum^{m}_{i=1}x_{ij}$$ 上式中以矩阵的行$(row)$为单位求均值 ]
(x_{ij}-mu_{j})^{2}$$ 上式中以矩阵的行((row))为单位求方差; $$LayerNorm(x)=alpha odot frac{x_{ij}-mu_{i}}
{sqrt{sigma^{2}_{i}+epsilon}} + eta ag{eq.6}$$ 然后用每一行的每一个元素减去这行的均值, 再除以这行的标准差, 从而得到归一化后的数值, (epsilon)是为了防止除(0);
之后引入两个可训练参数(alpha, eta)来弥补归一化的过程中损失掉的信息, 注意(odot)表示元素相乘而不是点积, 我们一般初始化(alpha)为全(1), 而(eta)为全(0).　
[X_{attention} = X + X_{attention} ]
[X_{attention} = LayerNorm(X_{attention}) ]

[X_{hidden} = X_{attention} + X_{hidden} ]
[X_{hidden} = LayerNorm(X_{hidden}) ]
[X_{hidden} in mathbb{R}^{batch size * seq. len. * embed. dim.} ]