transformer

Transformer 是一类使用注意力机制(self-attention)加速运算的模型. 由 attention is all you need一文提出（google，NIPS，2017）

transformer实现

1、基于encoder-decoder的架构。encoder和decoder均为6层结构。

encoder有两个子层(sublayer)， multi-head attention 和 point wise fc.

decoder有三个子层，masked multi-head attention、multi-head attention(用来处理encoder输出) 和 point wise fc.

2、特点：

仅使用attention结构，没有使用循环神经网络or卷积
能够大幅缩短模型训练时间

3、结构

transformer子结构：

multi-head attention

1)scale dot-product attention

attention输入：query, key, value

计算方法：query和key计算weight，weight和value做matmul获取attention的输出；

作者认为，当d_k较大时，会把点积结果推向softmax的梯度平缓区，影响了模型训练的稳定性。

因此，在做softmax之前加一个尺度因子，网络为scaled dot production attention.

2)multi-head attention

计算方法：

1.query, key, value经过线性投影，获取不同子空间的表示；

2.每个子空间的Q, K, V做attention

3.把attention的结果拼接（concat），然后做线性变换（linear）即可获取multi-head attention的结果

position wise feedforward network

计算方法：FFN ---> ReLu ---> FFN

1.position wise是因为处理的是第i个位置的attention输出，FFN分别作用在每个position

2.同一层内，FFN的网络参数是相同的。在不同层，FFN的参数不同。

FFN(x) = max(0, xW1+b1)W2 + b2

3.attention输出维度d_model=512，经过position wise fc, W1的维度为d_model*d_ff, W2的维度为d_ff*d_model, d_ff={1024, 2048, 4096}

相当于：每个位置attention的结果映射到更大维度的特征空间，然后通过ReLu整流筛选，最后经过fc还原至原来的维度。

Layer Normalization

transformer中每一个子结构均使用了残差连接（res Add）和归一化（Layer Normalization ，2016）,每个子层输出： LayerNorm(x + Sublayer(x)).

layer norm好处：

① 分布平移后，让激活值落在 f() 梯度敏感的区间，梯度值大，增加训练速度；

② 将数据"白化"，消除极端值，提升训练稳定性

③ 梯度敏感区间内隐层输出接近线性，模型表达能力下降。使用增益g_i和b_i增加模型表达能力。

④ Norm 通常放在非线性函数之前。transformer的非线性在self-attention的softmax和FFN的ReLu。把LN设置在每个子层的输出，不是为了让激活值落在梯度敏感的区间，更重要的目的是为了"白化"，让每个词的向量化数值更加均衡，以消除极端情况对模型的影响，获得更稳定的深层网络结构。在和之前的 TWWT 实验一样的配置中，删除了全部的 LN 层后模型不再收敛。LN 正如 LSTM 中的tanh，它为模型提供非线性以增强表达能力，同时将输出限制在一定范围内。因此，对于 Transformer 来说，LN 的效果已经不是“有多好“的范畴了，而是“不能没有”。

batch norm 和 layer norm 区别：

BN是在一个batch内，统计某个特定神经元节点的输出分布（跨样本）；

LN是在一次迭代中，统计同一层所有神经元节点的输出分布（同一样本）；