seq2seq+Attention(LSTM,transformer)

相对于普通的LSTM实现的seq2seq模型，在编码器的区别就是传递的隐状态不同。附加Attention的模型会将编码器所有时刻的隐状态作为一个矩阵传入解码器。解码器的大致结构如图：

假设编码器传入的矩阵为hs，解码器某LSTM节点生成的向量为h。此时，我们的目标是用数值表示这个 h 在多大程度上和 hs 的各个单词向量“相似”。有几种方法可以做到这一点，这里使用最简单的向量内积。

即是使用h向量与hs矩阵的行依次做内积然后softmax得到一个权重矩阵a。

得到a之后，按图示将其与hs矩阵的词向量相乘，得到的矩阵沿垂直方向相加，得到上下文向量c。这个上下文向量就是Attention的输出。

加深神经网络的技巧：残差网络

如图所示, 所谓残差连接, 就是指 “跨层连接”。此时, 在残差连接的连接处, 有两个输出被相加。请注意这个加法 (确切地说, 是对应元素的加法 ) 非常重要。因为加法在反向传播时 “按原样” 传播梯度, 所以残差连接中的梯度可以不受任何影响地传播到前一个层。这样一来, 即便加深了层, 梯度也能正常传播, 而不会发生梯度消失 (或者梯度爆炸 ), 学习可以顺利进行。

在时间方向上, RNN层的反向传播会出现梯度消失或梯度爆炸的问题。梯度消失可以通过 LSTM、GRU 等Gated RNN应对, 梯度爆炸可以通过梯度裁剪应对。而对于深度方向上的梯度消失, 这里介绍的残差连接很有效。

self-attention 和 transformer 参考下面两个链接。

参考：

《深度学习进阶：自然语言处理》

https://zhuanlan.zhihu.com/p/410776234

https://zhuanlan.zhihu.com/p/411311520