Attention+Transformer

Attention

https://arxiv.org/pdf/1706.03762.pdf
网上博客很多,但讲Attention有两个版本

  1. Q、K、V结构。https://www.cnblogs.com/cx2016/p/12800385.html
  2. 从注意力机制开始讲。比如《深度学习》

《动手学深度学习》里把这两个串到一起了,很不错。
Q代表解码器的每一层,K、V代表编码器每一层的隐藏变量。Q、K、V形式是把Anntetion进行矢量化,方便计算。

Transformer

原文地址:https://www.cnblogs.com/wa007/p/13909777.html