Attention

https://arxiv.org/pdf/1706.03762.pdf
网上博客很多，但讲Attention有两个版本

《动手学深度学习》里把这两个串到一起了，很不错。
Q代表解码器的每一层，K、V代表编码器每一层的隐藏变量。Q、K、V形式是把Anntetion进行矢量化，方便计算。

Transformer

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/wa007/p/13909777.html