Transformer

流程图:

 self-attention:

矩阵运算:

Q*K:

V*(QK): 

整体过程:

原文地址:https://www.cnblogs.com/cxhzy/p/14407047.html