測試

谷歌研究人员在《Universal Transformers》一文中使用一种新型高效的时间并行循环（parallel-in-time recurrence）方式（可在更广泛任务上产生更强大的结果）把标准 Transformer 扩展为计算通用（图灵完备）模型。研究者将该模型建立在 Transformer 的并行结构上，以保持其快速的训练速度。但是他们用单一、时间并行循环的变换函数的多次应用代替了 Transformer 中不同变换函数的固定堆叠（即，相同的学习变换函数在多个处理步骤中被并行应用于所有符号，其中每个步骤的输出馈入下一个）。关键在于，RNN 逐个符号（从左到右）处理序列，而 Universal Transformer 同时处理所有符号（像 Transformer 一样），然后使用自注意力机制在循环处理步骤（步骤数量可变）上，对每个符号的解释进行改进。这种时间并行循环机制比 RNN 中使用的顺序循环（serial recurrence）更快，也使得 Universal Transformer 比标准前馈 Transformer 更强大。

Universal Transformer 模型使用自注意力机制结合不同位置的信息，应用循环变换函数，以并行化方式重复为序列的每个位置细化一系列向量表征（如图自 h_1 到 h_m）。箭头表示操作间的依赖关系。