Text Infilling解读

多头自注意力token解码器，该解码器能够对过去和未来的信息进行condition处理，适合填充任务；自注意力机制尤其适合填充文本，因为它可以为每个空白处从左到右及从右到左双向建模，为全部语义进行有效编码。

论文提出的模型：在空白处顺序生成token的一个简单的单例自注意网络，每次在空白处生成一个token时，模型都会处理其他已知token(包括模板中已给token和其他已生成的token，如下图所示，其中token”Can I”是已经生成的token,在为下一个空白处生成token时，会将之前生成的token都填充进去)

上图是算法的训练过程：

输入：带有__m__标志的一句template，其中__m__表示需要填充文本，填充文本的token数量由模型决定

步骤：

1）按照__m__标志将template分成几块，记做segment ID，上图例子是分成了3块，则seg_Id={0,1,2}，

2)每一块中会有多个token，此时计算每个token在一块内的偏移量offset，如上图中segment_Id = 0时，have的偏移量为2；

3)定位一个token的位置的表示方法：（seg_id,offset），如上图，have 的位置表示为（0,2）

4）将带有位置信息的groud truth 输入，放入template中，经过两次多头注意力网络，再经过一层前馈层，即可输出生成句子。