Text Infilling解读

多头自注意力token解码器,该解码器能够对过去和未来的信息进行condition处理,适合填充任务;自注意力机制尤其适合填充文本,因为它可以为每个空白处从左到右及从右到左双向建模,为全部语义进行有效编码。


论文提出的模型:在空白处顺序生成token的一个简单的单例自注意网络,每次在空白处生成一个token时,模型都会处理其他已知token(包括模板中已给token和其他已生成的token,如下图所示,其中token”Can I”是已经生成的token,在为下一个空白处生成token时,会将之前生成的token都填充进去)

 

 

上图是算法的训练过程:

输入:带有__m__标志的一句template,其中__m__表示需要填充文本,填充文本的token数量由模型决定

步骤:

1)按照__m__标志将template分成几块,记做segment ID,上图例子是分成了3块,则seg_Id={0,1,2}

2)每一块中会有多个token,此时计算每个token在一块内的偏移量offset,如上图中segment_Id = 0时,have的偏移量为2

3)定位一个token的位置的表示方法:(seg_id,offset),如上图,have 的位置表示为(0,2

4)将带有位置信息的groud truth 输入,放入template中,经过两次多头注意力网络,再经过一层前馈层,即可输出生成句子。

原文地址:https://www.cnblogs.com/mj-selina/p/11153584.html