论文泛读·Adversarial Learning for Neural Dialogue Generation

导读

　　这篇文章的主要工作在于应用了对抗训练（adversarial training）的思路来解决开放式对话生成（open-domain dialogue generation）这样一个无监督的问题。
　　其主体思想就是将整体任务划分到两个子系统上，一个是生成器（generative model），利用seq2seq式的模型以上文的句子作为输入，输出对应的对话语句；另一个则是一个判别器（discriminator），用以区分在前文条件下当前的问答是否是和人类行为接近，这里可以近似地看作是一个二分类分类器。两者结合的工作机理也很直观，生成器不断根据前文生成答句，判别器则不断用生成器的生成作为负例，原文的标准回答作为正例来强化分类。在两者训练的过程中，生成器需要不断改良答案来欺骗生成器，判别器则需要不断提高自身的判别能力从而区分机造和人造答案直至最后两者收敛达到某种均衡。
　　以往的模型受限于训练目标以及训练方式，其生成的结果往往是迟钝笼统的甚至都很简短（如果可以的话，所有的对话我都可以回答“呵呵”，很明显这样的回答是不符合常识的）。所以这样一种博弈式的训练方式来取代以往相对简单固定的概率似然来优化这样一种无监督的开放任务显然是很有意义的想法。不过这样的方法遇到困难也很明显，GAN和NLP一直八字不合，很难很好的融合。和之前的工作SeqGAN类似，这篇工作也采取了增强学习来规避GAN在NLP中使用的难点，并作出了更多的尝试。

补充知识：

　　生成器G就是一个seq2seq模型，输入是历史对话x，通过RNN来对语义进行向量表示再逐一生成回答的每个词，从而形成回答y
　判别器D是一个输入为历史对话x和回答y二元组的一个二分类器，使用了hierarchicalencoder，其中机造回答组合为负例Q−({x,y})，人造回答组合为正例Q+({x, y})。

主要解决了什么问题：

　　以 GAN 为目标，生成自然语言

在本任务中增强学习的一个很大的问题在于我们的估价都是针对一整个回答的，判别器只会给出一个近似于对或者不对的反馈。这样的模式存在一个很大的问题是，即使是很多被判断为有问题的句子，其中有很大一部分语言成分是有效的，如文中的例子“what’s yourname”，人类回答“I am John”，机器回答“I don’t know”。判别器会给出“I don’t know”是有问题的，但无法给出I是对的而后面的don’t know是错的，事实上机器没有回答he/she/you/they而是I本质上是需要一个肯定的正反馈的。

判别器只告诉机器对或错，却不告知哪部分对和哪部分错，这对训练带来了很大隐患。

采用了什么方法：

　　把序列评分拆开来算，这样就能算到前缀的评分，做到局部评价的反馈。为了防止训练过拟合，每次只是从正例和负例的子序列中随机选取一个来训练。Reward for EveryGeneration Step

Teacher Forcing模型：

　　在以往的工作中，D效果非常好而G的效果非常糟糕会带来训练效果的下降。试想一下一个G所有产生的答案都被D驳回了，在这段时间内G的所有反馈都是负反馈，G就会迷失从而不知道向什么方向优化会得到正反馈，所以理想的情况下G和D是交替训练上升的。

　　在控制D和G训练节奏的同时，这篇工作中又采用了一种类似强制学习的方式来尝试解决这个问题。每次在正常的增加学习后会让生成器强行生成正确答案并从D得到正向的反馈，从而每次都能有一个正向优化方向的指示。这样的行为类似于学校老师强行灌输知识，也很类似于之前的professor-forcing算法。

Policy Gradient Training模型:

　　文中模型采用了policy gradient的方法（增强学习的方式之一）来进行增强学习的训练。
　　优化目标是：
　　
　　优化目标导数：
　　

　　Q是判别器D的结果，换句话说判别器的鉴定结果可以看作是增强学习中的reward，policy gradient整体的优化目标其实就是希望回报高的决策其概率越高。在本任务中state为x，即历史对话；决策为y，即下一步的对话。x生成y的概率等于逐词生成的概率

Reward for EveryGeneration Step模型

该问题可以被概括为如下几部分：

　　给定一个对话输入序列x，该模型需要生成一个回应y。我们将sentence生成的过程视为一个动作序列(sequence of action)，将encoder-decoder模型视为一个策略（policy）。

参考文章