论文阅读笔记CycleConsistent Inverse GAN for TexttoImage Synthesis

一、contributions

（1）我们提出了一种结合GAN反转和循环一致性训练的新颖GAN方法，用于文本到图像的合成。统一的框架可用于文本图像生成和基于文本的图像处理任务。

（2）我们使用改进的GAN反转方法和循环一致性训练，将真实图像反转到GAN最新空间，并获得图像的潜在代码

（3）我们uncover(发现，揭示)了潜在代码的语义，在此基础上我们可以生成与文本描述相对应的高质量图像

二、method

（1）第1阶段：我们训练一个没有文本输入的StyleGAN模型。StyleGan模型可以将随机噪声空间Z映射到Style潜伏空间W，该潜伏空间W已被证明与各种图像特性更加分离。

（2）第2阶段：我们建议使用循环一致性训练来学习GAN反转编码器，因此，我们可以反转真实图像并获得相应的潜在代码SW′。

（3）第3阶段：我们学习了一个潜在空间对齐模型，将文本特征ST与相应的反向潜在代码SW′对齐，在这里我们训练文本编码器(·).

三、evaluation metrics

我们使用初始分数（IS）和弗里切特初始距离（FID）的定量评估指标。具体地说，本文通过预训练的Inception-V3网络计算了条件分布和预测图像标签的边缘分布之间的Kullback-Leibler（KL）差异。越高表示该模型可以生成更多样化和真实的图像。然而，在某些文本到图像的情况下，IS可能无法反映生成的图像质量。因此，我们也使用FID进行评估，它更稳健，与人类定性评估一致。FID计算预测的Inception-V3网络特征空间中真实图像和生成图像分布之间的Fréchet初始距离