博士论文-基于生成对抗网络的图像合成-阅读笔记

1）摘要
2）绪论
3）相关工作
4）基于特征匹配条件生成对抗网络的图像合成(FM-CGAN)
5）基于条件变分生成对抗网络的图像合成(CVAE-GAN)
6）基于身份保持的生成对抗网络的人脸图像合成(IP-GAN)
7）总结与展望
参考文献

这是2019年中国科学技术大学的一篇博士论文，论文题目为基于生成对抗网络的图像合成，作者为鲍建敏，导师为李厚强教授和罗杰波教授。

1）摘要

图像合成是计算机视觉、计算机图形学等领域的重要研究方向，具有广泛应用：由文字生成图像、不同模态间图像转化、图像修复、编辑、去模糊、超分辨率等。当今合成图像的主要挑战是真实性、多样性和输入条件一致性。近年来生成对抗网络的出去虽提升了合成图像的真实性，但其本身存在的训练不稳定、收敛状态无法判断、模式坍缩等问题依然存在。
论文针对上述挑战提出了三个解决方案：
一是提出特征匹配损失函数，来解决生成对抗网络中训练训练不稳定的问题。
二是提出将编码网络加入到生成对抗网络的框架中，以解决生成对抗网络中模式坍缩的问题。
三是提出身份保持的生成对抗网络框架，以实现指定身份和属性的人脸图片合成。

2）绪论

a. 图像合成简介

图像合成是将对图新内容的理解转换回图像的过程。图像合成的两种形式：无条件输入的合成（从一个特定的隐空间分布出发合成图片）和有条件输入的合成（给定一个或多个条件，让合成的图片满足给定条件）。

b. 研究意义

研究角度看，图像合成是当前计算机视觉和计算机图形学中的研究热点。应用角度看，图像合成可以帮助人机之间更好的交互，帮助人类自动完成很多应用。

c. 主要难点

图像合成面临的最大的一个挑战是合成图像的真实性不足。图像合成的另一挑战来源于合成的图片的多样性有限。图像合成质量的评价标准是另一挑战，需要衡量的标准有：真实性，多样性和输入条件一致性。人为定义的数值衡量标准中有PSNR、SSIM、FID等。

d. 研究现状

图像合成中最关键的是合成模型，图像合成模型经历了是三个阶段：第一阶段是基于图像像素的图像合成模型。第二阶段是基于特征表达的图像合成模型。第三阶段是深度卷积神经网络的图像合成模型（GAN，VAE，PixelRNN，PixelCNN）。

e. 研究趋势

图像合成正在逐渐被用在越来越多的应用中，也逐渐向如何合成高分高质量的图片发展。同时在各种移动设备上，如何将图像合成技术用在流行的自拍等中也是一个研究热点，如何设计精确高效的图像合成算法也是被学术和工业界所关注的。

f. 主要创新点

本文的工作重点在于设计图像合成网络可以完成真实的，满足给定条件的图像合成。主要创新点如下：
提出了特征匹配损失函数，该损失函数改善了生成对抗网络的训练稳定性。
提出了一个新的条件变分生成对抗网络（CVAE-GAN）的训练框架，该框架将编码网络加入生成对抗网络的训练中以解决模式坍缩的问题。
提出了面向在开放数据集中的人脸合成的身份保持的生成对抗网络框架，该框架可以解耦人脸图片中的身份特征和属性特征，重组得到新的人脸图片。

g. 章节安排

3）相关工作

图像合成技术最核心的部分是图像合成模型的选择。

a. 图像合成模型

一个好的生成模型能够表达出真实的数据分布。本节介绍了很多图像合成模型：传统图像合成模型、变分自编码器、生成对抗模型、自回归模型和条件合成模型。

b. 生成对抗网络的改进

分三个方面介绍生成对抗网络的一些改进工作：损失函数的改进（WGAN,Least Sqare GAN,WGAN-gp）、模型结构的改进（DC-GAN,SNGAN,SA-GAN,Style based GAN）和训练方法的改进（PGGAN）。

c. 图像合成的应用与评价标准

文字到图片的转换；图片到图片的转换；图片的修复，编辑，去模糊和超分辨率；图像合成的评价标准。

4）基于特征匹配条件生成对抗网络的图像合成(FM-CGAN)

提出了特征匹配损失函数，该损失函数改善了生成对抗网络的训练稳定性。在训练中，对于判别网络，论文使用了和原始生成对抗网络中一样的二元交叉熵损失函数，时期保持判别能力。而对于生成网络，论文使用了特征匹配（Feature Matching）的损失函数，该损失函数要求生成图像和真实图像在判别网络中的特征中心靠近，这样解决了生成对抗网络原始损失函数中的梯度消失的问题，也就使得生成对抗网络的训练更加稳定。同时，该损失函数可以用在条件生成框架中，帮助合成模型在条件生成中合成更符合条件的图片。实验结果表明，该损失函数使生成对抗网络的训练更加稳定，提升了生成模型的合成图片的质量，帮助生成模型合成更加符合条件的图片。

5）基于条件变分生成对抗网络的图像合成(CVAE-GAN)

提出了一个新的条件变分生成对抗网络（CVAE-GAN）的训练框架，该框架将编码网络加入生成对抗网络的训练中以解决模式坍缩的问题。论文利用编码网络将图片空间映射到隐空间，再使用生成网络将隐空间映射回图片空间，因为原图片空间的分布中的图片是多样的，所以生成网络生成的图片也是多样的。这样解决了生成对抗网络的模式坍缩问题。实验结果表明，该框架改善了生成对抗网络的模式坍缩问题，同时可以完成很多应用：图片的修复、图片的渐变、相同属性的图片的检索、数据增强等。

6）基于身份保持的生成对抗网络的人脸图像合成(IP-GAN)

提出了面向在开放数据集中的人脸合成的身份保持和属性特征（角度，表情，光照等），然后重组该身份特征和从另外一张人脸图片提取的属性信息，将其输入进生成模型得到一张新的人脸图片。该人脸图片满足给定的身份特征，同时满足给定的属性特征。实验表明，该框架可以完成开放数据集中的人脸图片合成，同时可以完成很多应用：人脸属性转换、侧脸图片转换为正脸图片、人脸识别中对抗样本的检测等。

7）总结与展望

参考文献

[1] 鲍建敏. 基于生成对抗网络的图像合成[D]. 中国科学技术大学, 2019.
[2] Bao J, Chen D, Wen F, et al. CVAE-GAN: fine-grained image generation through asymmetric training[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2745-2754.
[3] Bao J, Chen D, Wen F, et al. Towards open-set identity preserving face synthesis[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6713-6722.

码字不易，如果您觉得有帮助，麻烦点个赞再走呗~