论文阅读笔记Designing an Encoder for StyleGAN Image Manipulation

一、contributions

(1)我们分析了StyleGAN的复杂latent space，并对其结构提出了新的看法。

(2)我们展示了distortion扭曲(失真、歪曲、变形)、感知perception和可编辑性editability之间固有的权衡。

(3)我们描述了这些权衡，并设计了两种编码器来控制它们。

(4)我们提出了e4e，一种新颖的编码器，它是专门设计的，允许后续的倒装真实图像编辑。

二、method

图片逆映射接近W空间的encoder是好的

一个好的encoder，需要输出空间接近W空间。想要做到这一点：

可以优化每个风格向量的方差，让其尽量小，极限的情况是完全一样；
并足够接近stylegan的w空间

三、evaluation metrics

1、除了展示的大型图库，我们还提供了用户研究的结果，以评估人类的主观意见。我们通过测量真实图像和重建图像之间的FID[16]和SWD[30]来定量评价结果

2、我们将可编辑性定义为使用任意技术执行潜空间编辑的能力，同时保持使用经过编辑的潜代码获得的图像的高视觉质量。为此，我们使用一些现有的编辑技术来遵循我们的倒置方法:StyleFlow[3]， InterFaceGAN [34]， GANSpace[14]和SeFa[35]。在进行反演之后，我们将这些技术应用到人类面部领域的语义编码中，如姿势、性别和年龄。然后，我们从编辑的代码中生成图像，并评估生成的图像的感知质量。我们再次为读者提供大量的视觉样本，并进行用户研究。为了进一步量化这些结果，我们还采用FID和swd措施来比较原始图像和编辑图像的分布。请注意，FID和SWD衡量的是重构和可编辑性的感知质量。区别在于测量它们的分布。

3、在这里，我们提出了一种新的评价方法，我们称之为潜编辑一致性(LEC)，它结合了GAN反演方法的两个关键组成部分，意味着潜空间编辑。一个捕获反转与生成器的真实反转匹配的程度，第二个捕获反转输出的编辑有多好。这种措施的协议如图7所示。我们直观地研究了输入和输出图像之间的区别，并定量地定义了潜在空间b的距离