论文阅读笔记Designing an Encoder for StyleGAN Image Manipulation

一、contributions

(1)我们分析了StyleGAN的复杂latent space,并对其结构提出了新的看法。

(2)我们展示了distortion扭曲(失真、歪曲、变形)、感知perception和可编辑性editability之间固有的权衡。

(3)我们描述了这些权衡,并设计了两种编码器来控制它们。

(4)我们提出了e4e,一种新颖的编码器,它是专门设计的,允许后续的倒装真实图像编辑。

二、method

 图片逆映射接近W空间的encoder是好的

一个好的encoder,需要输出空间接近W空间。想要做到这一点:

  • 可以优化每个风格向量的方差,让其尽量小,极限的情况是完全一样;
  • 并足够接近stylegan的w空间

三、evaluation metrics

1、除了展示的大型图库,我们还提供了用户研究的结果,以评估人类的主观意见。我们通过测量真实图像和重建图像之间的FID[16]和SWD[30]来定量评价结果

2、我们将可编辑性定义为使用任意技术执行潜空间编辑的能力,同时保持使用经过编辑的潜代码获得的图像的高视觉质量。为此,我们使用一些现有的编辑技术来遵循我们的倒置方法:StyleFlow[3], InterFaceGAN [34], GANSpace[14]和SeFa[35]。在进行反演之后,我们将这些技术应用到人类面部领域的语义编码中,如姿势、性别和年龄。然后,我们从编辑的代码中生成图像,并评估生成的图像的感知质量。我们再次为读者提供大量的视觉样本,并进行用户研究。为了进一步量化这些结果,我们还采用FID和swd措施来比较原始图像和编辑图像的分布。请注意,FID和SWD衡量的是重构和可编辑性的感知质量。区别在于测量它们的分布。

3、在这里,我们提出了一种新的评价方法,我们称之为潜编辑一致性(LEC),它结合了GAN反演方法的两个关键组成部分,意味着潜空间编辑。一个捕获反转与生成器的真实反转匹配的程度,第二个捕获反转输出的编辑有多好。这种措施的协议如图7所示。我们直观地研究了输入和输出图像之间的区别,并定量地定义了潜在空间b的距离

原文地址:https://www.cnblogs.com/h694879357/p/15514689.html