论文笔记——In-Domain GAN Inversion for Real Image Editing

论文笔记——In-Domain GAN Inversion for Real Image Editing

3月 20, 2022 阅读 1890 字数 576 评论 0 喜欢 0

一个对于图像生成GAN逆转域的研究(GAN反演)


以前方法存在的问题:只能把图像逆转为像素,而不是原始的潜在空间(latent space)

创新点:
①可以在语义空间上对latent code编辑再让GAN生成对应图像
②域引导编码器,把图像投影到StyleGAN的潜在空间
③域正则化优化

GAN的反演主要分为两类:

  • 第一类是把GAN生成的图像和产生他的随机潜在代码作为输入和监督来训练一个网络
  • 第二类是基于优化的,每次处理一个实例,通过直接优化潜在代码来最小化像素级重建损失(摸索着找到一个接近的潜在代码)

网络结构



(a)表示GAN反演中,传统卷积编码器和域引导的编码器的比较。蓝色块表示可训练的,红色虚线表示监督。传统网络(上方)采用生成后的图像训练编码器E。本文的网络E采用真实图像训练编码器E,因此称为域引导编码器。生成器G不可训练,因为要保证E生成的语义不因为G改变而变。(作者认为G生成的图像不足以训练E)
(b)表示传统的卷积优化器与本文的域正则化优化器之间的比较。在优化过程中,将训练良好的域引导编码器作为正则化器,将潜在代码引入语义域。(正推再逆推的loss)

损失函数


其中F表示VGG的特征提取模型(用于计算感知损失LPIPS),Pdata表示真实数据的分布,γ表示梯度正则化的超参,λ分布表示感知和判别器的损失权重。

域正则化优化器


x是要反演的目标图像。

发表评论

您的电子邮箱地址不会被公开。