论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

5月 29, 2023 阅读 2291 字数 1334 评论 0 喜欢 0

创新点：
①交互式的控制图片的变化

给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括
1)运动监督
2)点跟踪
在运动监督中，用一个损失来优化特征潜码w’使得handle point向target point移动。经过一个优化步骤后，我们得到了一个新的潜码w’和一个新的图像I’。该更新会导致图像中对象的轻微移动。然后更新handle point{??}的位置，以跟踪对象上相应的点。这个跟踪过程是必要的，因为如果handle point（例如，狮子的鼻子）没有被准确地跟踪，那么在下一个运动监督步骤中，错误的点（例如，狮子的脸）将被监督，导致不希望的结果。经过跟踪后，我们根据新的handle point和潜码，重复上述优化步骤。这个优化过程一直持续到handle point{??}到达target point{??}的位置，在我们的实验中，这通常需要30-200次迭代。

运动监督

如何监督一个GAN生成的图像的点运动，在以前还没有太多的探索。在这项工作中，我们提出了一个不依赖于任何附加的神经网络的运动监督损失。关键思想是，生成器的中间特征是非常容易区别的，一个简单的损失就足以监督运动。具体来说，我们考虑了StyleGAN2的第6块之后的特征图F，由于在分辨率和鉴别性之间有很好的权衡，它在所有特征中表现最好。

我们通过双线性插值调整F的大小以与最终图像有相同的分辨率。如上图所示，为了将handle point ??移动到target point ??，我们的想法是监督??周围的一个小斑块（红色圆圈），通过一个小步骤（蓝色圆圈）向??移动。我们使用Ω1（??，?1）来表示距离??小于?1的像素，那么我们的运动监督损失为：

第一项是让pi向pi+di移动，第二项是为了让没有mask的区域固定。