创新点:
①交互式的控制图片的变化

给定一对(handle point, target point),本方法以一种优化的方式执行图像操作。如上图所示,每个优化步骤由两个子步骤组成,包括
1)运动监督
2)点跟踪
在运动监督中,用一个损失来优化特征潜码w’使得handle point向target point移动。经过一个优化步骤后,我们得到了一个新的潜码w’和一个新的图像I’。该更新会导致图像中对象的轻微移动。然后更新handle point{??}的位置,以跟踪对象上相应的点。这个跟踪过程是必要的,因为如果handle point(例如,狮子的鼻子)没有被准确地跟踪,那么在下一个运动监督步骤中,错误的点(例如,狮子的脸)将被监督,导致不希望的结果。经过跟踪后,我们根据新的handle point和潜码,重复上述优化步骤。这个优化过程一直持续到handle point{??}到达target point{??}的位置,在我们的实验中,这通常需要30-200次迭代。
运动监督
如何监督一个GAN生成的图像的点运动,在以前还没有太多的探索。在这项工作中,我们提出了一个不依赖于任何附加的神经网络的运动监督损失。关键思想是,生成器的中间特征是非常容易区别的,一个简单的损失就足以监督运动。具体来说,我们考虑了StyleGAN2的第6块之后的特征图F,由于在分辨率和鉴别性之间有很好的权衡,它在所有特征中表现最好。

我们通过双线性插值调整F的大小以与最终图像有相同的分辨率。如上图所示,为了将handle point ??移动到target point ??,我们的想法是监督??周围的一个小斑块(红色圆圈),通过一个小步骤(蓝色圆圈)向??移动。我们使用Ω1(??,?1)来表示距离??小于?1的像素,那么我们的运动监督损失为:

第一项是让pi向pi+di移动,第二项是为了让没有mask的区域固定。
我们观察到图像的空间属性主要受前6层的?的影响,而其余的空间属性只影响外观。因此,我们只更新了前6层的?,同时固定了其他层以保持外观。
点跟踪
之前的运动监督产生了一个新的潜码?’,新的特征映射F’,和一个新的图像I’。由于运动监督步骤不容易提供handle point的精确新位置,我们在这里的目标是更新每个手柄点??,使它跟踪对象上的相应点。
具体来说,我们将初始handle point的特征表示为??=F0(??)。我们把??周围的patch表示为Ω2(??,?2)={(?,?)||?−?(?,?)|<?2,|?−?(?,?)|<?2}的一个正方形块。然后通过在Ω2(??,?2)中搜索??的最近邻,得到跟踪点:

通过这种方式,??将被更新为跟踪该对象。对于多个handle point,我们对每个点应用相同的过程。注意,这里我们也在考虑StyleGAN2的第6个块之后的特征映射F’。特征图的分辨率为256×256,如果需要,可以双线性插值到与图像相同的大小,这足以在我们的实验中进行准确的跟踪。
定性比较

定量比较
人脸landmark操作:从一张图的landmark移动到另一张图,达到表情迁移的效果。


缺陷
人体姿势移动一个原本不存在的姿势的时候,可能产生伪影
移动一个没有纹理的区域时,在跟踪过程可能会产生偏移。




