论文笔记——[CVPR2022]StyleSwin: Transformer-based GAN for High-resolution Image Generation

论文笔记——[CVPR2022]StyleSwin: Transformer-based GAN for High-resolution Image Generation

6月 8, 2022 阅读 2215 字数 583 评论 0 喜欢 0

创新点:
①双重关注,同时利用局部窗口和移动窗口的上下文
②充分利用了窗口中的绝对位置知识(正弦位置编码)
③用小波鉴别器(wavelet discriminator)来检查光谱差异,这有效地抑制了伪影

主要结构


整体结构类似采用styleGAN的结构,但是一个纯transformer的超分GAN网络。
图(a)表示原始的生成器结构,特征潜码z服从(0,1)正态分布

图(b)是作者提出的StyleSwin结构,通过一个额外的Norm和8个FC层,把原始的特征进行初步处理

图(c)是Double Attn分别利用分裂头关注局部和移位的窗口,扩大了transformer块的接受域

全局位置编码

作者认为让transformer了解绝对位置是必要的,比如嘴巴,高度依赖于空间坐标。
基于此,作者提出基于正弦位置编码的全局位置编码,在每次上采样完之后加到特征上。

改编自原始transformer,从1D拓展到2D,其中
w_k=1/10000^{2k},(i, j)代表2D的位置。

小波鉴别器去除伪影

作者认为伪影的出现是因为transformer以块的方式独立计算注意力,破坏了空间一致性。然后作者发现一个小波鉴别器检查光谱域中的伪影可以有效地抑制伪影。


DWT:离散小波变换

参数量

结果


代码:https://github.com/microsoft/StyleSwin

发表评论

您的电子邮箱地址不会被公开。