论文笔记——[CVPR2022]StyleSwin: Transformer-based GAN for High-resolution Image Generation

论文笔记——[CVPR2022]StyleSwin: Transformer-based GAN for High-resolution Image Generation

6月 8, 2022 阅读 2215 字数 583 评论 0 喜欢 0

创新点：
①双重关注，同时利用局部窗口和移动窗口的上下文
②充分利用了窗口中的绝对位置知识(正弦位置编码)
③用小波鉴别器(wavelet discriminator)来检查光谱差异，这有效地抑制了伪影

主要结构

整体结构类似采用styleGAN的结构，但是一个纯transformer的超分GAN网络。
图(a)表示原始的生成器结构，特征潜码z服从(0,1)正态分布

图(b)是作者提出的StyleSwin结构，通过一个额外的Norm和8个FC层，把原始的特征进行初步处理

图(c)是Double Attn分别利用分裂头关注局部和移位的窗口，扩大了transformer块的接受域

全局位置编码

作者认为让transformer了解绝对位置是必要的，比如嘴巴，高度依赖于空间坐标。
基于此，作者提出基于正弦位置编码的全局位置编码，在每次上采样完之后加到特征上。

改编自原始transformer，从1D拓展到2D，其中
$w_k=1/10000^{2k}$ ，(i, j)代表2D的位置。

小波鉴别器去除伪影

作者认为伪影的出现是因为transformer以块的方式独立计算注意力，破坏了空间一致性。然后作者发现一个小波鉴别器检查光谱域中的伪影可以有效地抑制伪影。

DWT:离散小波变换

参数量

结果

代码：https://github.com/microsoft/StyleSwin

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers
创新点： ①提升性能，相比ViT-S参数更少的情况下精度更高 ②transformer和CNN的混合网络，利用transformer来捕获远程特征关系，CNN捕获局部特征关系 CMT (CNNs meet transformers) 整体结构图(a)是ResNet-50模型图(b)是ViT-S结构，MHSA代表多头自注意力机制，但是输...
论文笔记——[CVPR workshop 2022]Transformer for Single Image Super-Resolution
创新点： ①由轻量CNN主干Lightweight CNN Backbone(LCB)和轻量Transformer主干Lightweight Transformer Backbone(LTB)构成 ②LCB可以动态调节特征图的大小，LTB是减少了计算量的Transformer结构 ③设计了一个高频滤波模块（HFM）来捕获图像的纹理细节网...
论文笔记——[AAAI 2022]Less is More: Pay Less Attention in Vision Transformers
创新点： ①在浅层用MLP编码局部特征 ②在深层用自注意力捕获长距离依赖 ③可变形的token融合模块，以非均匀的方式自适应地融合patch。特点：减少计算成本动机：先前在CNNs和Transformers上的研究表明，浅层关注局部特征，而更深层则倾向于捕获高级语义或全局关系。因此作者认为在早期不必要采用Transformers。 ...
论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
创新点： ①交互式的控制图片的变化给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括 1)运动监督 2)点跟踪在运动监督中，用一个损失来优化特征潜码w'使得handle point向target point移动。经过一个优化步骤后，我们得...
论文笔记——Local-to-Global Self-Attention in Vision Transformers
创新点： ①多尺度图像多路径的Transformer，最后汇总以保证局部和全局特征提取 ②每个stage多粒度从局部到整体的推理 CNN的多粒度连接：每个阶段分辨率除以4(2*2)，channel乘以2，最后输出[katex]H/32*W/32[/katex] 在经过LN层之后，分别通过三个路径降采样，之后每个特征图都采用基于窗口的多头...
StyleGAN和StyleGAN2
StyleGAN StyleGAN是由Nvidia研究人员于2018年12月推出的生成对抗网络，并于2019年2月可用。 StyleGAN依赖于Nvidia的CUDA软件，GPU和Google的TensorFlow。 StyleGAN的第二个版本（称为StyleGAN2）于2020年2月5日发布。它消除了一些特征性伪影并提高了图像质量。 ...
论文笔记——[CVPR 2022 Oral]Restormer: Efficient Transformer for High-Resolution Image Restoration
创新点： ①解决高分辨率图像的图像恢复任务中transformer复杂度高的问题 ②在图像运动去模糊，去焦去模糊，图像去噪（高斯灰度/颜色去噪，和真实图像去噪）任务中取得sota ③self-attention中采用通道做乘法 ④前馈网络的创新，采用门控网络 ⑤网络早期用小patch大batch，逐渐到后期大patch小batch，很好地...