论文笔记——[CVPR2022]StyleSwin: Transformer-based GAN for High-resolution Image Generation

论文笔记——[CVPR2022]StyleSwin: Transformer-based GAN for High-resolution Image Generation

6月 8, 2022 阅读 2314 字数 583 评论 0 喜欢 0

创新点：
①双重关注，同时利用局部窗口和移动窗口的上下文
②充分利用了窗口中的绝对位置知识(正弦位置编码)
③用小波鉴别器(wavelet discriminator)来检查光谱差异，这有效地抑制了伪影

主要结构

整体结构类似采用styleGAN的结构，但是一个纯transformer的超分GAN网络。
图(a)表示原始的生成器结构，特征潜码z服从(0,1)正态分布

图(b)是作者提出的StyleSwin结构，通过一个额外的Norm和8个FC层，把原始的特征进行初步处理

图(c)是Double Attn分别利用分裂头关注局部和移位的窗口，扩大了transformer块的接受域

全局位置编码

作者认为让transformer了解绝对位置是必要的，比如嘴巴，高度依赖于空间坐标。
基于此，作者提出基于正弦位置编码的全局位置编码，在每次上采样完之后加到特征上。

改编自原始transformer，从1D拓展到2D，其中
$w_k=1/10000^{2k}$ ，(i, j)代表2D的位置。

小波鉴别器去除伪影

作者认为伪影的出现是因为transformer以块的方式独立计算注意力，破坏了空间一致性。然后作者发现一个小波鉴别器检查光谱域中的伪影可以有效地抑制伪影。

DWT:离散小波变换

参数量

结果

代码：https://github.com/microsoft/StyleSwin

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——SKNET代码解析
sknet是一个卷积结构，可以扩大卷积的感受野，并且能让卷积同时捕获到[katex]3*3[/katex]和[katex]5*5[/katex]的特征。整体结构 CODE sknet的主体分为4个stage，每个stage由多个SKUnit构成 class SKNet(nn.Module): def __init__(self, cla...
论文笔记——SwinIR: Image Restoration Using Swin Transformer
创新点： ①把Transformer引入超分 ②SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成。网络结构 ①浅层特征提取：33卷积层 ②深层特征提取采用K个residual Swin Transformer blocks (RSTB)以及一个33卷积层 ③最后一个残差把恢复后的HQ加上原始的LQ RSTB模块由连...
论文笔记——In-Domain GAN Inversion for Real Image Editing
一个对于图像生成GAN逆转域的研究（GAN反演）以前方法存在的问题：只能把图像逆转为像素，而不是原始的潜在空间(latent space) 创新点： ①可以在语义空间上对latent code编辑再让GAN生成对应图像 ②域引导编码器，把图像投影到StyleGAN的潜在空间 ③域正则化优化 GAN的反演主要分为两类：第一类是把GAN生...
论文笔记——[CVPR2022]A ConvNet for the 2020s
创新点： ①通过finetune让ResNet-50达到Transformer的准确率以下文章已经描述得很清晰，就不再赘述了： https://zhuanlan.zhihu.com/p/455913104 简述涨点方法： ①训练epoch从90扩大到300 ②借鉴Swin-T的训练策略 ③反瓶颈层加大卷积核7-1-1 ④采用depthw...
论文笔记——Fast Vision Transformers with HiLo Attention
创新点： ①高频捕捉局部精细数据，低频聚焦全局结构 ②为了区分不同频率的独特性质，让attention中的不同头分为两组，分别进入进入高\低频注意力模块，高频通过局部窗口计算自注意力，而低频通过平均池化K和V来计算全局自注意力 ③在GPU上的flop、速度和内存消耗优于现有的注意力机制。现有方法存在的问题：尽管现有的自注意力机制在低分辨...
论文笔记——FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors
创新点： ①利用几何先验，即面部地标热图和解析图 ②引入对抗性网络(FSRGAN) 总体流程：先经过一个网络来恢复粗糙图像，然后进入两个分支分别是精细的SR编码器和先验信息评估网络。先验信息评估网络提取图像特征然后对landmark和heatmaps进行评估。网络结构核心结构（四个网络）： CoarseSRNetwork() Fine...
RAS-pytorch代码详解以及到mindspore的迁移
RAS即“Reverse Attention-Based Residual Network for Salient Object Detection”，是一个图像显著性检测的算法，具有训练速度快，参数量少的优点。 github源代码：ShuhanChen/RAS-pytorch: Pytorch code for our TIP20 pa...