论文笔记——[CVPR workshop 2022]Transformer for Single Image Super-Resolution

论文笔记——[CVPR workshop 2022]Transformer for Single Image Super-Resolution

11月 6, 2022 阅读 3049 字数 1257 评论 0 喜欢 0

创新点：
①由轻量CNN主干Lightweight CNN Backbone(LCB)和轻量Transformer主干Lightweight
Transformer Backbone(LTB)构成
②LCB可以动态调节特征图的大小，LTB是减少了计算量的Transformer结构
③设计了一个高频滤波模块（HFM）来捕获图像的纹理细节

网络结构

分为四部分：浅层特征提取、轻量CNN主干（LCB）、轻量Transformer主干（LTB）和图像重建

浅层特征提取：3*3卷积
LCB：由多个高保真块HPB构成

高保真块HPB

以前的SR网络通常会保持原分辨率不变，本文为了降低计算量，提出了一种新的高保真块（HPB）来降低特征的分辨率同时保留更多高频特征。HPB主要由高频滤波模块（HFM）和多个自适应残差特征块（ARFB）组成。
上方是通过HFM提取的高频特征，只经过一个ARFB。
下方是通过下采样后的低频特征。
高低频特征concat之后通过1*1卷积恢复原来的channel，最后经过一个通道注意力CA和ARFB，再加入残差稳定训练。
为了减少参数量，处理低频信息的ARFB共享相同的权重。

高频滤波模块HFM

由于傅里叶变换很难嵌入到CNN中,于是本文提出了一种可微的高频滤波模块。
对于输入 $T_L$ ，首先进行池化核为k的平均池化，然后 $T_A$ 再上采样到原来的尺寸， $T_U$ 是作为与原始 $T_L$ 相比更平滑的表达。最后，从 $T_L$ 逐元素减去 $T_U$ ，得到高频信息。

可视化效果：

自适应残差特征块ARFB

ARFB包含两个残差单元RU和两个卷积层。
为了减少参数量，RU由两个部分组成：减少和拓展，通过1*1卷积把channel减少一半，然后再还原到原来的大小。同时加入可学习参数 $\lambda_x$ 来自适应调节残差的比例。

轻量Transformer主干

为了减少内存占用，本文提出一种轻量Transformer主干。
考虑到超分处理的是二维图像，在ViT中一维序列是通过非重叠的块划分生成的，这意味着每个块之间没有像素重叠。根据我们的实验，这些预处理方法并不适用于SISR。因此，本文提出了一种新的处理特征映射的处理方法。

如上图。通过 $k*k$ 的核把每个像素拓展到 $k*k$ 倍，来让像素获取到周边信息，同时也自动反映了每个patch的位置信息。

高效的多头注意力模块，占用更少的内存：考虑到图像通常具有较高的分辨率，导致N非常大，自注意矩阵的计算消耗了大量的GPU内存成本和计算成本。于是本文通过切割因子s，把QKV的N切割成了s份，每一份单独做自注意力，最后通过concat恢复原来的大小。

效果

本文方法的创新点很多，但是效果提升并不明显，甚至没和SwinIR比较。

下面是用同样训练集训练的SwinIR

参数量

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——[CVPR 2022]Vision Transformer with Deformable Attention
创新点： ①以数据依赖的方式在自注意力计算中选择K和V对。 ②通过一个网络学习offset坐标，采用双线性插值计算位置。与其他网络的对比(Attention模块) (a) 对所有patch采用相同的...
论文笔记——[ICCV 2021]Learning for Scale-Arbitrary Super-Resolution from Scale-Specific Networks
创新点： ①从固定尺度中学习任意尺度的超分，且能处理不匀称尺度(高宽不成比例)。 ②通过对现有超分网络加入插件模块实现任意尺度的超分，该模块由多尺度感知的特征自适应块和一个...
论文笔记——GAN Prior Embedded Network for Blind Face Restoration in the Wild
创新点： ①训练一个生成高质量人脸的GAN网络，然后放到U型结构的解码侧，再通过低分辨率图像输入U型结构中进行微调（以前的工作没有微调，指pixel2style2pixel）。 ②以前的工作没...
论文笔记——FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors
创新点： ①利用几何先验，即面部地标热图和解析图 ②引入对抗性网络(FSRGAN) 总体流程：先经过一个网络来恢复粗糙图像，然后进入两个分支分别是精细的SR编码器和先验信息评估网络。...
论文笔记——Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
创新点： ①新的编码器结构，把图像投影到W+空间（与以往的先还原图像，再编辑不同，本方法在W+空间中编辑）。 ②证明了图像的W空间，可以提供控制和编辑的能力 ③采用了一个预先训练...
论文笔记——Conformer: Local Features Coupling Global Representations for Visual Recognition
创新点：同时利用CNN的捕获局部特征的优点和Transformer捕获长距离特征的优点。上图中的(c)表示整个网络结构的并发构型。 (b)表示，两个分支的初始特征是相同的，沿着两个分支以...
论文笔记——Transformer in Convolutional Neural Networks
创新点： ①层次多头自注意力机制，减少计算/空间复杂度 ②结合了transformer和CNN的优势总体结构 GAP：全局平均池化 FC：全连接层 DW Conv：深度可分离卷积 IRB：反向残差瓶颈层 ...