论文笔记——Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention

论文笔记——Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention

3月 10, 2022 阅读 1558 字数 623 评论 0 喜欢 0

创新点：以ViT作为backbone，提出了一种在Pale-Shaped内进行自注意力的结构，能显著降低计算和记忆成本

首先将输入特征图在空间上分割成多个Pale-Shaped的区域。每个Pale-Shaped区域(缩写为Pale)由特征图中相同数量的交错行和列组成。相邻行或列之间的间隔对于所有的Pale是相等的。
然后，在每个Pale区域内进行Self-Attention计算。对于任何Token，它都可以直接与同一Pale中的其他Token交互，这使得本文的方法能够在单个PS-Attention层中捕获更丰富的上下文信息。

高效的并行实现

为了进一步提高效率，将上面提到的普通PS-Attention分解为行注意和列注意，它们分别在行Token组和列Token组内执行自注意力。

如(c)，首先将输入特征划分为两个独立的部分和，然后将其分为多个组，以便分别按行和列进行注意力计算。

其中，包含个的交错行，包含个的交错列。

然后，分别在每个行Token组和列Token组中执行自注意力。使用3个可分离的卷积层、、生成Query、Key和Value。

MSA表示多头自注意力。

最后，行方向和列方向的注意力输出沿着通道尺寸连接，得到最终的输出:

与PS-Attention在整个系统内的普通实现相比，这种并行机制具有较低的计算复杂度。此外，填充操作只需要确保能被整除，能被整除，而不是。因此，也有利于避免填充过多。

Pale Transformer Block

整体结构

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——[CVPR2019]Noise2Void-Learning Denoising from Single Noisy Images
创新点： ①提出了一种自监督训练去噪模型的方法，可以在不需要干净目标的情况下训练 ②只有一张噪声图像就可以训练（解决N2N需要一对噪声图像来训练的问题）噪声图像的构成 \text...
论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
创新点： ①交互式的控制图片的变化给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括 1)运动监督...
论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers
创新点： ①提升性能，相比ViT-S参数更少的情况下精度更高 ②transformer和CNN的混合网络，利用transformer来捕获远程特征关系，CNN捕获局部特征关系 CMT (CNNs meet transformers) ...
论文笔记——FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors
创新点： ①利用几何先验，即面部地标热图和解析图 ②引入对抗性网络(FSRGAN) 总体流程：先经过一个网络来恢复粗糙图像，然后进入两个分支分别是精细的SR编码器和先验信息评估网络。...
论文笔记——SwinIR: Image Restoration Using Swin Transformer
创新点： ①把Transformer引入超分 ②SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成。网络结构 ①浅层特征提取：33卷积层 ②深层特征提取采用K个residual Swin T...
论文笔记——[ICCV 2021]Learning for Scale-Arbitrary Super-Resolution from Scale-Specific Networks
创新点： ①从固定尺度中学习任意尺度的超分，且能处理不匀称尺度(高宽不成比例)。 ②通过对现有超分网络加入插件模块实现任意尺度的超分，该模块由多尺度感知的特征自适应块和一个...
论文笔记——Practical Blind Denoising via Swin-Conv-UNet and Data Synthesis
（CVPR2022的去噪论文）创新点： ①本文提出Swin-Conv模块，将DRUNet和SwinIR的结合起来，并插入到UNet架构中，还设计了一个实用的噪声退化模型，最终在盲图像去噪上表现SOTA。 ②...