论文笔记——[ICCV 2021 Oral]Co-Scale Conv-Attentional Image Transformers

论文笔记——[ICCV 2021 Oral]Co-Scale Conv-Attentional Image Transformers

7月 13, 2022 阅读 2342 字数 1097 评论 0 喜欢 1

创新点：
①协同尺度的卷积注意力机制(并行、串行)
②通过卷积实现embedding的相对位置(减少计算量)

基于卷积的的注意力模块总体结构

分析自注意力机制

在自注意力计算中

softmax逻辑和注意图 $QK^T$ 导致了 $O(N^2)$ 的空间复杂度和 $O(N^2C)$ 的时间复杂度，于是作者提出了一种分解方法来减少这些复杂度。

其中 $\mathcal{\phi}(\cdot), \mathcal{\psi}(\cdot) : \mathbb{R}^{N \times C} \rightarrow \mathbb{R}^{N \times C^{\prime}}$ ，空间复杂度减少至 $O(NC^{\prime}+NC+CC^{\prime})$ ，时间复杂度 $O(NCC^{\prime})$

更进一步采用以下公式

空间复杂度 $O(NC+C^2)$ ，时间复杂度 $O(NCC^2)$

基于卷积的相对位置编码

其中P为DW卷积的权重，首先对V进行DW卷积，再与Q做逐元素乘，得到相对位置图 $\hat{EV}$ ，再与一个0向量concat，以对齐cls token。

基于卷积的位置编码

相对位置编码模型是Q和V之间基于位置的局部关系，而位置编码是一个全局的位置编码。本文在注意力机制前增加了一个DW卷积来得到绝对位置编码。

对于全局位置编码采用kernel size为3，对于不同头的相对位置编码分别采用3、5、7的kernel size。

总体结构

协同尺度的Transformer

串行块

首先通过Patch Embed对图像进行下采样，然后flatten成一系列的特征token并增加一个用于图像分类的cls token。然后执行基于卷积的自注意力模块。最后把cls token分离，把特征token还原为2D特征图。

并行块

让不同块并行的方式有两种：

直接跨层注意力：对于不同层的块，让K和V下采样或上采样来匹配其他尺度的分辨率来执行交叉注意力。
特征插值注意力：不同尺度的特征独立计算自注意力，计算完之后通过双线性插值来匹配其他尺度。

本文最终采用特征插值来让不同层的特征交互。

总体结构

CoaT-Lite: 采用金字塔结构，仅由串行块构成，通过最后获得的CLS token来进行分类任务。
CoaT: 由串行块和并行块构成，从三个尺度concat cls token。

实验结果

在参数量更少的情况下与Swin持平
同等参数量的情况下准确度更高

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——[CVPR2022]A ConvNet for the 2020s
创新点： ①通过finetune让ResNet-50达到Transformer的准确率以下文章已经描述得很清晰，就不再赘述了： https://zhuanlan.zhihu.com/p/455913104 简述涨点方法： ①训练epoch从90...
论文笔记——SwinIR: Image Restoration Using Swin Transformer
创新点： ①把Transformer引入超分 ②SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成。网络结构 ①浅层特征提取：33卷积层 ②深层特征提取采用K个residual Swin T...
论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
创新点： ①对LR图像处理成分层次的子块，通过迭代的网络，形成从小到大不同size的区域。 ②基于通道注意力的位置编码策略。 ③基于卷积的多层注意力组总体结构分层patch的Transfor...
论文笔记——[CVPR 2022 Oral]Restormer: Efficient Transformer for High-Resolution Image Restoration
创新点： ①解决高分辨率图像的图像恢复任务中transformer复杂度高的问题 ②在图像运动去模糊，去焦去模糊，图像去噪（高斯灰度/颜色去噪，和真实图像去噪）任务中取得sota ③self-at...
论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers
创新点： ①提升性能，相比ViT-S参数更少的情况下精度更高 ②transformer和CNN的混合网络，利用transformer来捕获远程特征关系，CNN捕获局部特征关系 CMT (CNNs meet transformers) ...
论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
创新点： ①交互式的控制图片的变化给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括 1)运动监督...
论文笔记——[CVPR2022]Blind2Unblind: Self-Supervised Image Denoising with Visible Blind Spots
创新点： ①提出一种盲点到无盲点的训练方法（解决N2V中信息缺失的问题） ②可以避免去噪过程中的“恒等映射”问题（噪点像素被直接输出）模型架构一张噪声图像y通过一个Global Mas...