论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers

论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers

7月 1, 2022 阅读 2293 字数 307 评论 0 喜欢 0

创新点：
①通过距离来算自注意力，距离近的patch比较精细，距离远的比较粗糙，从而减少大分辨率图像的计算量

总体结构

总体结构与传统的Vit相差不大，每个patch大小为4×4，每个stage结束进行一次Patch Embedding。

Focal self-attention

分三个层次求Q, K, V，假设要求中间4*4区域的自注意力：

第一层找周围距离为8的区域，组成8*8的矩阵
第二层找周围距离为4的区域，组成1212的矩阵池化为66
第三层找周围距离为8的区域，组成2020的矩阵池化为55

把三个层次的结果flatten并cancat成长度为125的tokens，通过两个线程投影得到V和K，让原始的4*4直接投影得到Q。

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——[ICCV 2021 Oral]Co-Scale Conv-Attentional Image Transformers
创新点： ①协同尺度的卷积注意力机制(并行、串行) ②通过卷积实现embedding的相对位置(减少计算量) 基于卷积的的注意力模块总体结构分析自注意力机制在自注意力计算中 softmax逻...
论文笔记——Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention
创新点：以ViT作为backbone，提出了一种在Pale-Shaped内进行自注意力的结构，能显著降低计算和记忆成本首先将输入特征图在空间上分割成多个Pale-Shaped的区域。每个Pale-Shaped...
论文笔记——Transformer in Convolutional Neural Networks
创新点： ①层次多头自注意力机制，减少计算/空间复杂度 ②结合了transformer和CNN的优势总体结构 GAP：全局平均池化 FC：全连接层 DW Conv：深度可分离卷积 IRB：反向残差瓶颈层 ...
论文笔记——[CVPR 2020]Learning Spatial Attention for Face Super-Resolution
创新点： ①空间注意力机制 ②加入鉴别器，可以让网络生成多尺度图像(SPARNetHD) 总体结构主要由三个模块构成：降尺度模块特征提取模块升尺度模块低分图像首先经过双线性插...
论文笔记——[ICCV 2021]Learning for Scale-Arbitrary Super-Resolution from Scale-Specific Networks
创新点： ①从固定尺度中学习任意尺度的超分，且能处理不匀称尺度(高宽不成比例)。 ②通过对现有超分网络加入插件模块实现任意尺度的超分，该模块由多尺度感知的特征自适应块和一个...
论文笔记——GAN Prior Embedded Network for Blind Face Restoration in the Wild
创新点： ①训练一个生成高质量人脸的GAN网络，然后放到U型结构的解码侧，再通过低分辨率图像输入U型结构中进行微调（以前的工作没有微调，指pixel2style2pixel）。 ②以前的工作没...
论文笔记——Image Super-Resolution Using Very Deep Residual Channel Attention Networks
创新点：（1）非常深的残差通道注意网络(RCAN)，用于高精度的图像SR。我们的RCAN可以比以前的基于cnn的方法更深入，并获得更好的SR性能。（2）残差到残差(residual in residual)...