论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers

论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers

7月 1, 2022 阅读 2471 字数 307 评论 0 喜欢 0

创新点：
①通过距离来算自注意力，距离近的patch比较精细，距离远的比较粗糙，从而减少大分辨率图像的计算量

总体结构

总体结构与传统的Vit相差不大，每个patch大小为4×4，每个stage结束进行一次Patch Embedding。

Focal self-attention

分三个层次求Q, K, V，假设要求中间4*4区域的自注意力：

第一层找周围距离为8的区域，组成8*8的矩阵
第二层找周围距离为4的区域，组成1212的矩阵池化为66
第三层找周围距离为8的区域，组成2020的矩阵池化为55

把三个层次的结果flatten并cancat成长度为125的tokens，通过两个线程投影得到V和K，让原始的4*4直接投影得到Q。

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
创新点： ①交互式的控制图片的变化给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括 1)运动监督...
论文笔记——[人脸3d重建][CVPR 2021 Oral]Inverting Generative Adversarial Renderer for Face Reconstruction
基础知识：基于3DMM的三维人脸重建技术总结（潜码和噪声的概念见StyleGAN）（GAN逆转的文章见In-Domain GAN Inversion for Real Image Editing）大部分的3d人脸重建因为隐私问...
论文笔记——Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention
创新点：以ViT作为backbone，提出了一种在Pale-Shaped内进行自注意力的结构，能显著降低计算和记忆成本首先将输入特征图在空间上分割成多个Pale-Shaped的区域。每个Pale-Shaped...
论文笔记——[CVPR 2022]Vision Transformer with Deformable Attention
创新点： ①以数据依赖的方式在自注意力计算中选择K和V对。 ②通过一个网络学习offset坐标，采用双线性插值计算位置。与其他网络的对比(Attention模块) (a) 对所有patch采用相同的...
论文笔记——[CVPR 2022 Oral]MetaFormer is Actually What You Need for Vision
创新点： ①Transformer中的自注意力机制没用，结构才有用 ②即便把Attention模块换成Pooling，也能得到提升总体结构本文把Attention改成池化层公式：代码：训练策略数据...
论文笔记——TVConv: Efficient Translation Variant Convolution for Layout-aware Visual Processing
（CVPR2022论文）以前存在的问题：静态和动态卷积要么与布局无关，要么计算量大，不适用于特定于布局的应用程序，例如人脸识别和医学图像分割。创新点： ①作者观察到人脸识别的...
论文笔记——In-Domain GAN Inversion for Real Image Editing
一个对于图像生成GAN逆转域的研究（GAN反演）以前方法存在的问题：只能把图像逆转为像素，而不是原始的潜在空间(latent space) 创新点： ①可以在语义空间上对latent code编辑再...