论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers

论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers

7月 1, 2022 阅读 2293 字数 307 评论 0 喜欢 0

创新点:
①通过距离来算自注意力,距离近的patch比较精细,距离远的比较粗糙,从而减少大分辨率图像的计算量

总体结构


总体结构与传统的Vit相差不大,每个patch大小为4×4,每个stage结束进行一次Patch Embedding。

Focal self-attention


分三个层次求Q, K, V,假设要求中间4*4区域的自注意力:

  • 第一层找周围距离为8的区域,组成8*8的矩阵
  • 第二层找周围距离为4的区域,组成1212的矩阵池化为66
  • 第三层找周围距离为8的区域,组成2020的矩阵池化为55

把三个层次的结果flatten并cancat成长度为125的tokens,通过两个线程投影得到V和K,让原始的4*4直接投影得到Q。

发表评论

您的电子邮箱地址不会被公开。