创新点:
①通过距离来算自注意力,距离近的patch比较精细,距离远的比较粗糙,从而减少大分辨率图像的计算量

总体结构

总体结构与传统的Vit相差不大,每个patch大小为4×4,每个stage结束进行一次Patch Embedding。
Focal self-attention

分三个层次求Q, K, V,假设要求中间4*4区域的自注意力:
- 第一层找周围距离为8的区域,组成8*8的矩阵
- 第二层找周围距离为4的区域,组成1212的矩阵池化为66
- 第三层找周围距离为8的区域,组成2020的矩阵池化为55
把三个层次的结果flatten并cancat成长度为125的tokens,通过两个线程投影得到V和K,让原始的4*4直接投影得到Q。


