论文笔记——Local-to-Global Self-Attention in Vision Transformers

论文笔记——Local-to-Global Self-Attention in Vision Transformers

3月 10, 2022 阅读 1443 字数 225 评论 0 喜欢 0

创新点:
①多尺度图像多路径的Transformer,最后汇总以保证局部和全局特征提取
②每个stage多粒度从局部到整体的推理

CNN的多粒度连接:

  • 每个阶段分辨率除以4(2*2),channel乘以2,最后输出H/32*W/32
  • 在经过LN层之后,分别通过三个路径降采样,之后每个特征图都采用基于窗口的多头自注意方法进行处理,并采用移动窗口划分(SW-MSA)(来自swin Transformer)

实验:用于图像分类和语义分割

发表评论

您的电子邮箱地址不会被公开。