论文笔记——Local-to-Global Self-Attention in Vision Transformers

3月 10, 2022 阅读 1444 字数 225 评论 0 喜欢 0

创新点：
①多尺度图像多路径的Transformer，最后汇总以保证局部和全局特征提取
②每个stage多粒度从局部到整体的推理

CNN的多粒度连接：

每个阶段分辨率除以4(2*2)，channel乘以2，最后输出 $H/32*W/32$
在经过LN层之后，分别通过三个路径降采样，之后每个特征图都采用基于窗口的多头自注意方法进行处理，并采用移动窗口划分(SW-MSA)(来自swin Transformer)

实验：用于图像分类和语义分割

发表评论取消回复

论文笔记——Conformer: Local Features Coupling Global Representations for Visual Recognition
创新点：同时利用CNN的捕获局部特征的优点和Transformer捕获长距离特征的优点。上图中的(c)表示整个网络结构的并发构型。 (b)表示，两个分支的初始特征是相同的，沿着两个分支以...
论文笔记——[CVPR2019]Noise2Void-Learning Denoising from Single Noisy Images
创新点： ①提出了一种自监督训练去噪模型的方法，可以在不需要干净目标的情况下训练 ②只有一张噪声图像就可以训练（解决N2N需要一对噪声图像来训练的问题）噪声图像的构成 \text...
论文笔记——Image Super-Resolution Using Very Deep Residual Channel Attention Networks
创新点：（1）非常深的残差通道注意网络(RCAN)，用于高精度的图像SR。我们的RCAN可以比以前的基于cnn的方法更深入，并获得更好的SR性能。（2）残差到残差(residual in residual)...
论文笔记——[CVPR 2022 Oral]MetaFormer is Actually What You Need for Vision
创新点： ①Transformer中的自注意力机制没用，结构才有用 ②即便把Attention模块换成Pooling，也能得到提升总体结构本文把Attention改成池化层公式：代码：训练策略数据...
论文笔记——Transformer in Convolutional Neural Networks
创新点： ①层次多头自注意力机制，减少计算/空间复杂度 ②结合了transformer和CNN的优势总体结构 GAP：全局平均池化 FC：全连接层 DW Conv：深度可分离卷积 IRB：反向残差瓶颈层 ...
论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
创新点： ①对LR图像处理成分层次的子块，通过迭代的网络，形成从小到大不同size的区域。 ②基于通道注意力的位置编码策略。 ③基于卷积的多层注意力组总体结构分层patch的Transfor...
论文笔记——In-Domain GAN Inversion for Real Image Editing
一个对于图像生成GAN逆转域的研究（GAN反演）以前方法存在的问题：只能把图像逆转为像素，而不是原始的潜在空间(latent space) 创新点： ①可以在语义空间上对latent code编辑再...

论文笔记——Local-to-Global Self-Attention in Vision Transformers

论文笔记——Local-to-Global Self-Attention in Vision Transformers

发表评论 取消回复

相 关 文 章 返回顶部 上一篇 下一篇

发表评论取消回复

相关文章返回顶部上一篇下一篇