论文笔记——Local-to-Global Self-Attention in Vision Transformers

3月 10, 2022 阅读 1443 字数 225 评论 0 喜欢 0

创新点：
①多尺度图像多路径的Transformer，最后汇总以保证局部和全局特征提取
②每个stage多粒度从局部到整体的推理

CNN的多粒度连接：

每个阶段分辨率除以4(2*2)，channel乘以2，最后输出 $H/32*W/32$
在经过LN层之后，分别通过三个路径降采样，之后每个特征图都采用基于窗口的多头自注意方法进行处理，并采用移动窗口划分(SW-MSA)(来自swin Transformer)

实验：用于图像分类和语义分割

发表评论取消回复

论文笔记——SKNET代码解析
sknet是一个卷积结构，可以扩大卷积的感受野，并且能让卷积同时捕获到3*3和5*5的特征。整体结构 CODE sknet的主体分为4个stage，每个stage由多个SKUnit构成 class SKNet(nn.Modu...
论文笔记——[ICCV 2021]Learning for Scale-Arbitrary Super-Resolution from Scale-Specific Networks
创新点： ①从固定尺度中学习任意尺度的超分，且能处理不匀称尺度(高宽不成比例)。 ②通过对现有超分网络加入插件模块实现任意尺度的超分，该模块由多尺度感知的特征自适应块和一个...
论文笔记——[ICML2018]Noise2Noise: Learning Image Restoration without Clean Data
创新点： ①不需要干净样本的图片降噪 ②可以仅仅通过无标签的噪声信号重建无噪的信号，而不需要干净的样本，并且性能上超越了运用干净数据进行训练的性能。 ③具有一定的统计学原理 ...
论文笔记——In-Domain GAN Inversion for Real Image Editing
一个对于图像生成GAN逆转域的研究（GAN反演）以前方法存在的问题：只能把图像逆转为像素，而不是原始的潜在空间(latent space) 创新点： ①可以在语义空间上对latent code编辑再...
论文笔记——[CVPR2022]A ConvNet for the 2020s
创新点： ①通过finetune让ResNet-50达到Transformer的准确率以下文章已经描述得很清晰，就不再赘述了： https://zhuanlan.zhihu.com/p/455913104 简述涨点方法： ①训练epoch从90...
论文笔记——GAN Prior Embedded Network for Blind Face Restoration in the Wild
创新点： ①训练一个生成高质量人脸的GAN网络，然后放到U型结构的解码侧，再通过低分辨率图像输入U型结构中进行微调（以前的工作没有微调，指pixel2style2pixel）。 ②以前的工作没...
论文笔记——[NeurIPS 2021]Focal Self-attention for Local-Global Interactions in Vision Transformers
创新点： ①通过距离来算自注意力，距离近的patch比较精细，距离远的比较粗糙，从而减少大分辨率图像的计算量总体结构总体结构与传统的Vit相差不大，每个patch大小为4×4，每个s...

论文笔记——Local-to-Global Self-Attention in Vision Transformers

论文笔记——Local-to-Global Self-Attention in Vision Transformers

发表评论 取消回复

相 关 文 章 返回顶部 上一篇 下一篇

发表评论取消回复

相关文章返回顶部上一篇下一篇