论文笔记——[CVPR 2022 Oral]MetaFormer is Actually What You Need for Vision

7月 1, 2022 阅读 2120 字数 283 评论 0 喜欢 0

创新点：
①Transformer中的自注意力机制没用，结构才有用
②即便把Attention模块换成Pooling，也能得到提升

总体结构

本文把Attention改成池化层

公式：

代码：

训练策略

数据增强: MixUp, CutMix, CutOut, RandAugment
训练轮数: 300epoch
优化器: AdamW
Weight Decay: 0.05
Peak Learning Rate: $1e^{-3}·batchsize/1024$ (本文batch size为4096，学习率 $4e^{-3}$ )
余弦策略减低学习率

网络参数

消融实验

发表评论取消回复

论文笔记——[CVPR2022]Blind2Unblind: Self-Supervised Image Denoising with Visible Blind Spots
创新点： ①提出一种盲点到无盲点的训练方法（解决N2V中信息缺失的问题） ②可以避免去噪过程中的“恒等映射”问题（噪点像素被直接输出）模型架构一张噪声图像y通过一个Global Mas...
论文笔记——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
创新点： ①把transformer引入计算机视觉 ②把transformer中多头自注意力（MSA）模块替换成基于滑动窗口的模块滑动窗口机制红框窗口表示一个自注意力块，灰块在其中计算自注意力...
论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
创新点： ①交互式的控制图片的变化给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括 1)运动监督...
论文笔记——[CVPR 2022]Vision Transformer with Deformable Attention
创新点： ①以数据依赖的方式在自注意力计算中选择K和V对。 ②通过一个网络学习offset坐标，采用双线性插值计算位置。与其他网络的对比(Attention模块) (a) 对所有patch采用相同的...
论文笔记——Practical Blind Denoising via Swin-Conv-UNet and Data Synthesis
（CVPR2022的去噪论文）创新点： ①本文提出Swin-Conv模块，将DRUNet和SwinIR的结合起来，并插入到UNet架构中，还设计了一个实用的噪声退化模型，最终在盲图像去噪上表现SOTA。 ②...
论文笔记——Image Super-Resolution Using Very Deep Residual Channel Attention Networks
创新点：（1）非常深的残差通道注意网络(RCAN)，用于高精度的图像SR。我们的RCAN可以比以前的基于cnn的方法更深入，并获得更好的SR性能。（2）残差到残差(residual in residual)...
论文笔记——[CVPR 2020]Learning Spatial Attention for Face Super-Resolution
创新点： ①空间注意力机制 ②加入鉴别器，可以让网络生成多尺度图像(SPARNetHD) 总体结构主要由三个模块构成：降尺度模块特征提取模块升尺度模块低分图像首先经过双线性插...