论文笔记——[CVPR 2022 Oral]MetaFormer is Actually What You Need for Vision

7月 1, 2022 阅读 1980 字数 283 评论 0 喜欢 0

创新点：
①Transformer中的自注意力机制没用，结构才有用
②即便把Attention模块换成Pooling，也能得到提升

总体结构

本文把Attention改成池化层

公式：

代码：

训练策略

数据增强: MixUp, CutMix, CutOut, RandAugment
训练轮数: 300epoch
优化器: AdamW
Weight Decay: 0.05
Peak Learning Rate: $1e^{-3}·batchsize/1024$ (本文batch size为4096，学习率 $4e^{-3}$ )
余弦策略减低学习率

网络参数

消融实验

发表评论取消回复

论文笔记——In-Domain GAN Inversion for Real Image Editing
一个对于图像生成GAN逆转域的研究（GAN反演）以前方法存在的问题：只能把图像逆转为像素，而不是原始的潜在空间(latent space) 创新点： ①可以在语义空间上对latent code编辑再...
论文笔记——Conformer: Local Features Coupling Global Representations for Visual Recognition
创新点：同时利用CNN的捕获局部特征的优点和Transformer捕获长距离特征的优点。上图中的(c)表示整个网络结构的并发构型。 (b)表示，两个分支的初始特征是相同的，沿着两个分支以...
论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
创新点： ①对LR图像处理成分层次的子块，通过迭代的网络，形成从小到大不同size的区域。 ②基于通道注意力的位置编码策略。 ③基于卷积的多层注意力组总体结构分层patch的Transfor...
论文笔记——[CVPR2022]Blind2Unblind: Self-Supervised Image Denoising with Visible Blind Spots
创新点： ①提出一种盲点到无盲点的训练方法（解决N2V中信息缺失的问题） ②可以避免去噪过程中的“恒等映射”问题（噪点像素被直接输出）模型架构一张噪声图像y通过一个Global Mas...
论文笔记——GAN Prior Embedded Network for Blind Face Restoration in the Wild
创新点： ①训练一个生成高质量人脸的GAN网络，然后放到U型结构的解码侧，再通过低分辨率图像输入U型结构中进行微调（以前的工作没有微调，指pixel2style2pixel）。 ②以前的工作没...
论文笔记——Fast Vision Transformers with HiLo Attention
创新点： ①高频捕捉局部精细数据，低频聚焦全局结构 ②为了区分不同频率的独特性质，让attention中的不同头分为两组，分别进入进入高\低频注意力模块，高频通过局部窗口计算自注意...
论文笔记——Transformer in Convolutional Neural Networks
创新点： ①层次多头自注意力机制，减少计算/空间复杂度 ②结合了transformer和CNN的优势总体结构 GAP：全局平均池化 FC：全连接层 DW Conv：深度可分离卷积 IRB：反向残差瓶颈层 ...