论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers

论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers

3月 27, 2022 阅读 1880 字数 812 评论 0 喜欢 0

创新点：
①提升性能，相比ViT-S参数更少的情况下精度更高
②transformer和CNN的混合网络，利用transformer来捕获远程特征关系，CNN捕获局部特征关系

CMT (CNNs meet transformers)

整体结构

图(a)是ResNet-50模型

图(b)是ViT-S结构，MHSA代表多头自注意力机制，但是输入图像只能线性投影到token，为了解决这一限制，提出了图(c)的stem结构

图(c)的stem结构采用步长为2的 $3*3$ 卷积输出channel为32，然后再跟两个步长为1的 $3*3$ 卷积来更好的提取局部信息。
每一个Stage前面有一个步长为2的 $2*2$ 卷积让分辨率减少4倍，channel增加2倍。
采用的CMT块既可以捕获局部特征，也能捕获远程特征依赖。
最后采用一个平均池化层和一个FC层投影到1000个分类，然后经过一个softmax来输出。

CMT Block

把绝对位置编码改成局部感知单元(LPU)

DWConv代表depth-wise convolution

轻量级的多头自注意力机制

所谓轻量级就是对 $H*W*C$ 转化为Q，K之前加了一个depth-wise卷积使尺寸变成 $H/k*W/k*C$ ，再转换为transformer的 $n/k^2*d$ ，其中 $n/k^2=H/k*W/k$ ， $d=C$ ，然后把d划分为h个，做h个头的自注意力。

反向剩余前馈网络(Inverted Residual Feed-forward Network)

第一个 $1*1$ 卷积把维度扩大4倍，然后经过一个带残差的DW卷积层，然后最后一个 $1*1$ 卷积再把维度减少4倍。

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——[人脸3d重建][CVPR 2021 Oral]Inverting Generative Adversarial Renderer for Face Reconstruction
基础知识：基于3DMM的三维人脸重建技术总结（潜码和噪声的概念见StyleGAN）（GAN逆转的文章见In-Domain GAN Inversion for Real Image Editing）大部分的3d人脸重建因为隐私问...
论文笔记——[CVPR2022]A ConvNet for the 2020s
创新点： ①通过finetune让ResNet-50达到Transformer的准确率以下文章已经描述得很清晰，就不再赘述了： https://zhuanlan.zhihu.com/p/455913104 简述涨点方法： ①训练epoch从90...
论文笔记——[CVPR workshop 2022]Transformer for Single Image Super-Resolution
创新点： ①由轻量CNN主干Lightweight CNN Backbone(LCB)和轻量Transformer主干Lightweight Transformer Backbone(LTB)构成 ②LCB可以动态调节特征图的大小，LTB是减少了计算量的Tra...
论文笔记——SKNET代码解析
sknet是一个卷积结构，可以扩大卷积的感受野，并且能让卷积同时捕获到3*3和5*5的特征。整体结构 CODE sknet的主体分为4个stage，每个stage由多个SKUnit构成 class SKNet(nn.Modu...
论文笔记——In-Domain GAN Inversion for Real Image Editing
一个对于图像生成GAN逆转域的研究（GAN反演）以前方法存在的问题：只能把图像逆转为像素，而不是原始的潜在空间(latent space) 创新点： ①可以在语义空间上对latent code编辑再...
论文笔记——GAN Prior Embedded Network for Blind Face Restoration in the Wild
创新点： ①训练一个生成高质量人脸的GAN网络，然后放到U型结构的解码侧，再通过低分辨率图像输入U型结构中进行微调（以前的工作没有微调，指pixel2style2pixel）。 ②以前的工作没...
论文笔记——[CVPR 2022]Vision Transformer with Deformable Attention
创新点： ①以数据依赖的方式在自注意力计算中选择K和V对。 ②通过一个网络学习offset坐标，采用双线性插值计算位置。与其他网络的对比(Attention模块) (a) 对所有patch采用相同的...