论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers

论文笔记——CMT: Convolutional Neural Networks Meet Vision Transformers

3月 27, 2022 阅读 1880 字数 812 评论 0 喜欢 0

创新点:
①提升性能,相比ViT-S参数更少的情况下精度更高
②transformer和CNN的混合网络,利用transformer来捕获远程特征关系,CNN捕获局部特征关系

CMT (CNNs meet transformers)

整体结构

图(a)是ResNet-50模型

图(b)是ViT-S结构,MHSA代表多头自注意力机制,但是输入图像只能线性投影到token,为了解决这一限制,提出了图(c)的stem结构

图(c)的stem结构采用步长为2的3*3卷积输出channel为32,然后再跟两个步长为1的3*3卷积来更好的提取局部信息。
每一个Stage前面有一个步长为2的2*2卷积让分辨率减少4倍,channel增加2倍。
采用的CMT块既可以捕获局部特征,也能捕获远程特征依赖。
最后采用一个平均池化层和一个FC层投影到1000个分类,然后经过一个softmax来输出。

CMT Block

把绝对位置编码改成局部感知单元(LPU)

DWConv代表depth-wise convolution

轻量级的多头自注意力机制

所谓轻量级就是对H*W*C转化为Q,K之前加了一个depth-wise卷积使尺寸变成H/k*W/k*C,再转换为transformer的n/k^2*d,其中n/k^2=H/k*W/kd=C,然后把d划分为h个,做h个头的自注意力。

反向剩余前馈网络(Inverted Residual Feed-forward Network)

第一个1*1卷积把维度扩大4倍,然后经过一个带残差的DW卷积层,然后最后一个1*1卷积再把维度减少4倍。

发表评论

您的电子邮箱地址不会被公开。