创新点:
①对LR图像处理成分层次的子块,通过迭代的网络,形成从小到大不同size的区域。
②基于通道注意力的位置编码策略。
③基于卷积的多层注意力组
总体结构
分层patch的Transformer机制

渐进式的图像划分策略:
- stage1:首先图像划分为4个部分,分别进入网络训练,得到输出图像I^1_{HR}
- stage2:图像划分为2个部分(垂直划分),concat上一个stage的输出,进入网络训练,得到输出图像I^2_{HR}
- stage3:图像不划分,concat上一个stage的输出,直接进入网络训练,并且网络不加位置编码APE,得到输出I^3_{HR}。
- 最终三部分与HR计算L1loss,乘以权重得到loss

Attention-based Position Encoding Vision Transformer位置编码APE-ViT
本文的Transformer跟ViT唯一区别就是基于通道注意力的位置编码。
ViT的位置编码是预定义而且与输入tokens独立。若输入图像size变化,则patch size数量也会变化,位置编码就匹配不上。为了解决这一问题需要对输入图像进行插值。
本文提出基于通道的位置编码:

还原回原图跑一个通道注意力CA再reshape回去
Attention-based Position Encoding Vision Transformer多层感知注意力组

Conv是普通卷积,Dconv是空洞卷积。
其实就是多尺度的通道注意力,利用空洞卷积减少计算量
结果

参数量




