论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

8月 10, 2022 阅读 2315 字数 678 评论 0 喜欢 0

创新点:
①对LR图像处理成分层次的子块,通过迭代的网络,形成从小到大不同size的区域。
②基于通道注意力的位置编码策略。
③基于卷积的多层注意力组

总体结构

分层patch的Transformer机制


渐进式的图像划分策略:

  • stage1:首先图像划分为4个部分,分别进入网络训练,得到输出图像I^1_{HR}
  • stage2:图像划分为2个部分(垂直划分),concat上一个stage的输出,进入网络训练,得到输出图像I^2_{HR}
  • stage3:图像不划分,concat上一个stage的输出,直接进入网络训练,并且网络不加位置编码APE,得到输出I^3_{HR}
  • 最终三部分与HR计算L1loss,乘以权重得到loss

Attention-based Position Encoding Vision Transformer位置编码APE-ViT

本文的Transformer跟ViT唯一区别就是基于通道注意力的位置编码。

ViT的位置编码是预定义而且与输入tokens独立。若输入图像size变化,则patch size数量也会变化,位置编码就匹配不上。为了解决这一问题需要对输入图像进行插值。

本文提出基于通道的位置编码:

还原回原图跑一个通道注意力CA再reshape回去


Attention-based Position Encoding Vision Transformer多层感知注意力组


Conv是普通卷积,Dconv是空洞卷积。
其实就是多尺度的通道注意力,利用空洞卷积减少计算量

结果

参数量

发表评论

您的电子邮箱地址不会被公开。