论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

8月 10, 2022 阅读 2456 字数 678 评论 0 喜欢 0

创新点：
①对LR图像处理成分层次的子块，通过迭代的网络，形成从小到大不同size的区域。
②基于通道注意力的位置编码策略。
③基于卷积的多层注意力组

总体结构

分层patch的Transformer机制

渐进式的图像划分策略：

stage1:首先图像划分为4个部分，分别进入网络训练，得到输出图像 $I^1_{HR}$
stage2:图像划分为2个部分(垂直划分)，concat上一个stage的输出，进入网络训练，得到输出图像 $I^2_{HR}$
stage3:图像不划分，concat上一个stage的输出，直接进入网络训练，并且网络不加位置编码APE，得到输出 $I^3_{HR}$ 。
最终三部分与HR计算L1loss，乘以权重得到loss

Attention-based Position Encoding Vision Transformer位置编码APE－ViT

本文的Transformer跟ViT唯一区别就是基于通道注意力的位置编码。

ViT的位置编码是预定义而且与输入tokens独立。若输入图像size变化，则patch size数量也会变化，位置编码就匹配不上。为了解决这一问题需要对输入图像进行插值。

本文提出基于通道的位置编码：

还原回原图跑一个通道注意力CA再reshape回去

Attention-based Position Encoding Vision Transformer多层感知注意力组

Conv是普通卷积，Dconv是空洞卷积。
其实就是多尺度的通道注意力，利用空洞卷积减少计算量

结果

参数量

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——SKNET代码解析
sknet是一个卷积结构，可以扩大卷积的感受野，并且能让卷积同时捕获到3*3和5*5的特征。整体结构 CODE sknet的主体分为4个stage，每个stage由多个SKUnit构成 class SKNet(nn.Modu...
论文笔记——[CVPR workshop 2022]Transformer for Single Image Super-Resolution
创新点： ①由轻量CNN主干Lightweight CNN Backbone(LCB)和轻量Transformer主干Lightweight Transformer Backbone(LTB)构成 ②LCB可以动态调节特征图的大小，LTB是减少了计算量的Tra...
论文笔记——Transformer in Convolutional Neural Networks
创新点： ①层次多头自注意力机制，减少计算/空间复杂度 ②结合了transformer和CNN的优势总体结构 GAP：全局平均池化 FC：全连接层 DW Conv：深度可分离卷积 IRB：反向残差瓶颈层 ...
论文笔记——Conformer: Local Features Coupling Global Representations for Visual Recognition
创新点：同时利用CNN的捕获局部特征的优点和Transformer捕获长距离特征的优点。上图中的(c)表示整个网络结构的并发构型。 (b)表示，两个分支的初始特征是相同的，沿着两个分支以...
论文笔记——[SIGGRAPH2023]Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
创新点： ①交互式的控制图片的变化给定一对（handle point, target point），本方法以一种优化的方式执行图像操作。如上图所示，每个优化步骤由两个子步骤组成，包括 1)运动监督...
论文笔记——FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors
创新点： ①利用几何先验，即面部地标热图和解析图 ②引入对抗性网络(FSRGAN) 总体流程：先经过一个网络来恢复粗糙图像，然后进入两个分支分别是精细的SR编码器和先验信息评估网络。...
论文笔记——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
创新点： ①把transformer引入计算机视觉 ②把transformer中多头自注意力（MSA）模块替换成基于滑动窗口的模块滑动窗口机制红框窗口表示一个自注意力块，灰块在其中计算自注意力...