论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

论文笔记——HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

8月 10, 2022 阅读 2315 字数 678 评论 0 喜欢 0

创新点：
①对LR图像处理成分层次的子块，通过迭代的网络，形成从小到大不同size的区域。
②基于通道注意力的位置编码策略。
③基于卷积的多层注意力组

总体结构

分层patch的Transformer机制

渐进式的图像划分策略：

stage1:首先图像划分为4个部分，分别进入网络训练，得到输出图像 $I^1_{HR}$
stage2:图像划分为2个部分(垂直划分)，concat上一个stage的输出，进入网络训练，得到输出图像 $I^2_{HR}$
stage3:图像不划分，concat上一个stage的输出，直接进入网络训练，并且网络不加位置编码APE，得到输出 $I^3_{HR}$ 。
最终三部分与HR计算L1loss，乘以权重得到loss

Attention-based Position Encoding Vision Transformer位置编码APE－ViT

本文的Transformer跟ViT唯一区别就是基于通道注意力的位置编码。

ViT的位置编码是预定义而且与输入tokens独立。若输入图像size变化，则patch size数量也会变化，位置编码就匹配不上。为了解决这一问题需要对输入图像进行插值。

本文提出基于通道的位置编码：

还原回原图跑一个通道注意力CA再reshape回去

Attention-based Position Encoding Vision Transformer多层感知注意力组

Conv是普通卷积，Dconv是空洞卷积。
其实就是多尺度的通道注意力，利用空洞卷积减少计算量

结果

参数量

发表评论取消回复

相关文章返回顶部 上一篇 下一篇

论文笔记——Fast Vision Transformers with HiLo Attention
创新点： ①高频捕捉局部精细数据，低频聚焦全局结构 ②为了区分不同频率的独特性质，让attention中的不同头分为两组，分别进入进入高\低频注意力模块，高频通过局部窗口计算自注意...
论文笔记——[CVPR2022]A ConvNet for the 2020s
创新点： ①通过finetune让ResNet-50达到Transformer的准确率以下文章已经描述得很清晰，就不再赘述了： https://zhuanlan.zhihu.com/p/455913104 简述涨点方法： ①训练epoch从90...
论文笔记——[CVPR workshop 2022]Transformer for Single Image Super-Resolution
创新点： ①由轻量CNN主干Lightweight CNN Backbone(LCB)和轻量Transformer主干Lightweight Transformer Backbone(LTB)构成 ②LCB可以动态调节特征图的大小，LTB是减少了计算量的Tra...
论文笔记——SwinIR: Image Restoration Using Swin Transformer
创新点： ①把Transformer引入超分 ②SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成。网络结构 ①浅层特征提取：33卷积层 ②深层特征提取采用K个residual Swin T...
论文笔记——[ICCV 2021]Learning for Scale-Arbitrary Super-Resolution from Scale-Specific Networks
创新点： ①从固定尺度中学习任意尺度的超分，且能处理不匀称尺度(高宽不成比例)。 ②通过对现有超分网络加入插件模块实现任意尺度的超分，该模块由多尺度感知的特征自适应块和一个...
论文笔记——[CVPR 2022 Oral]Restormer: Efficient Transformer for High-Resolution Image Restoration
创新点： ①解决高分辨率图像的图像恢复任务中transformer复杂度高的问题 ②在图像运动去模糊，去焦去模糊，图像去噪（高斯灰度/颜色去噪，和真实图像去噪）任务中取得sota ③self-at...
论文笔记——[人脸3d重建][CVPR 2021 Oral]Inverting Generative Adversarial Renderer for Face Reconstruction
基础知识：基于3DMM的三维人脸重建技术总结（潜码和噪声的概念见StyleGAN）（GAN逆转的文章见In-Domain GAN Inversion for Real Image Editing）大部分的3d人脸重建因为隐私问...