【Block总结】PlainUSR的局部注意力,即插即用|ACCV2024

news2025/4/7 16:57:00

论文信息

  • 标题: PlainUSR: Chasing Faster ConvNet for Efficient Super-Resolution
  • 作者: Yan Wang, Yusen Li, Gang Wang, Xiaoguang Liu
  • 发表时间: 2024年
  • 会议/期刊: 亚洲计算机视觉会议(ACCV 2024)
  • 研究背景: 超分辨率(Super-Resolution, SR)任务近年来受到广泛关注,尤其是在实时性能和高效计算方面的挑战。现有方法通常在性能和计算效率之间进行权衡,但仍难以实现低延迟和高质量的图像重建[4][5][21]。
  • 链接:https://openaccess.thecvf.com/content/ACCV2024/papers/Wang_PlainUSR_Chasing_Faster_ConvNet_for_Efficient_Super-Resolution_ACCV_2024_paper.pdf

在这里插入图片描述

创新点

PlainUSR提出了一种高效的卷积网络框架,通过以下三大模块的改进实现了超分辨率任务的加速和性能优化:

  1. 卷积模块: 使用重参数化技术,将轻量但较慢的MobileNetV3卷积块替换为更重但更快的普通卷积块,从而在内存访问和计算之间实现平衡[4][5][24]。
  2. 注意力模块: 引入基于区域重要性的局部注意力机制(Local Importance-based Attention, LIA),通过区域重要性图和门控机制实现高阶信息交互,同时保持低延迟[4][5][21]。
  3. 主干网络: 提出了一种简化的U-Net结构,采用通道级的分离和连接操作,进一步优化网络的计算效率和性能[4][5][24]。

这些创新点旨在解决现有方法在实时性能和计算效率上的瓶颈,同时保持竞争性的图像重建质量。


方法

PlainUSR的设计包括以下核心步骤:

  1. 卷积模块优化:

    • 使用重参数化技术(Reparameterization Tricks)将MobileNetV3卷积块转化为普通卷积块。
    • 这种设计减少了内存访问开销,同时提高了计算速度[4][5][24]。
  2. 局部注意力机制:

    • 通过区域重要性图对输入进行调制,结合门控机制实现信息交互。
    • 该方法在保持低延迟的同时,增强了局部和全局信息的整合能力[4][5][21]。
  3. 主干网络优化:

    • 使用简化的U-Net结构,通过通道级分离和连接操作实现高效的特征处理。
    • 这种设计进一步减少了计算复杂度,同时提高了网络的扩展性[4][5][24]。

在这里插入图片描述

局部注意力机制的作用

  1. 信息交互优化
    局部注意力机制通过引入区域重要性图和门控机制,能够在局部范围内实现高阶信息交互。这种设计使得模型能够更有效地捕捉局部细节,同时避免了传统全局注意力机制可能带来的高计算成本[4][5][6]。

  2. 降低计算延迟
    局部注意力机制的设计重点在于减少计算复杂度。相比全局注意力,局部注意力将加权求和的范围限制在特定窗口内,从而显著降低了计算量。这种方法特别适合实时超分辨率任务,能够在保持性能的同时实现低延迟[3][4][5]。

  3. 增强局部与全局信息的融合
    PlainUSR中的局部注意力机制不仅关注局部细节,还通过区域重要性图实现了局部与全局信息的有效融合。这种融合能够帮助模型在处理复杂纹理和长距离依赖时表现更优[4][5][6]。

PlainUSR中的具体实现

  • 区域重要性图: 局部注意力机制通过生成区域重要性图来标记输入数据中不同区域的重要性。这种图能够指导模型将计算资源集中在关键区域,从而提高效率和准确性[4][5][6]。
  • 门控机制: 门控机制用于控制信息流动,确保模型能够在局部范围内实现高效的信息交互,同时避免不必要的计算开销[4][5][6]。

效果

PlainUSR在实验中表现出以下显著优势:

  1. 低延迟: 与最新的NGswin方法相比,PlainUSR-L版本的运行速度快16.4倍,同时保持了竞争性的性能[4][5][10]。
  2. 高扩展性: 该框架能够适应不同的计算资源需求,适用于多种硬件环境[4][5][21]。
  3. 性能对比: 在与其他面向低延迟和高质量的超分辨率方法的对比中,PlainUSR展现了卓越的性能和计算效率[4][5][24]。

实验结果表明,PlainUSR在多个基准数据集上均取得了优异的表现,证明了其在实时超分辨率任务中的实用性。


综上所述,PlainUSR通过对卷积模块、注意力机制和主干网络的优化,成功实现了高效的超分辨率任务处理,兼顾了低延迟和高质量的图像重建需求。这项研究为实时超分辨率任务提供了新的解决方案,并具有广泛的应用前景。

代码

import torch
import torch.nn as nn
import torch.nn.functional as F

class SoftPooling2D(torch.nn.Module):
    def __init__(self, kernel_size, stride=None, padding=0):
        super(SoftPooling2D, self).__init__()
        self.avgpool = torch.nn.AvgPool2d(kernel_size, stride, padding, count_include_pad=False)

    def forward(self, x):
        x_exp = torch.exp(x)
        x_exp_pool = self.avgpool(x_exp)
        x = self.avgpool(x_exp * x)
        return x / x_exp_pool


class LocalAttention(nn.Module):
    ''' attention based on local importance'''

    def __init__(self, channels, f=16):
        super().__init__()
        self.body = nn.Sequential(
            # sample importance
            nn.Conv2d(channels, f, 1),
            SoftPooling2D(7, stride=3),
            nn.Conv2d(f, f, kernel_size=3, stride=2, padding=1),
            nn.Conv2d(f, channels, 3, padding=1),
            # to heatmap
            nn.Sigmoid(),
        )
        self.gate = nn.Sequential(
            nn.Sigmoid(),
        )

    def forward(self, x):
        ''' forward '''
        # interpolate the heat map
        g = self.gate(x[:, :1].clone())
        w = F.interpolate(self.body(x), (x.size(2), x.size(3)), mode='bilinear', align_corners=False)

        return x * w * g  # (w + g) #self.gate(x, w)
if __name__ == "__main__":
    # 定义输入张量大小(Batch、Channel、Height、Wight)
    B, C, H, W = 16, 512, 40, 40
    input_tensor = torch.randn(B,C,H,W)  # 随机生成输入张量
    dim=C
    # 创建 LocalAttention实例
    block = LocalAttention(channels=dim)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    sablock = block.to(device)
    print(sablock)
    input_tensor = input_tensor.to(device)
    # 执行前向传播
    output = sablock(input_tensor)
    # 打印输入和输出的形状
    print(f"Input: {input_tensor.shape}")
    print(f"Output: {output.shape}")

代码详解:LocalAttention 模块


1. 模块功能概述

LocalAttention 是一种基于局部重要性加权的注意力机制,通过以下步骤增强特征图中关键区域:

  1. 重要性采样:通过卷积和软池化提取局部重要性特征。
  2. 权重图生成:通过卷积层生成空间注意力图。
  3. 门控调节:结合通道维度的门控信号,动态调整特征响应。

2. 代码逐层解析

2.1 SoftPooling2D 类
class SoftPooling2D(torch.nn.Module):
    def __init__(self, kernel_size, stride=None, padding=0):
        super(SoftPooling2D, self).__init__()
        self.avgpool = torch.nn.AvgPool2d(kernel_size, stride, padding, count_include_pad=False)

    def forward(self, x):
        x_exp = torch.exp(x)               # 指数运算增强对比度
        x_exp_pool = self.avgpool(x_exp)    # 对指数结果平均池化
        x = self.avgpool(x_exp * x)         # 对加权特征平均池化
        return x / x_exp_pool               # 归一化输出
  • 功能:软池化,替代传统最大/平均池化,保留更多信息。

  • 优势:通过指数运算放大显著特征,池化后归一化,保留相对重要性。

2.2 LocalAttention 类
初始化方法 __init__
def __init__(self, channels, f=16):
    super().__init__()
    self.body = nn.Sequential(
        nn.Conv2d(channels, f, 1),          # 通道压缩到 f (默认16)
        SoftPooling2D(7, stride=3),          # 7x7 池化,步长3
        nn.Conv2d(f, f, kernel_size=3, stride=2, padding=1),  # 下采样
        nn.Conv2d(f, channels, 3, padding=1),  # 恢复通道数
        nn.Sigmoid()                         # 生成 [0,1] 权重图
    )
    self.gate = nn.Sequential(
        nn.Sigmoid()                         # 门控信号
    )
前向传播 forward
def forward(self, x):
    g = self.gate(x[:, :1].clone())          # 取第1个通道生成门控信号
    w = F.interpolate(
        self.body(x),                        # 生成低分辨率权重图
        (x.size(2), x.size(3)),              # 插值到输入尺寸
        mode='bilinear', align_corners=False
    )
    return x * w * g                         # 特征加权

LocalAttention 通过局部重要性采样和门控机制实现特征自适应增强,其设计兼顾计算效率与灵活性。改进空间包括优化门控信号生成、增强数值稳定性等。该模块可嵌入 CNN 或 Transformer 中,提升模型对关键区域的感知能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2329266.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】从零实现Json-Rpc框架(2)

目录 JsonCpp库 1.1- Json数据格式 1.2 - JsonCpp介绍 • 序列化接口 • 反序列化接口 1.3 - Json序列化实践 JsonCpp使用 Muduo库 2.1 - Muduo库是什么 2.2 - Muduo库常见接口介绍 TcpServer类基础介绍 EventLoop类基础介绍 TcpConnection类基础介绍 TcpClient…

FastAPI依赖注入:链式调用与多级参数传递

title: FastAPI依赖注入:链式调用与多级参数传递 date: 2025/04/05 18:43:12 updated: 2025/04/05 18:43:12 author: cmdragon excerpt: FastAPI的依赖注入系统通过链式调用和多级参数传递实现组件间的解耦和复用。核心特性包括解耦性、可复用性、可测试性和声明式依赖解析…

【STM32单片机】#5 定时中断

主要参考学习资料: B站江协科技 STM32入门教程-2023版 细致讲解 中文字幕 开发资料下载链接:https://pan.baidu.com/s/1h_UjuQKDX9IpP-U1Effbsw?pwddspb 单片机套装:STM32F103C8T6开发板单片机C6T6核心板 实验板最小系统板套件科协 实验&…

OrbStack 作为 Mac 用户的 Docker 替代方案

推荐使用 OrbStack 作为 Mac 用户的 Docker 替代方案 在现代开发环境中,容器化技术已经成为了软件开发的重要组成部分。对于 Mac 用户来说,Docker Desktop 是一个广泛使用的工具,但它并不是唯一的选择。本文将推荐 OrbStack 作为 Docker Desktop 的替代方案,并探讨其优势。…

运行小程序报错

[ app.json 文件内容错误] app.json: ["tabBar"]["list"] 不能超过 5 项(env: Windows,mp,1.06.2206090; lib: 3.7.12) 他的意思大概是,微信小程序 app.json 文件中的 tabBar.list 配置项超过了 5 项。这是微信小程序的限制,tabBar…

深入剖析丝杆升降机工作原理,解锁工业传动奥秘

丝杆升降机,在工业设备的大舞台上扮演着不可或缺的角色,被广泛应用于机械制造、自动化生产线、建筑施工等众多领域。它能够精准实现重物的升降、定位等操作,为各类工业生产提供了稳定可靠的支持。想要深入了解丝杆升降机,就必须探…

【51单片机】2-3【I/O口】震动传感器控制LED灯

1.硬件 51最小系统LED灯模块震动传感器模块 2.软件 #include "reg52.h"sbit led1 P3^7;//根据原理图(电路图),设备变量led1指向P3组IO口的第7口 sbit vibrate P3^3;//震动传感器DO接P3.3口void Delay2000ms() //11.0592MHz {…

医疗思维图与数智云融合:从私有云到思维图的AI架构迭代(代码版)

医疗思维图作为AI架构演进的重要方向,其发展路径从传统云计算向融合时空智能、大模型及生态开放的“思维图”架构迭代,体现了技术与场景深度融合的趋势。 以下是其架构迭代的核心路径与关键特征分析: 一、从“智慧云”到“思维图”的架构演进逻辑 以下是针对医疗信息化领域…

【JS】接雨水题解

题目 思路 首先我们要明确如何计算每条柱子的接水量: 每条柱子对应接到的雨水量该柱子左边最大值和右边最大值中的较小值-该柱子本身的高度。举例:第二条柱子自身高度为0,左边最大值为1,右边最大值为3,取较小值1-自身…

线代[12]|《高等几何》陈绍菱(1984.9)(文末有对三大空间的分析及一个合格数学系毕业生的要求)

文章目录 一、概述二、平面仿射几何的基本概念三、平面射影几何的基本概念四、变换群和几何学五、二次曲线的射影理论、仿射理论和度量理论六、射影几何公理基础七、非欧几里得几何概要八、自我测试题九、欧氏解析几何、仿射解析几何、射影解析几何与其他(博主借助A…

第3课:状态管理与事件处理

第3课:状态管理与事件处理 学习目标 掌握useState Hook的使用理解组件事件处理机制实现表单输入与状态绑定完成任务添加功能原型 一、useState基础 1. 创建第一个状态 新建src/Counter.js: import { useState } from react;function Counter() {co…

【速写】Transformer-encoder-decoder深度解析

文章目录 一、理论分析1. Transformers概述2. Transformer的输入部分具体是如何构成?2.1 单词 Embedding2.2 位置 Embedding 3 自注意力原理3.1 自注意力结构3.2 QKV的计算3.3 自注意力的输出3.4 多头注意力 4 Encoder结构4.1 AddNorm4.2 前馈4.3 组成Encoder 二、代…

MyBatis八股文-执行流程、延迟加载、一级与二级缓存

(一)执行流程 mybatis-config.xml核心配置文件的作用: 在MyBatis框架的核心配置文件中需要去指定当前的环境配置、指定需要操作的是哪个数据库,并且输入当前的用户名与密码,只有配置了他才能真正操作数据库。同时还去加载了SQL映射文件&#…

基于Spark的哔哩哔哩舆情数据分析系统

【Spark】基于Spark的哔哩哔哩舆情数据分析系统 (完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 本项目基于Python和Django框架进行开发,为了便于广大用户针对舆情进行个性化分析处…

【Linux】日志模块实现详解

📢博客主页:https://blog.csdn.net/2301_779549673 📢博客仓库:https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! &…

Java基础:面向对象高级(四)

内部类(类中五大成分之一) 四种形式 成员内部类【了解】 静态内部类【了解】 局部内部类【了解】 匿名内部类【重点】 枚举 泛型 什么是泛型 泛型类-模拟ArrayList 泛型接口-操作学生,老师增删改查 泛型方法 泛型擦除和注意事项

easy-poi 一对多导出

1. 需求: 某一列上下两行单元格A,B值一样且这两个单元格, 前面所有列对应单元格值一样的话, 就对A,B 两个单元格进行纵向合并单元格 1. 核心思路: 先对数据集的国家,省份,城市...... id 身份证进行排序…

python通过调用海康SDK打开工业相机(全流程)

首先打开海康机器人-机器视觉-下载中心 下载最新版的 MVS 安装后打开目录找到 ...\MVS\Development\Samples\Python 将MvImport内所有文件拷贝至工作目录 然后到 C:\Program Files (x86)\Common Files\MVS\Runtime 找到适合自己系统的版本,将整个文件夹拷贝至工…

manim,制作专业的数学公式动画

manim是一个Python第三方库,全称是mathematical animation engine(数学动画引擎)。manim用于解说线性代数、微积分、神经网络、黎曼猜想、傅里叶变换以及四元数等数学概念。 manim使你能够以编程的方式创建精确的数学图形、动画和场景。与传统的几何画板等绘图软件不同,man…

小刚说C语言刷题——第15讲 多分支结构

1.多分支结构 所谓多分支结构是指在选择的时候有多种选择。根据条件满足哪个分支,就走对应分支的语句。 2.语法格式 if(条件1) 语句1; else if(条件2) 语句2; else if(条件3) 语句3; ....... else 语句n; 3.示例代码 从键盘输入三条边的长度,…