《Image Processing GNN: Breaking Rigidity in Super-Resolution》CVPR2024

news2024/11/27 16:26:49

摘要

这篇论文提出了一种名为Image Processing Graph Neural Networks (IPG) 的模型,旨在通过利用图的灵活性来突破超分辨率(Super-Resolution, SR)中的固有刚性问题。在现有的SR模型中,无论是基于卷积神经网络(CNNs)还是窗口注意力方法,每个像素都以固定的方式聚合相同数量的邻域像素,这限制了它们在SR任务中的有效性。IPG模型通过图的灵活性解决了这一问题,通过度灵活性、像素节点灵活性和空间灵活性来提升SR性能。实验结果表明,IPG在多个数据集上超越了现有的最先进方法。

概述

拟解决的问题

现有的超分辨率模型在处理图像时存在刚性问题,即在聚合邻域像素信息时,每个像素都以相同的方式处理,没有考虑到图像中不同区域的细节丰富程度和重要性。这导致了在细节丰富区域的重建努力不足,而在平坦区域则可能过度处理。

创新之处

  1. 度灵活性(Degree Flexibility):IPG模型根据图像中的细节丰富程度为每个像素节点分配不同的度数,细节丰富的区域(如边缘和角落)会有更高的节点度数,从而能够聚合更多的邻域信息。
  2. 像素节点灵活性(Pixel Node Flexibility):与传统的基于补丁的图节点不同,IPG采用单个像素作为图节点,避免了由于补丁刚性导致的错位问题。
  3. 空间灵活性(Space Flexibility):IPG通过在局部和全局尺度上采样像素节点来构建图,这样可以有效地从局部和全局两个尺度上聚合信息,增强了模型对空间信息的感知能力。

方法

每个 IPG 由 M 个 MGB 块组成,每个 MGB 都有 G个GAL 层。局部和全局图在 MGB 内交替分布到 GLS。

图1

IPG模型的核心在于构建灵活的图并进行有效的图聚合。具体方法包括:

  • 细节丰富度指标(Detail-Rich Indicator):用于衡量像素节点的重要性,并据此分配节点度数。
  • 像素节点:将图像视为像素节点集合,而不是补丁节点,以提高灵活性。
  • 局部和全局图构建:通过在图像的局部和全局尺度上搜索像素节点连接,构建局部图和全局图。
  • 图聚合:采用边条件聚合,同时加入相对位置编码以增强位置信息。

3.1 度灵活性

IPG模型首先识别图像中的细节丰富区域,并为这些区域的像素节点分配更高的度数。这是基于这样的观察:在超分辨率任务中,图像的某些部分(如边缘和纹理区域)需要更多的细节重建工作,而其他部分(如平坦区域)则几乎不需要改变。

为了实现这一点,论文提出了一个细节丰富度指标(Detail-Rich Indicator, DF),用于衡量每个像素节点的重要性。DF是通过计算双线性插值上采样和下采样的特征图与原始特征图之间的绝对差值来计算的:

其中,F 是特征图,s 是下采样比例,这里取为2以避免严重的信息丢失。然后,每个像素节点的度数与其在DF中对应的值成比例:

可视化不同MGB块中细节丰富的指标DF。从图2可以看出,细节丰富的部分有响应:边距和角具有较高的DF,而DF中的平坦色块较低。可视化显示,所提出的DF可以有效地反映图像中各层的高频部分。

图2

3.2 像素节点灵活性

IPG模型采用单个像素作为图节点,而不是像以往的方法那样使用补丁(patch)作为节点。这样做的目的是为了避免在特征聚合过程中出现的错位问题,尤其是在低级特征图中,对象的移动和旋转可能会导致补丁错位。

然而,与像素图相比,补丁图可能具有更大的感知场,并且由于节点总数较少,更容易构建,这意味着边缘连接的搜索空间更小。因此,我们需要一种有效的方法来构建灵活有效的像素图。

3.3 空间灵活性

IPG模型通过在局部和全局尺度上采样像素节点来构建图,这样可以有效地从局部和全局两个尺度上聚合信息。局部采样关注于像素节点周围的邻域,而全局采样则在图像范围内以一种扩展的模式采样节点。

图3 突出显示图像节点(左)、局部采样(中)和全局采样(右)的原始图像。通过这种方式,图像图可以以有效的方式灵活地收集局部和全局信息。

3.4 图聚合

在构建了灵活的图之后,IPG模型执行图聚合操作,使得每个节点可以与其连接的邻居节点通信,并使用它们的信息进行自我精细化。IPG模型采用了边条件聚合(edge-conditioned aggregation),这是一种参数化函数,用于衡量节点对之间的相关性:

其中,f 是一个参数化函数,用于衡量节点对(u, v)之间的相关性,这里使用的是余弦相似度作为相关性度量。Ck是一个归一化常数,确保输出的和为1。 

尽管图聚合的灵活性,但我们关注的是空间信息在图聚合过程中被破坏:由于所有节点都被平等对待,模型将掌握关于节点位置的知识很少。因此,在聚合之前对节点特征添加相对位置编码以增强位置信息。

结论

IPG模型通过图的灵活性在超分辨率任务中取得了突破,相比现有的最先进方法,IPG在多个标准数据集上取得了更好的性能。该模型有效地解决了SR任务中的刚性问题,展示了图神经网络在图像处理任务中的潜力。论文还提到了对计算资源的需求,并提出了轻量级变体IPG-Tiny,以适应计算能力受限的应用场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206867.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新手小白想快速上手Mac的使用必看问题

相信不论是现在还是将来,肯定还是会有Mac小白的存在,对于大多数人来说,从小接触Windows的机会比较多,Windows的使用也是比较多,但是有些朋友在大学的时候想体验一下Mac的感觉,于是果断下单,又或…

[C语言] 函数详解:库函数与自定义函数

文章目录 函数的概念库函数和自定义函数库函数使用库函数示例常用库函数及头文件 自定义函数自定义函数的基本结构示例:实现两个数的求和函数自定义函数的好处 函数的返回值有返回值的函数无返回值的函数 函数的声明与调用声明函数在另一个文件中调用函数示例&#…

51单片机的智能小区安防系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块时钟模块温度传感器烟雾传感器CO传感器红外感应传感器IC卡蓝牙继电器按键、蜂鸣器、LED等模块构成。适用于智能小区安防、智能家居安防等相似项目。 可实现功能: 1、LCD1602实时显示北京时间、温度、烟雾浓度和CO浓…

Kylin系统安装VMwareTools工具

如下图所示,安装好Kylin系统之后,还未安装VMwareTools工具,导致系统画面无法填充虚拟机 正常安装了VMwareTools工具后的系统画面 所以,接下来我们介绍一下如何在Kylin系统下安装VMwareTools工具 首先,点击VMware工具栏…

Android常用布局

目录 布局文件中常见的属性 1. 基本布局属性 1)android:layout_width 2)android:layout_height 3)android:layout_margin 4)android:padding 2. 线性布局 (LinearLayout) 属性 1)android:orientation 2)and…

深度学习神经网络笔记--卷积神经网络

为什么要用卷积 捕捉特征,如文末的图)不受位置影响(左右,前后,上下)可以参考下图:卷积操作 可移动的小窗口与图像数据逐元素相乘后相加小窗口是滤波器,卷积核,&#xff0…

毕业设计之—基于ManTra-Net的图像篡改检测方法研究与应用实现

1.摘要 随着互联网、社交媒体和简易图像操作工具的普及,图像篡改带来的问题日益严重。为了解决这一问题,研究者们利用深度卷积神经网络来检测图像篡改并定位篡改区域。为此我们训练了一个ManTra-Net模型,该模型以TensorFlow为后端&#xff0c…

什么是网络安全等级保护?企业如何建立安全系统?一篇带你快速了解→:

等保测评的定义与目的 等保测评旨在评估信息系统的安全性,并根据评估结果给予相应的安全等级。该等级反映了信息系统在保护国家安全、经济安全、社会公共利益以及个人合法权益方面的能力。通过等保测评,可以确保信息系统符合国家法律法规的要求&#xf…

DSP CMD文件使用

背景描述: 在CCS编译代码时出现如下警告 解决方法: 找到cmd文件(这里是用的系统自动生成的),在Section部分找到对应的核 #ifdef CORE7.text > CORE7_L2_SRAM.stack > CORE7_L2_SRAM.bss > CORE7_L2_SRAM.cio &g…

(28)QPSK调制信号使用矩形脉冲成形的误符号率和误比特率MATLAB仿真

文章目录 前言一、系统模型说明二、MATLAB仿真代码三、MATLAB仿真结果四、仿真结果分析 前言 在QPSK通信系统仿真时,经常会加入调制信号的脉冲成形模块,本文将讨论在这种情况下信道的信噪比该如何设置,并给出MATLAB仿真代码,画出…

滑动窗口_⽔果成篮找到字符串中所有字⺟异位词

⽔果成篮 904. 水果成篮 - 力扣(LeetCode) 相当于求数字种类不超过2的最长字字符串 我们先看一看例4.从第一个元素开始最长字符串3331,下一次从第二个位置数吗?没必要,因为只有当字符串中数字种类变为1时,…

库的相关使用

1.1 库的概念 库是由.c文件编译生成的二进制文件。 库的内部就是各种函数的实现。 windows中库的格式: xxx.dll -- 动态库 xxx.lib -- 静态库 linux中库的格式: libxxx.a --- 静态库 libxxx.so --- 动态库 2.1 静态库的制作和使用 2.1.1 静态库的…

9.2分新剧教你如何面对生活的苦涩与温暖

如果你最近在寻找一部既温暖治愈,又能引发思考的好剧,《住宅区的两人》无疑是个不错的选择。虽然没有大起大落的情节,但它却用温柔的叙事方式和细腻的情感刻画赢得了观众的心,目前在豆瓣上拿下了9.2的高分。这部剧带给人的不仅仅是…

图片懒加载(lazyload )

图片懒加载 懒加载(Lazy Loading)是一种计算机编程技术,用于延迟初始化对象或资源,直到它们实际需要使用时才进行加载或初始化。这种技术可以提高程序的启动速度和性能,减少不必要的资源消耗,特别是在处理…

基于头脑风暴优化的模糊PI控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 头脑风暴优化(Brain Storm Optimization, BSO)是一种受人类集体创新过程启发的群体智能算法。它通过模拟团队成员之间的信息交流和想法生成来寻找最优解…

【含开题报告+文档+PPT+源码】基于SpringBoot+Vue医药知识学习与分享平台的设计与实现

开题报告 本论文介绍了一个名为岐黄之家的知识学习与分享平台的设计与实现。该平台旨在为用户提供一个交流、学习和分享医药知识的空间。论文首先介绍了中医院交流平台的背景和相关研究现状。随着互联网的快速发展,中医学的学习和交流需求逐渐增多,因此…

77.【C语言】EOF的解释

1.cplusplus网的介绍 在这几篇文章提到过,但没有详细阐释过EOF的细节 24.【C语言】getchar putchar的使用E4.【C语言】练习:while和getchar的理解32.【C语言】详解scanf 75.【C语言】文件操作(3) cplusplus网的介绍 点我跳转 翻译 常量 EOF 文件结束(End-Of-Fi…

新版Win32高级编程教程-学习笔记01:应用程序分类

互联网行业 算法研发工程师 目录 新版Win32高级编程教程-学习笔记01:应用程序分类 控制台程序 强烈注意 窗口程序 启动项 程序入口函数 库程序 静态库 动态库程序 几种应用程序的区别 控制台程序 本身没有窗口,其中的doc窗口,是管…

大数据之——VWare、Ubuntu、CentOs、Hadoop安装配置

前言:这里很抱歉前几期考研专题以及PyTorch这些内容都没有更新,并不是没有在学了,而是事太鸡儿多了,前不久刚刚打完华为开发者比赛,然后有紧接着高数比赛、考研复习,因此这些后续文章都在草稿状态中&#x…

yolov8-melodic-cam-anconda环境配置及目标检测

1、基础环境安装 安装配置cuda、Anconda等环境,具体安装参考如下: https://blog.csdn.net/weixin_45702256/article/details/142555187 2、torch安装 下载链接:https://pytorch.org/ 根据配置下载对应版本,CUDA11.4 可用11.3下…