ICLR 2024 Spotlight|SEAL:面向真实场景超分辨率的系统性评估框架

news2025/1/16 20:15:20

图片

研究背景 

现实世界图像超分辨率(Real-World Super-Resolution, Real-SR)技术,作为提升图像清晰度的关键技术,正变得越来越重要。然而,如何准确评估Real-SR方法的性能,一直是该领域的一大挑战。目前的评估方式往往通过从一个大退化空间中随机选取的一小组退化来构建测试集,并计算出小测试集上的平均性能来对模型进行评估,这样的方式往往无法全面了解 real-SR模型的整体性能,还可能会产生不一致且具有误导性的结果。为了解决这个问题,我们提出了SEAL--一个real-SR系统评估框架。

SEAL通过对退化空间进行聚类,找到了一组具有代表性的退化样本,用于构建大尺度测试集。进一步,SEAL提出了一个从粗到细(coarse-to-fine)的评估协议,以衡量真实SR方法在测试集上的分布和相对性能。该协议包含两个新的系统性评估指标:接受率(AR)和相对性能比(RPR)。在SEAL的评估下,我们对现有的real-SR方法进行了基准测试,获得了系统性的对比结果和新的观测现象。

本文获得了 ICLR 2024 Spotlight, 点击底部“阅读原文”即可获取论文全文!

回顾真实超分辨率模型的评估策略 

为了评估Real-SR 方法的性能,现有的工作直接根据 IQA 指标(如 PSNR)计算随机抽样的小尺寸测试集上的平均性能[1][2]。然而,我们发现这种评估方案存在很严重的缺陷。由于退化空间的广阔性,随机选择的小测试集无法可靠地表示退化空间,可能会导致评估结果出现严重偏差和随机性。此外,目前的评估策略不足以全面的 real-SR 方法在整个退化空间中的泛化性,因为它们通常是对所有测试样本的量化结果进行平均,而无法判断在哪些退化任务上取得了好的性能。

图片

如图 1 (b)所示,一种方法可能在 60% 的退化类型上优于另一种方法,但它在一个小的测试集中可能无法获得更高的平均 PSNR 值。平均分不能充分体现整体性能和分布。此外,如果我们的目标是提高平均分数,那么我们可以只专注于提高简单的退化任务(如小噪声或模糊)的性能,但这会对困难的退化任务产生不利影响。这将违背我们的主要目标。相反,一旦我们在简单的情况下取得了令人满意的结果,我们就应该把重点转向具有挑战性的情况,以提高整体性能[3]。综上,我们需要一个能够全面评估真实 SR 方法性能的新框架。 

通过以上分析,我们发现当前的真实超分辨率模型评估面临着如下挑战: 

(1)由于退化空间包含海量的退化任务,如何评估它们的整体性能?直接对所有退化进行测试显然是不可行的,如何选择代表性的退化任务,进而构建大尺度的测试集? 

(2)在大尺度的测试集上,传统的使用均值来代表模型的性能难以反映模型的整体性能,如何设计新的指标来反映模型在大尺度测试集上的综合性能?

SEAL:一个大尺度系统性评估框架 

我们提出了SEAL(Systematic Evaluation of Real-World Super-Resolution)框架来解决上述挑战。通过退化聚类表征技术,SEAL能够将复杂的退化空间进行稀疏化,形成具有代表性的退化任务,为Real-SR方法的大尺度系统性评估提供了新的解决路径。 

如下图所示,我们提出的评估框架包括基于聚类的退化空间表示方法和一套基于代表性退化任务的系统性评价指标。具体来说,我们将退化空间划分为 K 类,并使用类中心的退化参数创构建了K 个退化任务数据集。为了对大尺度的测试集上的性能提供参考,我们采用了经典的real-SR模型和 SOTA 的 real-SR模型作为及格线(Acceptance Line)和优秀线(Excellence Line)。待测试的真实 SR 模型在 K 个测试数据集上的分布式性能将与及格线和优秀线进行比较,并通过一系列指标进行评估,包括 AR(及格率)、RPR(相对性能比)、RPR_A(可接受退化任务的平均 RPR)和 RPR_U(不可接受退化任务的平均 RPR)。

图片

退化空间的生成(Generating the degradation space)在真实场景超分的研究中,现有的工作一般采用多个退化的组合来模拟真实场景退化过程[1][2],因此,退化空间对高分辨率图像(HR)的作用过程可以表示为:

假设有 s 种退化类型(如模糊、重采样、噪声和压缩),每种类型包含  个离散的退化级别。总退化任务的个数应为。如果 , ,那么退化空间中包含的任务将达到,这已经是一个天文数字了。显然,从如此巨大的空间中随机抽取有限数量的退化来构建一个只包含 100 张图像的测试集并不能充分代表整个空间,这将不可避免地导致不一致和潜在误导性的结果。 

退化空间的表示(Representing the degradation space)为了表示退化空间 D,一种直接的方法是按退化参数划分空间,这种方式听起来似乎是合理的。然而,我们发现不同退化类型的组合可能具有相似的视觉效果和复原难度。如下图所示,经过不同退化的图像具有相似的外观。这表明使用图像的特征而不是退化参数来区分退化图像可能更为合理。

图片

为了有效的表示大退化空间,我们采用了谱聚类方法来对退化图像的直方图特征进行聚类,进而将类中心作为大退化空间下的代表性退化任务。可以得到如下的代表性退化任务集。

大尺度系统性测试集(Large-scale systematic test sets)我们利用聚类中心的退化参数构建了一组用于系统评估测试集(SE test set):

分布式绝对性能(Distributed Absolute Performance)为了全面系统地展示real-SR 模型在上的性能,最直接的方式是对 real-SR 模型计算其在上的分布式绝对性能。

分布式相对性能(Distributed Relative Performance)为了全面系统地展示real-SR 模型在上的性能,我们提出了一组新的评价指标来展示 real-SR的不同特性。 

及格线和优秀线(Ac. and ex. line)我们提出了两条参考线来为模型的评价提供基准,这两条参考线为不同的超分模型在上的测试性能。

及格率(Acceptance rate)(AR) 衡量实际 SR 模型所有 K 个代表性退化任务中可接受案例的百分比。可接受案例是指实际 SR 模型的性能超过接受线的退化任务。

相对性能比 (Relative Performance Ratio)(RPR) 用于比较同一尺度下real-SR 模型在及格线和优秀线的相对性能提升。

RPR四分位(Interquartile range of RPR)采用了第 75% 和 25% 位置的RPR分数的差来表示,反映了real-SR 模型在整个测试集上的性能提升的变化范围。

及格任务的RPR分数(Average RPR on acceptable cases )计算了及格任务的的 RPR 分数的平均值:

不及格任务的RPR分数(Average RPR on unacceptable cases )计算不及格任务的的 RPR 分数的平均值:

可定制化的由粗到细的评估流程。根据所提出的指标,我们制定了一个从粗到细的评估协议,对不同的real-SR 模型进行对比。如图所示,模型按优先级顺序依次通过建议的指标进行比较。AR 代表粗粒度比较,而 RPR 则提供细粒度比较。如果它们的性能与当前指标过于接近,则使用下一个指标对它们进行排序。由于每个指标具有不同的含义,这个流程可以根据用户的偏好来自由的定制。

图片

实验结果 

MSE-based实验结果

图片

图片

实验结果的图 4 中展示了分布式性能对比,这可以给用户提供大退化空间下多个单退化任务的性能对比。通过我们提出的系统性评测指标,表格 1 也提供了综合性排名,当 AR 大于 0.25 时,我们继续采用 RPR 进行排名。我们发现大部分的方法的 AR 分数都低于 0.5,这意味着都没有超过及格线(FSRCNN),这意味着大部分的 real-SR网络在超过一半的退化任务上比一个小网络 FSRCNN 还差。此外,相比于PSNR 的平均值,我们的 SEAL 评估框架可以提供更系统性、全面性的对比。类似的现象在如下的 GAN-based结果上也可以观测到。 

GAN-based实验结果

图片

在 Tab.1和 Tab.2中,由于AR 较低,我们在排名中排除了real-SR 模型中AR低于 0.25 的模型。对于real-SR 模型中  的模型,将根据 {, , , } 进行逐步排序,阈值分别为 {0.02, 0.02, 0.05, 0.05} 。如果当前指标的差值超过了阈值,则使用该指标代表整体排名。否则,将考虑下一个指标。从我们提出的 SEAL 评估中,我们可以得出以下几点结论:

(1) 现有的一些方法在大多数降解情况下都失败了。如表1和表2所示,一些现有方法的  值低于 0.5。例如,在大多数降解情况下,大多数基于 MSE 的真实 SR 模型甚至无法超越小型网络(即 FSRCNN-mz)。

(2) 我们的 SEAL 能够从多个维度对现有方法进行排序,如鲁棒性(  )和相对性能提升(  )。例如,在 Tab. 2中,与 SwinIR(=0.24)相比,基于度量学习的 MMRealSR 具有显著的鲁棒性( 0.08)。因此,根据我们目前从粗到细的评估协议,MMRealSR 排名第一。有趣的是,我们发现在相同的  水平下,SwinIR 实现了更高的 。如果用户优先考虑在可接受任务的性能,SwinIR 将是更好的选择。因此,我们也可以灵活地将  设置为第一个更精细的指标。 

(3) 接受线可以作为视觉效果对比的参考线。视觉结果对比显示在 Fig.1和 Fig.2 中。很明显,接受线的视觉结果可以作为图像质量的基本要求,而优秀线的视觉结果则代表了当前评估协议下图像质量的上限。低于接受线的视觉效果明显表现出不可接受的视觉效果,包括模糊(如图中 RealSRGAN 和 DASR 的鳄鱼的视觉效果)、过度锐化(如图中 RealESRNet 的文本结果和其他伪影。值得注意的是,我们的 SEAL 可以根据未来的需要灵活使用新的参考线。

与传统方法的对比 

我们随机抽取 100 个退化任务,将其添加到 Set14 中,得到 100 个测试集(Set14-Random)。表 3 显示:1)在两个 Set14-Random100 数据集上获得的 PSNR 平均值(mean)和标准差(std)显示出明显的不一致性,表明在采样的退化任务中存在很高的随机性和可变性。2) 在我们的 Set14-SE(由 100 个代表性案例组成)上,比较方法的平均值(mean)和标准差(std)非常接近,因此很难在各种方法之间建立一个具有明显差异的清晰排名。因此,随机生成的测试集无法提供差异化的排名。相比之下,我们的 SEAL 可根据 AR 分数对这些方法进行明确排名,提供了一种新的系统评价视角。

图片

总结 

在这项工作中,我们开发了一种新的评估框架,用于公平、全面地评估real-SR 模型。我们首先使用基于聚类的方法来模拟一个大的退化空间,并设计了两个新的评估指标--AR 和 RPR,用于对 real-SR模型在代表性的退化任务上的评估。然后,我们用提出的评估流程对现有的real-SR 方法进行基准测试,并展示了新的观察结果。最后,我们对退化聚类进行了广泛的对比研究。通过大量的实验和分析,我们证明了 SEAL 的有效性和通用性。 

SEAL可以做什么 

SEAL 提供了大退化空间下性能观测的一个工具。我们可以使用 SEAL 去观测新的模型设计对整个退化空间上不同任务带来的影响,进一步发现更多的 insights,作为新研究的 motivation。此外,SEAL也可以作为全方位对比工具,对设计好的模型和现有模型性能进行对比,以展示新设计模型的特性。 

如果这个工作可以给你带来一点帮助,欢迎大家star我们的开源仓库(https://github.com/XPixelGroup/SEAL)。我们会在近期更新出下一版本的 SEAL benchmark 结果,进一步改进了退化空间表示的方法,构建了新的轻量又具有多样性的 Seal100测试集,提供了 Diffusion-based real-SR测试结果,敬请大家关注!也欢迎联系(wenlong.zhang@connect.polyu.hk)进行进一步的讨论和合作。

参考文献

[1]. Zhang K, Liang J, Van Gool L, et al. Designing a practical degradation model for deep blind image super-resolution[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 4791-4800. 

[2]. Wang X, Xie L, Dong C, et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1905-1914. 

[3]. Zhang W, Li X, Shi G, et al. Real-world image super-resolution as multi-task learning[J]. Advances in Neural Information Processing Systems, 2024, 36.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2208200.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mig IP核的学习

mig全称是Memory Interface Generator。 参考自视频:MIG IP配置_哔哩哔哩_bilibili DDR基础知识 时钟类型 使用流程 选择DDR3 16是地址线的位宽 能在DDR3的型号MT41K256M16XX-125中看出来。 怎么选择clock period 靠的是 芯片型号中的 -125,然后算出 800MHZ,…

【市场解读】中国智能电车发展趋势

参考文献:汽车之家-《2024中国智能电动车发展趋势洞察报告》 市场趋势 汽车消费 新能源渗透率持续走高,在2024上半年已达到42%,有望在2025冲刺60%。用户对新能源车的关注度也持续增长。 新能源车新品投放加速,其中混动新品投…

QT 10.11

作业&#xff1a;将数据库和图像处理自己实现一遍 数据库操作 源文件 #include "widget.h" #include "ui_widget.h" #include<QMessageBox> #include<QDebug> #include <QTableWidget> Widget::Widget(QWidget *parent) : QWidget(pare…

如何在 idea 中移动类

今天在项目中出现了一个问题&#xff0c;大哥告诉我说&#xff0c;我的类放错包了&#xff0c;但是此时这个类我已经写得差不多了&#xff0c;有很多其他类中都用的是当前包的路径&#xff0c;那么该如何简单的将类移动位置呢&#xff1f; 1.右击你要移动的类&#xff0c;依次…

包含957,174个局部最优解,为优化算法评估提供了新的视角

2024-10-03, 英国诺丁汉大学数学科学学院的Gary R. Mirams教授团队创建了一个基于英国地形的二维优化基准数据集,该数据集包含了经过修改的英国地形数据&#xff0c;并从中识别出了957,174个局部最优解&#xff0c;为优化算法的评估提供了新的视角。 一、研究背景&#xff1a; …

使用 `curl` 命令时遇到 “option --data-raw: is unknown“ 错误的解决方案

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Unity 如何在 iOS 新增键盘 KeyCode 响应事件

1.定位到文件UnityViewKeyboard.mm同如下路径: 2.打开该Objective-C脚本进行编辑,找到关键函数: createKeyboard: - (void)createKeyboard {// only English keyboard layout is supportedNSString* baseLayout "1234567890-qwertyuiop[]asdfghjkl;\\zxcvbnm,./!#$%^&am…

【C语言】深入理解指针(二)(下)

本篇博客将讲解以下知识&#xff1a; 1、二级指针 2、指针数组 3、指针数组模拟二维数组 1、二级指针 指针变量也是变量&#xff0c;是变量就有地址&#xff0c;那指针变量的地址存放在哪里&#xff1f;二级指针 如何理解二级指针&#xff1f; 以上述代码为例&#xff1a; i…

多点无人机 组网系统技术详解

多点无人机组网系统技术&#xff0c;作为一种先进的多无人机协同作业技术&#xff0c;其核心在于通过先进的通信技术将多架无人机连接成一个高度协同的空中网络&#xff0c;以实现信息共享、任务分配、协同作业等功能。以下是对该技术的详细解析&#xff1a; 一、技术概述 多…

基于SSM的朋辈帮扶系统

文未可获取一份本项目的java源码和数据库参考。 一、本课题研究意义 随着市场经济发展的不断深入&#xff0c;高校学生面临着新的问题和挑战。在全球一体化、价值观多元化、信息网络化的大背景下&#xff0c;越来越多的学生承受着来自社会、家庭与自身方方面面的压力&#xf…

在word/wps中优雅的插入代码

​​​​​​​使用的网址如下&#xff1a;在线美化代码并支持一键黏贴到文档中 使用方式&#xff1a; 1、登录到在线网页中&#xff0c;输入需要格式化的语言&#xff0c;例如JSON 2、点击高亮代码&#xff0c;即可生成格式化后的JSON代码 3、将生成的代码直接复制到wps文档…

软件功能测试重点和流程有哪些?专业软件测评服务公司推荐

软件功能测试就是对产品的各功能进行验证&#xff0c;根据功能测试用例&#xff0c;逐项测试&#xff0c;检查产品是否达到用户要求的功能。功能测试也叫黑盒测试或数据驱动测试&#xff0c;只需考虑需要测试的各个功能&#xff0c;不需要考虑整个软件的内部结构及代码.一般从软…

uniapp__微信小程序使用秋云ucharts折线图双轴

1、子组件 <template><view class"charts-box"><qiun-data-charts type"line":opts"computedOpts":chartData"chartData"/></view> </template><script> export default {props: {chartData: {t…

什么充电宝牌子质量好又靠谱?2024年热销款充电宝型号推荐

在快节奏的现代生活中&#xff0c;充电宝已成为我们随身携带的必需品&#xff0c;为智能手机、平板电脑等电子设备提供随时随地的电力支持。然而&#xff0c;面对市场上琳琅满目的充电宝品牌和型号&#xff0c;如何挑选一款既质量好又靠谱的产品&#xff0c;成为了许多消费者关…

六西格玛黑带项目:TBX-02无人机飞行稳定性提升——张驰咨询

一、项目背景与问题定义 TBX-02是该公司最新发布的消费级无人机&#xff0c;面向摄影爱好者和户外探险者。产品上市后&#xff0c;通过客户反馈和实际测试数据发现&#xff0c;该无人机在复杂飞行环境中&#xff0c;如强风或快速移动时&#xff0c;存在明显的飞行抖动和稳定性…

多线程会在一个事务里面吗?

目录 多线程会在一个事务里面吗&#xff1f; 多线程、数据库事务以及数据库连接之间的关系 Spring的事务管理​​​​​​​ 声明式事务Transactional的实现原理 声明式事务Transactional的失效场景 Transactional注解的方法不是public为什么会失效 Spring AOP的代理机制…

STM32CUBEIDE FreeRTOS操作教程(六):recursive mutexes递归互斥信号量

STM32CUBEIDE FreeRTOS操作教程&#xff08;六&#xff09;&#xff1a;recursive mutexes互斥信号量 STM32CUBE开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件&#xff0c;不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开…

【devops】x-ui 实现一键安装 x-ray 打造高速国际冲浪 | xray管理平台

一、部署X-UI篇 1、Github 地址&说明 github地址如下&#xff1a; https://github.com/FranzKafkaYu/x-ui?tabreadme-ov-file 2、一键部署 2.1、更新并安装curl #Ubuntu、Deibian系统 apt update && apt upgrade -y apt install curl -y #CentOS7 系统 yum…

深度解读企业数字化转型中的关键问题与解决方案

1. 数字优先的力量&#xff1a;如何通过文化变革推动企业迈向数字化未来 数字化转型的核心驱动力 数字优先策略是现代企业应对数字化转型挑战的关键&#xff0c;但其复杂性远超一般技术策略。企业通过将数字优先文化嵌入业务模型&#xff0c;可以在跨部门合作、运营优化和创新…

锐捷园区交换、无线领跑教育行业,以太彩光助力教育网络革新

IDC报告显示,2024年上半年,锐捷园区交换和无线在教育行业市场份额获双第一。 锐捷极简以太彩光:教育网络革新方案 以太彩光的技术创新,为教育数字化承载网络提供了更高效、稳定、简运维的前瞻性网络解决方案。2024年,锐捷极简以太全光3.X方案再次升级,同时支持光改、光混、彩光…