Blindly Assess Image Quality in the Wild Guided by ASelf-Adaptive Hyper Network

news2024/11/16 15:36:35

Abstract

真实失真图像的盲图像质量评估(BIQA)一直是一个具有挑战性的问题,因为在野外采集的图像包含各种各样的内容和各种类型的失真。目前绝大多数的BIQA方法都专注于如何预测合成图像的质量,但当应用于真实世界的失真图像时却失败了。为了应对这一挑战,我们提出了一种自适应超网络结构,以盲评估图像质量在野外。我们将IQA过程分为三个阶段,包括内容理解、感知规则学习和质量预测。在提取图像语义后,通过超网络自适应建立感知规则,并将其应用于质量预测网络。在我们的模型中,图像质量可以自适应的方式估计,从而很好地适用于在野外捕获的各种图像。实验结果表明,我们的方法不仅在挑战真实图像数据库上的性能优于目前最先进的方法,而且在合成图像数据库上也达到了与之竞争的性能,尽管它不是专门为合成任务设计的。

1. Introduction

图像质量评估(IQA)的目标是使计算机能够像人类一样感知图像质量。在过去的几十年里,人们付出了巨大的努力,提出了各种IQA方法。尽管他们在评估实验室合成的扭曲图像方面取得了成功,但对真实扭曲图像的IQA仍然是一个挑战。挑战主要体现在三个方面:

首先,由于无法获取参考图像,野外IQA仅限于盲IQA (BIQA)领域。参考图像的局限性已被广泛接受,使BIQA成为三种IQA中最难解决的问题,即全参考IQA (FR-IQA)、减少参考IQA (RR-IQA)和非参考IQA (NR-IQA)。其次,与普通的合成失真(如高斯模糊、JPEG压缩)添加到整个图像区域不同,真实失真更加复杂。捕获的图像不仅存在全局均匀畸变(如失焦、低照度),而且在局部区域还存在其他类型的非均匀畸变(如物体移动、过光、重影)。因此,算法面临的挑战是准确捕捉全局和局部的畸变,并将它们合并成一个适当的质量预测。第三,与合成的IQA数据库相比,图像内容变异是IQA任务中一个典型的挑战,对真实的IQA数据库来说难度更大。现有的合成IQA数据库LIVE[34]、TID2013[32]和CSIQ[21]仅包含不超过30张的参考图片,图像内容意义受限,而真正的IQA数据库LIVE Challenge[8]和KonIQ-10k[13]分别包含1169张和10073张包含不同内容的图片。这种巨大的内容变异对现有的IQA方法的泛化能力提出了很大的挑战。

由于失真的多样性和内容的多样性,真实失真图像的IQA问题一直没有得到很好的解决。如图1所示,提取的特征随着图像的变化而变化,导致质量预测与平均意见评分(mean opinion score, MOS)不一致。在之前的工作中,无论是手工制作的基于特征的方法,还是具有浅层架构的网络,都不能很好地解决综合IQA任务,都不能处理真实的失真。这表明低水平的特征不足以表现现实世界中的复杂失真。因此,人们尝试使用深度语义特征作为质量描述符:在分类任务中预先训练的深度模型被用来预测真实世界的失真。这背后的假设是,真实的扭曲实际上存在于图像生成的分类数据库(如ImageNet[7])中,而且这些预先训练的特征在某种程度上已经具有质量意识。

虽然这些尝试取得了有希望的改善,但仍缺乏进一步的努力。具体来说,简单地采用网络体系结构(最初是为学习如何识别对象而设计的)来完成IQA的任务存在两个缺点。首先,目前的深度模型只学习全局特征进行分类。然而,对于真实的IQA来说,存在着许多不同的扭曲,其中大部分存在于当地。忽略局部模式可能会导致预测的质量与人类视觉感知的不一致,因为人类视觉系统(HVS)对局部畸变很敏感,而图像的其余部分表现出相当好的质量[21]。其次,随着图像内容的变化,人类感知不同物体质量的方式也会发生变化。如[22]所示,一个清晰的蓝色天空的图像会被人类检查员认为是高质量的,而大多数IQA方法会因为图像包含的大面积平坦而误认为是一个模糊的图像。因此,在识别图像内容之前直接预测图像质量不符合人类感知世界的规律。在HVS中,自顶向下的感知模型表明,人类在注意其他相关的子任务(如质量评估)之前,会试图理解图像。然而,在目前的模型中,将IQA任务融合到语义识别网络中,迫使网络同时学习图像内容和图像质量,而让网络在识别图像内容后学习如何判断图像质量更为合适。

在本文中,我们的目标是开发一个真实的IQA方法,通过考虑上述两个挑战经常出现在现实世界的图像:失真多样性和内容变化。我们提出了一种局部失真感知模块来从多尺度中提取局部特征来处理失真多样性,并引入了一种超网络结构来动态生成权值来覆盖广泛的内容变化的质量预测网络。在我们的方法中,所提出的超网络可以根据其识别的内容自适应学习质量感知规则,目标网络遵循这种方式给出最终的质量预测。通过根据图像内容判断图像质量,该网络有望给出更符合人类感知的预测。总的来说,本文方法的主要贡献可以归纳为三个方面:

•为了提高对野外图像的评估能力,我们提出了一种基于超网络的IQA模型,该模型可以自适应调整质量预测参数。该网络以内容感知的方式预测图像质量,识别过程后的感知更符合人类认识世界的方式。

•由于局部特征有利于处理图像中的不均匀失真,我们引入了局部失真感知模块,进一步捕获图像质量。我们集合局部失真特征和全局语义特征来收集细粒度细节和整体信息,然后根据这种多尺度表示预测图像质量。

•实验结果表明,尽管我们没有专门设计提取合成特征的模型,但我们的方法不仅在真实的IQA数据库上优于其他竞争对手,而且在合成的IQA数据库上也达到了竞争对手的结果。这表明我们提出的模型是强大的和可推广的。

2. Related Work

2.1. IQA for Synthetically Distorted Images

在过去的几十年里,人们对综合IQA进行了大量的研究,主要有基于手工特征的IQA和基于学习特征的IQA两种方法。手工制作的基于特征的方法通常利用NSS模型来捕捉失真。通过对对失真外观敏感的场景统计建模,可以检测和量化图像质量的退化程度。这些质量感知的自然场景参数包括离散小波系数[30]、跨子带相关系数[1]、DCT系数[33]、局部归一化亮度系数及其两两乘积[29]、图像梯度、log-Gabor响应和颜色统计[3]。用于从合成畸变图像中获取统计信息的分布模型包括广义高斯分布(GGD)[29,30]、非对称广义高斯分布(AGGD)[3,29]、威布尔分布[3]、三阶多项式[33]和直方图计数[38]。然而,这些手工制作的功能,需要专业的设计和耗时。另外,场景统计特征从全局的角度表征图像质量,无法度量真实畸变图像中常见的局部畸变。

受机器学习在许多计算机视觉任务中的成功启发[9,10,39,40],一些基于学习的方法也被提出。在早期,引入了基于码本的学习方法[37,42,43,45]。由于其强大的学习能力,基于CNN的方法被提出,并在合成IQA中取得了显著的进展。在[14]中,使用继承自[43]的简单的pooling策略CNN进行质量预测。Ma等人[27]提出了一种更深层次的网络,可以同时学习失真类型和图像质量。在[16,23,31]中,我们学习了畸变图像的误差映射来指导质量预测,学习误差映射的方法包括残差误差[16]的训练、由FR-IQA方法计算的质量映射[31]和GAN生成的图像参考[23]。[24]和[26]注意到现有IQA数据库中训练数据的大小有限,提出通过标注训练样本的质量等级而不是质量分数来生成大量的训练样本。使用Siamese网络[5]和RankNet[4]体系结构分别学习图像的秩。

虽然这些IQA方法在合成数据库上取得了很大的性能改进,但在面对大规模数据时仍存在挑战[25,28],这表明内容变异的问题还没有得到很好的管理。研究还表明,IQA模型在合成数据库上表现良好,在真实的IQA数据库上给出了不准确的预测,这表明在野外存在的各种畸变类型的特征不能很容易地被设计用于提取合成畸变的体系结构捕获。

2.2. IQA for Authentically Distorted Images

虽然大多数的IQA模型都集中在合成失真的图像上,但针对更具挑战性的真实IQA问题的研究相对较少。在深度学习的辅助下,深度语义特征能够有效地表征图像质量。在[17]中,Kim等人表明,AlexNet[20]和ResNet[12]在ImageNet等分类数据库上预先训练的深度特征与感知质量有很强的关系,并取得了卓越的准确性。在[13]中,测试了更多的预先训练的基线网络,结果证实了语义特征在解决野外IQA问题中的力量。在[46]中,引入了两流网络结构来预测合成图像和真实图像的畸变。在他们的工作中,真实的质量预测流采用了vgg - 16[35]进行特征提取。在[22]中,Li等人提出利用多块ResNet50特征的统计量进行质量预测。最近,Zhang et al.[47]提出使用合成数据库和可信数据库中的图像对训练IQA模型,用于特征提取的骨干是ResNet-34。可以看出,目前的模型直接利用语义学习网络的输出特征进行质量预测,但主要存在两个缺陷:首先,将语义学习和质量预测混合在一个网络中,忽略了图像语义对质量感知方式的影响,而在HVS中,图像质量是在识别出图像内容后进行判断的。其次,由于深度语义特征是在全局尺度上提取的,因此忽略了图形化图像中普遍存在的局部失真问题。因此,网络无法捕捉图像的细节质量,导致预测不准确。

在这项工作中,我们提出了一种新的多尺度特征融合超网络结构来预测在野外的图像质量。以往的模型将语义理解和质量预测结合在一起,而我们将质量预测过程分为两个步骤:首先学习图像语义特征,然后根据图像所传递的内容预测质量。这个过程遵循了人类自上而下的感知流程,我们设计了一个超网络连接来模仿从图像内容到感知质量的方式的映射。此外,除了简单地使用全局语义特征来理解内容外,我们还提出融合多尺度的局部失真特征来更好地表征图像质量。通过这种方式,我们的质量预测程序变得自适应,内容感知,并能够从图像中捕捉细节和整体信息。

3. Proposed Method

在本研究中,我们的目标是开发一个根据图像内容自适应预测图像质量的质量评估网络。我们的网络体系结构如图2所示。该网络由三部分组成:提取图像语义特征的主干网络、预测图像质量的目标网络和生成目标网络自适应参数的超网络。我们将首先介绍我们的自适应IQA模型,然后在下面介绍三个子网的细节。

3.1. Self-Adaptive IQA Model

传统的基于深度学习的质量预测模型接收输入图像,直接将其映射为质量分数,其过程描述如下:

 该预测模型暗示了提取同一种质量特征来预测不同的图像。然而,在实际中,由于图像内容不同,使用相同的规则来预测不同图像的质量并不能完全覆盖它们不同的展示结构。如[22]所示,人类会将清晰的蓝色天空的图像视为高质量的,而对于质量预测模型来说,这张图片最有可能被视为模糊污染的图像,因为它包含了大面积的平坦区域。这种错误预测的原因是对图像语义的忽视。对于人类来说,在理解图像内容的条件下,使用相应的规则来判断图像的质量。因此,为了模拟人类的感知过程,我们将IQA的任务建模如下:

 

 

 通过引入中间变量θx和超网络,将IQA任务划分为三个步骤:语义特征提取、感知规则建立和质量预测。我们使用骨干网提取图像的语义特征S(x),使用超网络学习质量感知规则θx,使用质量预测目标网络获得最终的质量分数q。与式(1)中的质量预测模型不需要语义理解或内容识别直接估计图像质量不同,我们提出的模型遵循自上而下的感知机制,因为它试图理解图像,直到它执行质量判断的任务。这种设计使得我们的网络在面对内容变化的图像时能够更加灵活地提取影响图像质量的因素。此外,所提出的质量预测过程也更符合人类对图像质量的感知方式。

为了减少目标网络参数θx的数量,也为了更容易训练,我们将目标网络的输入简化为内容感知向量vx = Sms(x),其中Sms表示内容感知向量也被主干语义抽取网络提取,但融合了多尺度特征来捕捉图像中的局部失真。在此变更下,整个基于超网络的IQA模型可描述为:

 在质量预测模型的基础上,我们提出了以下三个子网络的结构。

3.2. Semantic Feature Extraction Network

如图2所示,我们的网络体系结构的前端部分是一个通用的语义特征提取网络。语义提取网络以理解图像内容为重点,输出两条特征流进行质量预测。将语义特征S(x)直接输入超网络进行权重生成,将多尺度内容特征流Sms(x)作为目标网络的输入。我们之所以提取多尺度的内容特征,是因为最后一层提取的语义特征仅仅代表了整体的图像内容。为了捕捉现实世界的局部失真,我们提出了一种通过局部失真感知模块提取多尺度特征的方法。如图3所示,我们设计的局部失真感知模块包括一系列操作,包括将多尺度特征图划分为不重叠的小块,将小块沿通道维数叠加,进行1×1卷积并将其全局平均为向量。该模块可以看作是一种基于注意力的补丁提取器,能够感知局部畸变对应的特征补丁,从而更好地捕捉其质量。

具体而言,我们使用ResNet50[12]作为语义特征提取的主干模型。使用ImageNet[7]上的预训练模型进行网络初始化。在我们的网络中,去除原始ResNet50的最后两层,即平均池化层和全连接层,输出特征流。我们从conv2 10、conv3 12、conv4 18层中提取多尺度特征作为局部失真感知模块的输入,该模块输出多尺度内容向量vx。

3.3. Hyper Network for Learning Perception Rule

受[19]的启发,我们的超网络由三个1×1卷积层和几个权值生成分支组成。由于在本文提出的网络中,全连通层作为基本的目标网络组件(见3.4节),因此需要产生两类网络参数,即全连通层权值和偏差。对于不同类型的参数,我们使用不同的权值生成方法。全连通层权值是通过对提取的特征进行卷积和重塑操作生成的,而全连通层权值是通过简单的平均池化和全连通产生的,因为偏置权值的参数量要少得多。根据目标网络中对应层的尺寸确定卷积层和全连通层的输出通道,进行尺寸匹配。将生成的权值作为感知图像质量的规则,进一步指导目标网络进行图像质量预测。

3.4. Target Network for Quality Prediction

由于语义提取网络提取的多尺度特征是内容感知的,目标网络的功能就是简单地将学习到的图像内容映射到质量分数。因此,我们使用一个小而简单的网络来进行质量预测。如图2所示,我们的目标网络由四个全连通的层组成,接收多尺度内容特征向量作为输入,通过权值确定的层进行传播,得到最终的质量分数。在目标网络中,我们选择sigmoid函数作为激活函数。

3.5. Implementation Details

我们通过PyTorch实现了我们的模型,并在NVIDIA 1080Ti gpu上进行了培训和测试。按照[17]的训练策略,我们从每个训练图像中随机抽取并水平翻转25个大小为224×224像素的patch进行增强。训练补丁继承了源图像的质量分数,最小化训练集上的L1损失:

 

4. Experiments

5. Conclusion

在本文中,我们提出了一个新的网络,以克服在真实的IQA任务中出现的两个具有挑战性的问题:失真多样性和内容变异。该网络将质量预测与内容理解分离开来,以模拟人类如何感知图像质量。我们采用超网络结构来完成这个感知流程,并进一步引入一个多尺度局部失真感知模块来捕获复杂的失真。实验结果表明,该方法具有较强的泛化能力,具有更广泛的应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/623487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Activity和Fragment的对比

参考来源 参考来源 参考来源 状态方法对比 onAttach() 作用:fragment已经关联到activity,这个时候 activity已经传进来了, 获得activity的传递的值 就可以进行 与activity的通信里, 当然也可以使用getActivity(),前提是这个fragm…

在CSDN逮到一个阿里10年老测试,聊过之后收益良多...

老话说的好,这人呐,一但在某个领域鲜有敌手了,就会闲得蛋疼。 前几天我在上班摸鱼刷CSDN的时候认识了一位阿里测试大佬,在阿里工作了10年,因为本人天赋比较高,平时工作也兢兢业业,现在企业内有…

ChatGPT - 基于 ChatGLM-6B 搭建私有 ChatGPT 在线聊天服务

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131104546 Paper:GLM: General Language Model Pretraining with Autoregressive Blank Infilling 一篇于2022年发表在ACL会…

平面坐标变换(单应性变换/Homography变换)

单应性(homography)变换用来描述物体在两个平面之间的转换关系,可以用于描述平移、翻转、缩放、旋转、仿射变换等。其是对应齐次坐标下的线性变换,可以通过矩阵表示: 其中,H为单应性变换矩阵,假设变换前坐标为(x,y)&am…

指针--按值调用与模拟按引用调用,非法访问内存

在前面的章节介绍过普通变量作函数参数的方法&#xff0c;它其实是一种按值调用&#xff08;Call by Value&#xff09;的方法&#xff0c;即程序将函数调用语句中的实参的一份副本传给函数的形参。 例题&#xff1a;演示程序按值调用的例子。 #include <stdio.h> void…

关于ASO优化的搜索指数

搜索指数指数可以看出该关键词的热度&#xff0c;每一个关键词都对应着相应的指数&#xff0c;它代表着有多少人在搜索这个词。同一个词搜索的人越多&#xff0c;该关键词的热度指数就越高。 在应用商店内每天都会有用户去搜索应用&#xff0c;那么关键词的热度值至少是100。热…

三分钟免费将 Claude API 接入个人服务

首先我们介绍一下今天的主角 Claude Claude 是最近新开放的一款 AI 聊天机器人&#xff0c;是世界上最大的语言模型之一&#xff0c;比之前的一些模型如 GPT-3 要强大得多&#xff0c;因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研…

干货|SpringCloud-Eureka注册中心、服务提供者与消费者

内容速览&#xff1a; 一、关于注册中心、服务注册、服务发现 1问&#xff1a;为什么需要注册中心&#xff1f;2问&#xff1a;什么是服务注册&#xff1f;3问&#xff1a;什么是服务发现&#xff1f; 二、关于 Eureka 实现服务注册与服务发现 1.Eureka的特点2.Eureka注册中心…

Linux防火墙学习笔记3

iptables链的概念&#xff1a; 当客户端访问服务器端的Web服务的时候&#xff0c;客户端发送请求报文到网卡&#xff0c;而TCP/IP协议栈是属于内核的一部分。客户端的请求报文会通过内核的TCP协议传输到用户空间的Web服务&#xff0c;而客户端报文的目的地址为Web服务器所监听的…

裸辞后,过于真实...

前言 我从事软件测试行业&#xff0c;我仅从个人体验上说一下裸辞一个月的心路历程。 本人从事软件测试行业9年&#xff0c;主流测试软件都会用&#xff0c;功能&#xff0c;性能&#xff0c;接口&#xff0c;自动化测试都能独立搞定&#xff0c;近5年测试管理经验。年龄31岁…

城市内涝的原因及解决措施

城市内涝是城市面临的一个严重问题&#xff0c;它不仅会影响城市的交通、生产和生活&#xff0c;还会对城市的环境和生态造成破坏。 城市内涝是指由于强降水或连续性降水超过城市排水能力致使城市内产生积水灾害的现象。造成内涝的客观原因是降雨强度大&#xff0c;范围集中。…

Stable Diffusion使用入门教程

本文参考bilibili的链接&#xff1a;B站第一套系统的AI绘画课&#xff01;零基础学会Stable Diffusion&#xff0c;这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 目录 一、prompt提示词 1、概况 2、prompt分类 3、提示词的权重分配 4、…

使用 ChatGPT(简单)+ GitHub 存储库创建 C# 聊天机器人

在本指南中&#xff0c;我们将深入探讨使用 ChatGPT 和 C# 构建聊天机器人的过程。我们将涵盖从设置 ChatGPT API 访问到部署聊天机器人的所有内容。让我们开始吧&#xff01; 最后你会发现 GitHub Repo 设置您的 ChatGPT API 访问权限 在我们开始构建我们的聊天机器人之前&…

day4 ARM异常处理

目录 异常 概念 处理机制 ARM异常源 ARM异常模式 ARM异常响应 异常向量表 FIQ和IRQ ARM微架构 指令流水线 多核处理器 异常 概念 处理器在正常执行程序的过程中可能会遇到一些不正常的事件发生这时处理器就要将当前的程序暂停下来转而去处理这个异常的时间异常事件处…

为什么CRM一定要走行业化?

很多企业、很多销售对CRM的负面评价集中在不够贴合行业、不人性化&#xff0c;也就是功能不够细分和实用。因为CRM几乎是所有企业管理系统中最贴近业务实际的&#xff0c;但各行各业的业务千差万别&#xff0c;所以功能完备、使用满意度高的CRM一定是深度行业化、与不同行业业务…

计算机网络第三章——数据链路层(上)

提示&#xff1a;节物风光不相待。桑田碧海须臾改 文章目录 前言3.1.1 数据链路层功能数据链路层功能概述 3.2.1 封装成帧和透明传输封装成帧透明传输组帧的四种方式字符计数法字符填充法零比特填充法违规编码法 3.3.1 差错控制&#xff08;检错编码&#xff09;奇偶校验码CRC循…

【编程语言 · C语言 · while语句】

​while 语句 循环 在前面我们了解到, 程序在运行时可以通过判断, 检验条件作出选择。此处&#xff0c;程序还必须能够重复&#xff0c; 也就是反复执行一段指令&#xff0c; 直到满足某个条件为止。 while 语句 while语句可以执行循环结构。 语法&#xff1a; while(表达…

6.8 互斥锁/读写锁的概念及使用、死锁的避免

目录 线程通讯-互斥 互斥锁初始化-pthread_mutex_init 互斥锁销毁pthread_mutex_destroy 申请锁-pthread_mutex_lock 释放锁-pthread_mutex_unlock 读写锁 死锁的避免 ​编辑 条件变量 线程的GDB调试 笔记 线程的互斥和同步 临界资源概念&#xff1a; 互斥锁的创…

在京东待了几年,感觉自己废了····

在一家公司待久了技术能力反而变弱了&#xff0c;原来的许多知识都会慢慢遗忘&#xff0c;这种情况并不少见。 一个京东员工发帖吐槽&#xff1a;感觉在大厂快待废了&#xff0c;出去面试问自己接口环境搭建、pytest测试框架&#xff0c;自己做点工太久都忘记了。平时用的时候…

【功能超全】基于OpenCV车牌识别停车场管理系统软件开发【含python源码+PyqtUI界面+功能详解】-车牌识别python 深度学习实战项目

车牌识别基础功能演示 摘要&#xff1a;车牌识别系统(Vehicle License Plate Recognition&#xff0c;VLPR) 是指能够检测到受监控路面的车辆并自动提取车辆牌照信息&#xff08;含汉字字符、英文字母、阿拉伯数字及号牌颜色&#xff09;进行处理的技术。车牌识别是现代智能交通…