Implicit Neural Representation for Cooperative Low-light Image Enhancement

news2024/11/25 0:33:57

GitHub - Ysz2022/NeRCo: [ICCV 2023] Implicit Neural Representation for Cooperative Low-light Image Enhancement

参考:ICCV2023 | 将隐式神经表征用于“低光增强”,北大张健团队提出NeRCo (qq.com)

以下三个因素限制了现有低光图像增强方法的应用:不可预测的亮度退化和噪声、度量友好和视觉友好版本之间固有的差距,以及有限的配对训练数据。为了解决这些限制,我们提出了一种用于合作式低光图像增强的隐式神经表示方法,名为NeRCo。它以无监督的方式稳健地恢复感知友好的结果。具体而言,NeRCo通过可控的拟合函数统一了现实场景的多样化退化因素,从而提高了稳健性。此外,对于输出结果,我们引入了从预训练视觉-语言模型中得出的语义导向监督。它不仅仅是跟随参考图像,而是鼓励结果符合主观期望,找到更符合视觉习惯的解决方案。此外,为了减少对配对数据的依赖并减少解决方案空间,我们开发了一个双闭环约束增强模块。它以自我监督的方式与其他相关模块合作进行训练。最后,大量实验证明了我们提出的NeRCo方法的稳健性和优越效果。

1. Introduction

由于低光图像中物体被覆盖并降低对比度,导致亮度降低,低光图像严重影响了随后的高级计算机视觉任务(例如,目标检测 [23] 和语义分割 [15] 等)。因此,解决亮度退化对于协助探索复杂黑暗环境具有实际重要性。近年来,低光图像增强引起了广泛关注,旨在恢复退化区域中所需内容的图像增强方法 [31, 9, 10, 12, 24, 11, 16, 46]。

在过去几年中,已经提出了大量算法来解决这个经典的不适定问题,大致可分为两类:传统基于模型的方法(例如,直方图均衡化 [31],伽马校正 [29],Retinex模型 [30] 和锐化掩模算法 [7])以及最近的基于深度学习的方法 [22, 51, 16, 44]。前者将退化视为物理模型,并将增强视为估计模型参数的问题,但在表征多样化的低光因素方面存在局限,并需要大量手工先验知识。后者详细说明了各种模型来调整色调和对比度,能够自动从大量数据中学习。基本上,它们被训练来学习从输入到输出领域的映射关系。然而,在现实场景中,许多样本远离了输入域的特征空间,导致训练好的模型缺乏稳定的效果。我们提出在增强之前对退化进行标准化,以使这些样本更接近输入域。此外,现有的监督方法高度依赖配对训练数据,并且主要试图产生度量友好的结果,即与真实数据相似。但有限的监督数据集和度量导向与视觉友好版本之间固有的差距必然影响它们的有效性。

我们制定了一个自我监督的培训策略来解决这个问题。如图1所示,我们对仅包含低光图像而没有常规光参考的LIME [12]数据集进行评估。可以看到,即使是最近提出的表现最佳的算法也存在严重的色彩偏差。

具体来说,我们的关键见解包括: i) 使用可控的拟合函数对输入进行标准化,以减少现实场景中不可预测的退化特征。我们采用神经表示来再现增强操作之前的退化场景。通过操纵位置编码,我们有选择性地避免再现极端退化,客观上实现了标准化,从而降低了增强的难度。 ii) 通过不同的模态监督输出,实现度量友好和感知导向的增强。我们采用多模态学习,从文本和图像两个角度进行监督。与图像监督相比,设计的提示的特征空间更稳定准确地描述亮度,在不同样本之间具有更一致的亮度。在训练过程中,我们的结果不仅被鼓励与参考图像相似,还被强制与它们的相关提示匹配。通过这种方式,我们弥合了度量友好版本和感知友好版本之间的差距。 iii) 开发了一种无监督的训练策略,减少对配对数据的依赖。我们建议使用双闭环协作对抗约束程序对增强模块进行训练,以无监督的方式学习。还提出了更多相关的损失函数,进一步减少解决方案空间。受益于这些策略,我们恢复了更真实的色调和更好的对比度(见图1)。总体而言,我们的贡献如下:

• 我们是第一个在低光图像增强中利用神经表示的可控拟合能力。它标准化了亮度退化并消除了自然噪声,而无需任何额外操作,为未来的工作提供了新的思路。

• 我们首次将多模态学习引入低光图像增强。借助其高效的视觉-语言先验知识,我们的方法学习了多样的特征,导致了感知上更好的结果。

• 我们开发了一种无监督的协作对抗学习策略,减少了对配对训练数据的依赖。其中基于外观的判别确保了从颜色和细节层面的真实性,提高了恢复结果的质量。

• 我们在代表性基准数据集上进行了大量实验,展示了我们的NeRCo相对于一系列最先进算法的优越性。特别是,它甚至超越了一些监督方法。

2. Related Work
2.1. Low-light Image Enhancement

为了提高低光图像的可见性,首先广泛采用了基于模型的方法。Retinex理论[40]将观察结果分解为照明和反射(即清晰的预测),但往往会使外观过度曝光。各种手工先验被进一步引入模型作为正则化项。Fu等人[10]开发了一个加权变分模型来同时估计反射和照明层。Cai等人[2]提出了一个保边平滑算法来建模亮度。Guo等人[12]通过采用相对总变分[45]来预测照明。然而,这些定义的先验知识需要大量人工工作,并且在面向现实场景的泛化性能方面表现不佳。

由于这些限制,研究人员利用深度学习以数据驱动的方式进行恢复[47, 24, 3, 11, 22, 51, 46, 44],从大量数据中自动获取先验知识。例如,Guo等人[11]将光增强定式为利用轻量级深度模型进行图像特定曲线估计的任务。Jiang等人[16]引入了对抗训练来学习来自不配对监督的知识。Wei等人[43]设计了一个端到端可训练的RetinexNet,但仍然受到严重噪声的困扰。为了缓解这种问题,Zhang等人[49]调整了模型结构并开发了去噪训练损失。Zhang等人[48]提出了一种分解型架构来对反射施加约束。Liu等人[22]采用了架构搜索并构建了一个展开网络。尽管这些精心设计的模型实现了令人印象深刻的有效性,但在现实世界的应用中并不稳定。为了提高稳健性,在增强过程之前,我们使用神经表示将退化预调至统一水平。

2.2. Neural Representation for Images

最近,神经表示法已被广泛应用于描述图像。Chen等人[5]首次利用隐式图像表示进行连续图像超分辨率。然而,多层感知器(MLP)倾向于扭曲高频分量。为解决这个问题,Lee等人[20]开发了一个主导频率估计器,用于预测自然图像的局部纹理。Lee等人[19]进一步利用隐式神经表示将图像扭曲成连续形状。Dupont等人[8]尝试通过操纵隐藏层的潜在编码来用一个MLP生成不同的对象。Saragadam等人[37]采用多个MLP以多尺度方式表示单个图像。Sun等人[38]基于捕获的层析特征预测连续信息。Tancik等人[39]引入元学习来初始化MLP的参数以加速训练。

Reed等人[35]采用神经表示和参数化运动场来预测器官的形状和位置。此外,一些研究人员采用神经表示来压缩视频[1, 4, 50]。然而,现有的神经表示主要应用于图像压缩、去噪和描述连续信息等领域。我们是第一个将其可控拟合能力应用于低光图像增强的研究者。

2.3. Multi-modal Learning

近年来,跨视觉和语言模态的学习引起了广泛关注。出现了各种视觉-语言模型。Radford等人[32]提出了从语言监督中学习视觉模型的方法,称为CLIP。在训练了4亿张图文配对数据后,它可以用自然语言描述任何视觉概念,并且无需特定训练即可迁移到其他任务。此外,Zhou等人[52]开发了软提示来取代手工设计的提示,使用可学习的向量来建模上下文词汇,并获得与任务相关的语境。为了进一步将提示细化到实例级别,Rao等人[34]设计了上下文感知提示,将提示与视觉特征相结合。Cho等人[6]通过将统一框架更新为七个多模态任务的共同目标来在不同任务之间共享先验知识。Ju等人[17]采用了预训练的CLIP模型进行视频理解。

现有的方法主要集中在高级计算机视觉任务上,如图像分类。我们首次将预先训练的视觉语言模型的先验应用于微光图像增强,开发了面向语义的引导,并实现了更好的性能.

3. Our Method
3.1. Framework Architecture 

  • 作者先将待增强的暗光图及其对应的空间坐标用全连接层进行编码,并输出一张图片,鼓励输出结果尽可能地与输入的暗光图相似。

  • 然后,利用增强模块(ResNet)将其恢复成亮光结果。在此过程中还引入注意力模块以针对性地增强不同暗光区域。增强后的结果会喂给TAD鉴别其真伪。作者鼓励非成对的亮光自然图像被TAD鉴别为真,鼓励恢复的亮光结果为伪,以此训练增强模块。

  • 文本驱动的外观鉴别器 该鉴别器由3条支路构成。输入的亮光图像(增强结果or数据集)会分别从颜色维度,高频分量和语义空间三个角度被监督

  • 中间的紫色支路是一个普通鉴别器,判断输入图像在像素级别上与真实亮光图之间的差异。下方支路是由Sobel算子和鉴别器组成的高频分量鉴别器。Sobel算子先提取图像的高频分量,再由鉴别器判断其与真实图片的分布差异。

  • 上方是作者引入的CLIP先验指导的文本监督,通过对其图像特征和文本特征,引导模型向与文本更匹配的方向优化。实验证明引入文本监督后的模型,其增强结果更符合文本语义特征的分布,甚至比Ground Truth更符合

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1292529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

状态机的练习:按键控制led灯

设计思路: 三个按键控制led输出。 三个按键经过滤波(消抖),产生三个按键标志信号。 三个led数据的产生模块(流水,跑马,闪烁模块),分别产生led信号。 这六路信号(三路按键信号&am…

Java网络编程——Socket用法解析

在客户/服务器通信模式中,客户端需要主动创建与服务器连接的Socket,服务器端收到了客户的连接请求,也会创建与客户连接的Socket。Socket可以被看作是通信连接两端的收发器,服务器与客户都通过套接字来收发数据。 1、构造Socket …

企业数字化转型的七个成功案例

尽管经济形势严峻,但60%的企业告诉波士顿咨询公司,他们将在2023年增加数字化转型投资。根据Precedence Research最近的一份报告,到2025年,数字化转型市场预计将达到1.458万亿美元。 成长型股权公司PSG的董事总经理安东尼爱德华兹…

【hacker送书第10期】AI时代系列丛书(五选一)

AI时代系列丛书 AI时代程序员开发之道✨内容简介参与方式 AI时代项目经理成长之道✨内容简介参与方式 AI时代架构师修炼之道✨内容简介参与方式 AI时代产品经理升级之道✨内容简介参与方式 AI时代Python量化交易实战✨内容简介参与方式 AI时代程序员开发之道✨ 内容简介 本书是…

C#中GDI+图形图像技术(Graphics类、Pen类、Brush类)

目录 一、创建Graphics对象 1.创建Pen对象 2.创建Brush对象 (1)SolidBrush类 (2)HatchBrush类 ​​​​​​​(3)LinerGradientBrush类 用户界面上的窗体和控件非常有用,且引人注目&#…

优雅提效:Guava的字符串处理工具

第1章:引言 大家好,我是小黑,今天咱们要聊一聊Google Guava这个超棒的Java库,尤其是它的字符串处理工具。对于Java程序员来说,字符串处理是日常工作的一部分,而Guava在这方面提供了非常强大的支持。使用Gu…

Unity中Batching优化的GPU实例化(3)

文章目录 前言一、UNITY_SETUP_INSTANCE_ID(v);二、在UnityInstancing.cginc文件中,看一下Unity这句话做了什么1、使用了该 .cginc 后,会自动预定义该函数2、需要满足GPU实例化条件,才会执行对应语句3、满足GPU实例化后,主要执行的…

Python Tornado 框架的终极指南!

更多资料获取 📚 个人网站:ipengtao.com Python Tornado框架是一个高性能的异步Web框架,被广泛应用于构建实时Web应用和API服务。本文将深度解析Tornado框架,介绍其核心概念、异步特性、路由系统、模板引擎以及WebSocket支持等方…

通过Powershell远程控制windows服务器

1、被测服务器5985、5986端口开启,在网络设置中,点击“更改连接属性”。 2、网络配置文件中选择“专用”。 3、以管理员权限运行Powershell, 4.通过powershell命令在本地电脑上添加远端信任主机 winrm set winrm/config/client {TrustedHos…

世微 AP3266 大功率同步降压恒流芯片 过EMC 车灯驱动

产品描述 AP3266 是高效率、外围简单、内置功率管的同步降压恒流芯片,适用于4-40V输入的降压LED恒流驱动芯片。输出最大功率可达 40W,最大电流3.6A。AP3266 可通过调节 OVP 端口的分压电阻,设定输出空载电压 保护,避免高压 空载上…

如何搭建一套完整的智能安防视频监控平台?关于设备与软件选型的几点建议

安防视频监控系统主要由前端摄像机设备、视频显示设备、视频存储设备、安防应用软件/平台以及其它传输、辅助类设备组成。一般来说,安防监控系统具有可扩展和开放性,以方便未来的扩展和与其他系统的集成。今天我们就来介绍一下,搭建一套完整的…

JAVA全栈开发 MySql详解

一、数据库 1.数据储存在哪里? 硬盘、网盘、U盘、光盘、内存(临时存储) 数据持久化 使用文件来进行存储,数据库也是一种文件,像excel ,xml 这些都可以进行数据的存储,但大量数据操作&#x…

搜维尔科技:Varjo XR-4 系列-专为极致沉浸感而打造!

Varjo 的新一代头显将世界上最先进的混合现实技术与顶尖的图形处理能力连接起来,满足最高级别的视觉保真度和沉浸感至关重要的工业用例。 光学设计的根本性突破 体验全新的沉浸感。大幅扩展的视野,跨越 120 x 105 度,打破了受人尊敬的“全双眼…

跨域的多种方案详解

浏览器的同源策略是为了保护用户的安全,限制了跨域请求。同源策略要求请求的域名、协议和端口必须完全一致,只要有一个不同就会被认为是跨域请求。 本文列举了一些处理跨域请求的解决方案: JSONPCORS跨域资源共享http proxynginx反向代理web…

第七次作业

1, 给定一个包含n1个整数的数组nums,其数字在1到n之间(包含1和n),可知至少存在一个重复的整数,假设只有一个重复的整数,请找出这个重复的数 arr input("") num [int(n) for n in arr.split()]…

嵌入式板级系统设计【课设】

笔记【嵌入式板级系统设计】 前言版权笔记【嵌入式板级系统设计】资料学习面包板焊接注意焊接教程 焊接电路板基础代码GPIO 外部中断 定时中断 三合一串口 综合实验 风扇控制系统下板三合一窗口综合实验 最后 前言 2023-11-20 08:49:57 以下内容源自《【创作模板五】》 仅供学…

通过K8S安装人大金仓数据库

1. 离线下载镜像&#xff0c;请点击 2. 官网下载镜像 https://www.kingbase.com.cn/xzzx/index.htm&#xff0c;根据自己的需求下载对应版本。 3. K8S需要的yaml清单 cat > kingbase.yaml << EOF apiVersion: apps/v1 kind: Deployment metadata:name: kingbase-…

将图像增广应用于Mnist数据集

将图像增广应用于Mnist数据集 不用到cifar-10的原因是要下载好久。。我就直接用在Mnist上了&#xff0c;先学会用 首先我们得了解一下图像增广的基本内容&#xff0c;这是我的一张猫图片&#xff0c;以下为先导入需要的包和展示图片 import time import torch from torch im…

javaTCP协议实现一对一聊天

我们首先要完成服务端&#xff0c;不然出错&#xff0c;运行也要先运行服务端&#xff0c;如果不先连接服务端&#xff0c;就不监听&#xff0c;那客户端不知道连接谁 服务端 import java.awt.BorderLayout; import java.awt.event.ActionEvent; import java.awt.event.Actio…

超越GPT-4!谷歌发布最强多模态大模型—Gemini

12月7日凌晨&#xff0c;谷歌在官网发布了全新最强多模态大模型——Gemini。 据悉&#xff0c;Gemini有Ultra、Pro、Nano三个版本&#xff0c;可自动生成文本、代码、总结内容等&#xff0c;并能理解图片、音频和视频内容。在MMLU、DROP 、HellaSwag、GSM8K等主流评测中&#…