2024 ECCV | DualDn: 通过可微ISP进行双域去噪

news2024/12/25 9:26:30

文章标题:《DualDn: Dual-domain Denoising via Differentiable ISP》

论文链接: DualDn

代码链接: https://openimaginglab.github.io/DualDn/

本文收录于2024ECCV,是上海AI Lab、浙江大学、香港中文大学薛天帆等人)联合发布的图像降噪方面的研究【薛老师2024年贡献了两篇和ISP挂钩的论文,均是跟上海AI Lab合作的,另一篇详见: AdaptiveISP】

【1】论文的主要motivation是解决当前RAW-denoise模型不能泛化不同ISP以及当前RGB-denoise不能泛化不同噪声的问题。

Abstract

图像去噪是相机ISP (Image Signal Processing)管道中的重要组成部分。向ISP管道中注入去噪器有两个经典的方式:把去噪器直接用于捕捉的raw帧图raw域)或者把去噪器用于ISP输出的RGB图像sRGB域)。然而,两类方法都有局限。

  1. raw域去噪后的残留噪声会被ISP管道随后的处理模块放大;
  2. 在sRGB域很难处理随空间位置变换的噪声,因为在该域中只能看到被ISP扭曲过的噪声(噪声变得复合了)。

因此,大多数raw/sRGB域去噪的工作仅适用于特定的噪声分布和ISP配置。

为了解决这个问题,本文提出了DualDN,一个新颖的基于学习的双域去噪器。与之前单域去噪工作不同,DualDn包含两个去噪网络,一个处理raw域噪声,一个处理sRGB域噪声。raw域去噪适配于传感器噪声和随空间位置变换的噪声,sRGB域去噪适配于ISP导致的噪声并且可以去除经过ISP放大的残余噪声。两个去噪网络都和一个可微ISP相连,该ISP通过端到端训练并且会在推理阶段被丢弃。基于这个设计,DualDn达到了可观的泛化性,优于其他大多数的基于学习的去噪方法,因为DualDn可以适配不同的不可见噪声、ISP参数、甚至是新颖的ISP管道。实验结果显示,DualDn达到了SOTA性能,并且可以适配不同的去噪架构。除此以外,DualDn可以在不用重复训练的前提下,被用作真实相机的即插即用去噪模块,效果甚至优于商业相机的在线去噪算法。

在这里插入图片描述

图1. 和商业相机的去噪算法比较

Introduction

引言中有一些很有意思的总结和实验现象,整合表述如下:

  1. 近年来的去噪方法发展得很好,但是泛化性能都不令人满意,遇到不同的相机模型/噪声分布往往就无法解决了。有些训练模式被提出以解决泛化性,但是要么处理得很慢,要么效果不如经典的去噪网络;
  2. 基于RAW域的去噪模型可以很好的泛化不同noise分布,因为学术界有一些噪声模型可以用来估计噪声分布(sRGB域的噪声被isp扭曲了,无法用这些模型估计)。但是,RAW域去噪留下的残余噪声/伪像在经过isp后往往会导致次优的RGB图像。例如,去马赛克操作经常在图像边缘产生高频伪像,色调映射会放大暗区的残余噪声。除此以外,由于isp行为对RAW域去噪算法是未知的,因此更换isp管道将导致算法性能骤降。
  3. 基于RGB域的去噪模型可以很好的泛化不同ISP。因为该类模型只学习去噪前的RGB图像和去噪后的RGB图像的对应关系,不关心isp管道。但是,大部分的基于RGB域的去噪网络都是用一个单一的噪声分布训练的,并且真实sRGB的噪声分布是复杂的(因为可用噪声模型进行准确估计的RAW域噪声在经过isp之后就被扭曲了,变得不可预测)。因此,在强噪下或低光下或有空间变换噪声时,基于RGB域的去噪模型的性能表现不佳。

总结:基于RAW域的去噪模型可以很好的泛化不同的噪声分布,但不能泛化不同的isp管道;基于sRGB域的去噪模型可以很好的泛化不同的ISP,但不能适应分布不同的噪声,尤其是强噪声条件。

Methods

数据集处理

  1. 准备好干净RAWpatch
  2. 根据EXIF元数据生成对应的clean的RGB数据作为GT
  3. 根据噪声模型生成对应的噪声(为了保证泛化性,噪声是多种多样的)以"污染"RAWpatch
    在这里插入图片描述
图2. DualDn的整体框架

图像泛化——如何处理数据集能让模型更有泛化性?

  1. 加噪声:使用一个噪声模型和不同的噪声参数(为了保证模型可以处理不同噪声)合成加噪RAW图。为了增强模型泛化性,本文主要考虑了shot noiseread noise。实验结果显示,使用这种人工设计噪声训练出来的模型可以很好的泛化到未知相机和未知噪声
  2. 裁剪raw图以扩充数据集,但是裁剪的时候也保证了裁剪的图像块都是RGGB排列的模式

噪声数学推导:shot noise服从泊松分布,read noise服从高斯分布。因此加噪RAW图为: R ∼ K ⋅ P ( R ∗ K ) + N ( 0 , σ r 2 ) , R\sim K\cdot \mathcal{P}(\frac{R^*}{K})+\mathcal{N}(0,\sigma^2_r), RKP(KR)+N(0,σr2)其中, R ∗ R^* R是干净RAW图, K K K是Gain值, σ r 2 \sigma_r^2 σr2是高斯噪声方差。 P \mathcal{P} P N \mathcal{N} N分别代表泊松和高斯分布。

为了模拟不同的噪声水平,本文建模了噪声参数 ( K , σ r 2 ) (K,\sigma_r^2) (K,σr2)的联合分布,并且从如下分布中采样: l o g ( K ) ∼ U ( l o g ( K m i n ) , l o g ( K m a x ) ) , log(K)\sim \mathcal{U}(log(K_{min}), log(K_{max})), log(K)U(log(Kmin),log(Kmax)) l o g ( σ r 2 ) ∣ l o g ( K ) ∼ N ( α ⋅ l o g ( K ) + β , σ 2 ) , log(\sigma_r^2)|log(K) \sim \mathcal{N}(\alpha \cdot log(K) + \beta, \sigma^2), log(σr2)log(K)N(αlog(K)+β,σ2) U \mathcal{U} U表示均匀分布, K m i n K_{min} Kmin K m a x K_{max} Kmax代表噪声水平的最小/最大值。

从图3(a)左图可以看出, l o g ( σ r 2 ) log(\sigma_r^2) log(σr2) l o g ( K ) log(K) log(K) σ 2 \sigma^2 σ2线性相关【本博主没看出来】, α \alpha α β \beta β分别代表斜率和截距【这几句到底啥意思啊?难道是说 l o g ( σ r 2 ) = α l o g ( K ) + β + σ 2 log(\sigma^2_r) = \alpha log(K) + \beta + \sigma^2 log(σr2)=αlog(K)+β+σ2?但是图里又不是这么写的啊~】。好,但无论如何可以从图例中得到一个结论,K越大,noise的方差越大,会导致更多样的加噪RAW图

本文中 α = 2.540 , β = 1.218 , σ = 0.268 \alpha = 2.540, \beta = 1.218, \sigma = 0.268 α=2.540,β=1.218,σ=0.268.

在这里插入图片描述

图3

可微ISP管道——为了保证梯度传导以及模型可以泛化不同ISP我们做了哪些努力?

开源的ISP不可微(导致梯度流在中间会断掉,这个对DL范式是致命的问题)或不可变(参数上?结构上?),如果采用的话,会限制本模型的泛化能力。

如图2右侧,我们基于特定的次序实现了ISP的基本模块。由于色调映射可能会放大噪声并且不同的ISP-tuning方式会导致不同的色调映射风格,所以我们随机选择色调映射曲线,而不是固定某一条,以此来充分模拟真实场景。

双域去噪——模型框架主要内容及Loss设计

噪声图

由于噪声水平和传感器Gain值高度相关(场景越暗,给相机的增益应该越强,Gain值越大,但是这样就会放大一些场景中的噪声),所以噪声图最开始是为了RAW-denoise设计的。根据相关研究, P ( R ∗ k ) \mathcal{P}(\frac{R^*}{k}) P(kR)可以被视为高斯分布 N ( R ∗ K , R ∗ K ) \mathcal{N}(\frac{R^*}{K},\frac{R^*}{K}) N(KR,KR)的特例,因此上面的公式可以被改进为: R ∼ N ( R ∗ , K R ∗ + σ r 2 ) . \mathcal{R}\sim \mathcal{N}(R^*,KR^* + \sigma_r^2). RN(R,KR+σr2).本文使用干净raw图的标准差, K R ∗ + σ r 2 \sqrt{KR^*+\sigma_r^2} KR+σr2 生成噪声图。注意实际场景中 R ∗ R^* R是获取不到的,所以我们用R来估计。我们引入了噪声融合模块(NFB),融合输入图像和噪声图。

在这里插入图片描述

图4. 噪声模式消融
 

之前的工作没有在框架中融合RGB噪声模式,因为预测RGB噪声模式很困难(在ISP的非线性放大操作后预测噪声水平是困难的)。但RGB噪声模式很重要,因为raw-denoise会损害细节并导致伪像,因此,随后的RGB去噪应该在给定噪声图(用于预测损害强度)的前提下还原丢失的信息。本文的做法也很直接,即把raw域的噪声图通过可微ISP,即得到了RGB域的噪声图。(直接的做法也有困难之处,这个做法要求RAW域的噪声图预测的很精准,要不然一毁俱毁了)。

Loss函数

L = λ ⋅ ∣ ∣ R − R ∗ ∣ ∣ 1 + ∣ ∣ I − I ∗ ∣ ∣ 1 L = \lambda \cdot ||R-R^*||_1+||I-I^*||_1 L=λ∣∣RR1+∣∣II1。尽管可微的ISP让我们双域去噪网络可以只基于RGB图像计算loss,但是消融实验显示,加入raw域图像的监督可以轻微的提升效果。消融实验如下图:

在这里插入图片描述

图5. 消融实验b

 

【思考1】图像泛化小节里有提到一个pixel-unshuffle操作,查了一下,是图像降采样使用的函数。函数名是nn.pixelunshuffle(α),当α取2时,可以作为raw-rgb的处理函数。同样的,nn.pixelshuffle(2)可以作为rgb-raw的处理函数。

【思考2】加噪图 R R R的公式没搞太清楚,可能只能接受了。同小节的超参数分析那里没太搞懂。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2240514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI制作ppt

1,kimi: 实际上也是AiPPT.cn这个网站(但是有实际次数限制) 2,其余专业AI ppt生成网站: (1)gamma:https://gamma.app/ 大概能制作7~10页左右 free的ppt,其余要…

10款PDF翻译工具的探索之旅:我的使用经历与工具特色!!

在如今的时代,PDF文件已经成为我们工作、学习和生活中不可或缺的一部分。但是,当遇到一些非母语或陌生语言的PDF文档时,这要怎么办呀!这时候翻译工具就显得尤为重要了。这也是我所遇到过的难题,现在我将与大家分享几款…

【java】java通过s3访问ceph报错

1.报错信息、背景 工作中起了几个访问ceph的服务pod节点,一段时间后1个节点一直报错Unable to execute HTTP request: Timeout waiting for connection from pool,详细i信息如下图片,有且仅有1个节点报错,其他节点访问正常。看日志…

飞牛私有云访问外网

飞牛私有云 fnOS NAS 是一款有着卓越的性能以及强大的兼容性和智能化的管理界面,它之所以能在 NAS 市场中脱颖而出,是因为 fnOS 基于最新的 Linux 内核(Debian发行版)深度开发,不仅兼容主流 x86 硬件,还支持…

【iOS】知乎日报第三周总结

【iOS】知乎日报第三周总结 文章目录 【iOS】知乎日报第三周总结前言评论区文字评论区的一个展开效果评论区数据的一个请求修改了主页获取数据的逻辑主页无限轮播图图片主色调的一个获取将一些拓展部分的内容写在分类里小结 前言 本周笔者因为金工实习整个项目进展比较慢&#…

局域网到公网的飞跃:LocalSend + Cpolar让文件传输再无边界

前言 本篇教程主要分享如何在Windows系统中部署开源免费文件传输工具LocalSend,并且结合cpolar内网穿透将其发布至公网实现远程使用进行文件下载传输。localsend是一款基于局域网的文件传输工具,它利用局域网的高速传输特性,实现了设备之间的…

1.62亿元!812个项目立项!上海市2024年度“科技创新行动计划”自然科学基金项目立项

本期精选SCI&EI ●IEEE 1区TOP 计算机类(含CCF); ●EI快刊:最快1周录用! 知网(CNKI)、谷歌学术期刊 ●7天录用-检索(100%录用),1周上线; 免费稿件评估 免费匹配期…

大数据应用开发——实时数据处理(一)

前言 大数据应用开发——实时数据采集 大数据应用开发——实时数据处理 Flink完成Kafka中的数据消费,将数据分发至Kafka的dwd层中 并在HBase中进行备份 大数据应用开发——数据可视化 hadoop,zookeeper,kafka,flink要开启 目…

QT版发送邮件程序

简单的TCP邮箱程序 **教学与实践目的:**学会网络邮件发送的程序设计技术。 1.SMTP协议 邮件传输协议包括 SMTP(简单邮件传输协议,RFC821)及其扩充协议 MIME; 邮件接收协议包括 POP3 和功能更强大的 IMAP 协议。 服务…

关于我重生到21世纪学C语言这件事——指针详解(1)

人无完人,持之以恒,方能见真我!!! 共同进步!! 文章目录 1. 内存和地址2. 指针变量和地址3. 指针变量类型的意义4. const修饰指针5. 指针运算6. 野指针7. assert断⾔8. 指针的使⽤和传址调⽤ 1.…

PaoluGPT——窥视未知

上一题已经得到一个flag,还有一个flag 根据题目信息,说明还有一些聊天记录是没有公开的,另一个flag就在这些未公开的聊天记录中 下载题目附件看看,发现里面有个main.py: 可以看到有两条SQL查询语句,猜测应该…

WLAN消失或者已连接但是访问不了互联网

目录 1、WLAN已连接但是访问不了互联网 2、WLAN图标消失 今晚电脑突然连不上网了,重启试了好多种办法都没有用。 1、WLAN已连接但是访问不了互联网 这个的问题很多,建议直接网络重置,即将网络驱动全部删除,然后重新安装。 首先…

Python学习从0到1 day26 第三阶段 Spark ④ 数据输出

半山腰太挤了,你该去山顶看看 —— 24.11.10 一、输出为python对象 1.collect算子 功能: 将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象 语法: rdd.collect() 返回值是一个list列表 示例: from …

机器学习在网络安全中的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 机器学习在网络安全中的应用 机器学习在网络安全中的应用 机器学习在网络安全中的应用 引言 机器学习概述 定义与原理 发展历程 …

JMeter进阶篇

目录 上篇导航: 总目录: 一、逻辑控制器: 1.逻辑控制器和关联: 2.if逻辑控制器: 3.forEach控制器: 4.循环控制器: 二、关联: 1.xpath: 2.正则表达式提取器&…

O-RAN简介

O-RAN简介 概览 如今,全球蜂窝数据使用量持续增长,因此,电信系统必须随之进行革新,才能满足这一需求量。虽然5G标准能够满足更高的蜂窝吞吐量需求,且有望实现各种新的应用场景,但如果网络没有进行相应的改进,许多拟定的5G应用只能是纸上谈兵。以高可靠低延时通信(URLL…

Spring设计模式

设计模式 是一种软件开发中的解决方案,设计原则。目的是使代码具有扩展性,可维护性,可读性,如: 单例模式(Singleton Pattern) Spring IoC 容器默认会将 Bean 创建为单例,保证一个类…

安全的时钟启动

Note:文章内容以 Xilinx 系列 FPGA 进行讲解 1、什么是安全启动时钟 通常情况下,在MMCM/PLL的LOCKED信号抬高之后(由0变为1),MMCM/PLL就处于锁定状态,输出时钟已保持稳定。但在此之前,输出时钟会…

【含开题报告+文档+PPT+源码】基于Springboot和vue的电影售票系统

开题报告 随着电影产业的快速发展和科技的不断进步而逐渐形成的。在早期,电影票的销售主要依赖于传统的实体售票窗口和人工售票员,这种方式虽然直接,但效率低下,容易出现错误,并且无法满足大规模、高流量的售票需求。…

5G的发展演进

5G发展的驱动力 什么是5G [远程会议,2020年7月10日] 在来自世界各地的政府主管部门、电信制造及运营企业、研究机构约200多名会议代表和专家们的共同见证下,ITU-R WP 5D#35e远程会议宣布3GPP 5G技术(含NB-IoT)满足IMT-2020 5G技…