论文阅读:AutoDIR Automatic All-in-One Image Restoration with Latent Diffusion

news2024/9/20 10:56:07

论文阅读:AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion
这是 ECCV 2024 的一篇文章,利用扩散模型实现图像恢复的任务。

Abstract

这篇文章提出了一个创新的 all-in-one 的图像恢复框架,融合了隐扩散技术,各种不同的图像退化都可以用这一个模型搞定,简称 AutoDIR。AutoDIR 模型可以自动的识别以及恢复一系列未知的图像退化。AutoDIR 提供了直观的开放式词汇图像编辑功能,使用户能够根据自己的喜好定制和增强图像。AutoDIR 由两个关键阶段组成:一个基于语义无关的视觉语言模型的盲图像质量评估(BIQA)阶段,它会自动检测输入图像中的未知图像退化类型;一个一体化图像恢复(AIR)阶段,利用结构校正的隐扩散来处理多种类型的图像退化。大量的实验评估表明,AutoDIR 在更广泛的图像恢复任务中优于当前最先进的方法。AutoDIR 的设计还能够实现灵活的用户控制(通过文本提示),并作为图像恢复的基础模型推广到新的任务中。

在这里插入图片描述

Introduction

文章作者探索了一种能够处理单个图像的多种未知退化的通用模型。为实现这一目标,相应的模型应具备以下能力:(1)分解和区分未知的退化类型,(2)一个与具体任务无关的框架,能够恢复各种退化,(3)理想情况下,允许用户根据自己的视觉偏好自由调整恢复结果。为解决类似问题已经有了很多相关的工作,但没有一个能够同时满足这三点。

为了能同时解决上述三个问题,文章作者提出了一个名为 AutoDIR 的流程,它满足上述所有三种能力,并且能够自动检测和恢复具有多种未知退化的图像。AutoDIR 由两个阶段组成:语义无关的盲图像质量评估(SA-BIQA)阶段和由 SA-BIQA 中生成的文本提示引导的一体化图像恢复(AIR)阶段。

在 SA-BIQA 阶段,我们能够以开放词汇的方式准确识别未知伪影情况下的每种退化。这是通过我们提出的语义无关的 CLIP(SA-CLIP)模型实现的,该模型采用了语义无关的正则化项,将原始的语义识别 CLIP 转换为语义无关的形式,重点关注图像的结构质量而非语义内容。此外,我们可以利用 SA-BIQA 阶段生成的文本嵌入作为指令来引导进一步的恢复模型。这种方法不仅能够实现有效的恢复,而且通过提供开放词汇的指令,还允许在运行时进行灵活的用户控制和编辑。

AIR 阶段是使用在广泛任务上联合训练的多任务图像恢复模型来处理退化。鉴于不同任务的多样性(例如,像超分辨率这样的一些任务需要生成纹理,但像低光增强这样的其他任务需要保留除亮度之外的一切),我们提出了一种混合方法,在通过引入额外的结构归纳偏差来保持图像结构一致性的同时,最大限度地发挥扩散模型的生成能力。

为了评估 AutoDIR 的有效性和泛化能力,我们进行了一组全面的实验,涵盖了七个图像恢复任务,包括去噪、运动去模糊、低光增强、去雾、去雨、去雨滴和超分辨率。实验结果表明,AutoDIR 始终优于当前最先进的方法。AutoDIR 还针对屏下摄像头和水下摄像头拍摄的图像恢复进行了评估,这些是具有多种未知退化的成像系统的例子。

Method

在这里插入图片描述

图 2 展示了所提出的 AutoDIR(具有潜在扩散的自动一体化图像恢复)的总体流程图,这是一个能够自动检测和处理图像中多种未知退化的统一模型。AutoDIR 包括两个主要阶段:

  • 语义无关的盲图像质量评估(SA-BIQA):此阶段会自动识别输入图像中主要存在的退化,如噪声、模糊、雾霾,并生成相应的文本提示,记为 e a u t o e_{auto} eauto,随后在图像恢复过程中使用。
  • 一体化图像恢复 (AIR):此阶段利用结构校正潜在扩散模型(SC-LDM),在来自 SA-BIQA 的文本嵌入 e a u t o e_{auto} eauto 或用户自定义的开放词汇指令 e u s e r e_{user} euser 的引导下,生成恢复后的图像 I r e s I_{res} Ires
Semantic-Agnostic Blind Image Quality Assessment (SA-BIQA)

正如之前的工作所表明的,评估图像退化的一种常见方法是专门为此目的训练一个图像分类器。然而,这种简单的方法在处理包含广泛伪影的大型数据集时面临挑战。即使使用重型的 ViT 编码器,仅基于图像信息对图像退化进行分类的准确率也限制在 77.65%。

为了解决这一限制,我们提出利用人类语言知识来增强对图像退化的检测。我们引入了一个语义无关的 CLIP(SA-CLIP)模型作为我们盲图像质量评估(BIQA)的主干。SA-CLIP 基于 CLIP 模型构建,该模型在人类语言知识和图像质量之间建立了联系。然而,我们观察到,直接应用 CLIP 或为 BIQA 任务对其进行简单微调并不能产生可靠的结果。我们深入研究了这个问题,并找出了这个问题背后的原因。预训练的 CLIP 模型主要是为视觉识别任务而训练的,这些任务优先考虑语义信息而不是图像质量。因此,它在 BIQA 任务中的准确率较低。例如,该模型可能难以区分低光的狗图像和有噪点的狗图像,因为它更关注 “狗” 的方面,而不是噪声或光照的存在。

为了克服这个问题,我们分两步解决:(i)我们为微调 CLIP 构建了一个新的图像质量评估任务。(ii)我们提出了一个新的正则化项,用于语义无关和图像质量感知的训练,以导出 SA-CLIP 模型。

如图 2 所示,假设 C \mathcal{C} C 表示文章中考虑的图像退化类型的集合, C = { c 1 , c 2 , . . . , c K − 1 , c K } \mathcal{C}=\{c_1, c_2, ..., c_{K-1}, c_K \} C={c1,c2,...,cK1,cK},其中 c i c_i ci 表示某种退化类型, K − 1 K-1 K1 表示总的退化类型的数量,我们还添加了一种特殊类型 c K = " n o " c_K = "no" cK="no" 表示多步图像恢复的结束标识。文本提示描述集 T = { T ∣ T = "A photo needs ci artifact reduction , c ∈ C } \mathcal{T}=\{T|T = \text{"A photo needs ci artifact reduction}, c \in \mathcal{C} \} T={TT="A photo needs ci artifact reduction,cC}。给定一张包含了若干未知伪影的受损图像 I I I,我们的语义无关 CLIP 旨在识别 I I I 的主要退化并提取相应的文本嵌入。SA-CLIP 包含一个图像编码器 ε I \varepsilon_{I} εI 和一个文本编码器 ε T \varepsilon_{T} εT。首先获得图像嵌入 ε I ∈ R d \varepsilon_{I} \in \mathbb{R}^{d} εIRd 和文本嵌入 ε T ∈ R K × d \varepsilon_{T} \in \mathbb{R}^{K \times d} εTRK×d,然后计算图像嵌入与每个文本嵌入的余弦相似度。

logit ( c i ∣ I ) = ε I ( I ) ⋅ ε T ( T i ) ∥ ε I ( I ) ∥ 2 ∥ ε T ( T ) ∥ 2 (1) \text{logit}(c_i | I) = \frac{ \varepsilon_{I}(I) \cdot \varepsilon_{T}(T_i) }{\left \| \varepsilon_{I}(I) \right \|_2 \left \| \varepsilon_{T}(T) \right \|_2 } \tag{1} logit(ciI)=εI(I)2εT(T)2εI(I)εT(Ti)(1)

其中, T i T_i Ti 表示第 i i i 个文本嵌入,对计算得到的余弦相似度用 softmax 计算每个相似度量的概率 p ^ ( c i ∣ I ) \hat{p}(c_i | I) p^(ciI)

p ^ ( c i ∣ I ) = exp ⁡ ( logit ( c i ∣ I ) ) ∑ i = 1 K exp ⁡ ( logit ( c i ∣ I ) ) (2) \hat{p}(c_i|I) = \frac{\exp(\text{logit}(c_i | I))}{\sum_{i=1}^{K} \exp(\text{logit}(c_i | I))} \tag{2} p^(ciI)=i=1Kexp(logit(ciI))exp(logit(ciI))(2)

e a u t o = ∑ i = 1 K p ^ ( c i ∣ I ) ε T ( T i ) (3) e_{auto} = \sum_{i=1}^{K} \hat{p}(c_i | I) \varepsilon_{T}(T_i) \tag{3} eauto=i=1Kp^(ciI)εT(Ti)(3)

图像质量评估的简单微调,在 CLIP 模型的优化期间,我们冻结文本编码器 ε T \varepsilon_{T} εT 的参数,并使用多类别保真度损失微调图像编码器 ε I \varepsilon_{I} εI。保真度损失可以表示为:

L F I D = 1 − ∑ i = 1 K y ( c i ∣ I ) p ^ ( c i ∣ I ) (4) L_{FID} = 1 - \sum_{i=1}^{K} \sqrt{y(c_i | I) \hat{p}(c_i | I)} \tag{4} LFID=1i=1Ky(ciI)p^(ciI) (4)

其中, y ( c i ∣ I ) y(c_i | I) y(ciI) 表示一个二分类的变量,如果某个退化类型占主导,那么该变量值为 1,否则为 0 。

图像质量评估的语义无关约束微调,由于原始的 CLIP 模型是在诸如图像分类等任务上进行预训练的,其相应的 ε I \varepsilon_{I} εI 编码器倾向于根据图像的语义信息(例如,猫或狗)而不是图像质量(例如,有噪点或清晰)对图像进行编码。当我们根据图像质量微调 CLIP 模型以生成用于 BIQA 的文本时,这成为一个显著的限制。如图 3 a)和 b)所示,由原始 CLIP 和在有雾图像上微调的 CLIP 提取的图像嵌入,以及它们相应的真实干净图像,无法分开,这表明其重点在于语义信息而非图像质量差异。
在这里插入图片描述

为了解决这个问题,我们提出了一种称为语义无关约束损失 L S A L_{SA} LSA 的新方法来规范微调过程,并防止模型仅仅依赖语义信息而非图像质量。当 CLIP 模型表明在真实干净图像 I g t I_{gt} Igt(对应于退化图像 I I I)中存在伪影 c i c_i ci 时,语义无关损失 L S A L_{SA} LSA 会施加惩罚。这种惩罚迫使 CLIP 模型根据图像质量区分 I g t I_{gt} Igt I I I,鼓励 CLIP 图像编码器 ε I \varepsilon_{I} εI 专注于提取图像质量信息而非语义信息。这种约束损失可以通过以下等式推导得出:

L S A = ∑ i = 1 K y ( c i ∣ I ) p ^ ( c i ∣ I g t ) (5) L_{SA} = \sum_{i=1}^{K} \sqrt{y(c_i | I)\hat{p}(c_i | I_{gt})} \tag{5} LSA=i=1Ky(ciI)p^(ciIgt) (5)

L S A L_{SA} LSA L F I D L_{FID} LFID 结合,得到最终的微调 loss:

L B I Q A = L F I D + λ L S A (6) L_{BIQA} = L_{FID} + \lambda L_{SA} \tag{6} LBIQA=LFID+λLSA(6)

All-in-one Image Restoration (AIR)

一体化图像恢复(AIR)阶段旨在在一个共享的框架中处理多种退化。基于扩散的生成模型的最新进展已经展示了它们生成多样化图像的卓越能力,使其适用于多任务图像恢复。先前的研究已经表明,生成模型具有生成缺失或扭曲细节的卓越能力,特别是对于需要虚构的任务,例如超分辨率。基于这些见解,我们基于隐扩散模型(LDM)进行 AIR 阶段。LDM 结合了文本和图像嵌入条件,使用生成先验来恢复图像 I s d I_{sd} Isd。文本嵌入条件 e = { e a u t o , e u s e r } e = \{ e_{auto}, e_{user} \} e={eauto,euser} 旨在区分不同类型的图像退化,而来自 LDM 的图像编码器 ε l d m \varepsilon_{ldm} εldm 的潜在图像嵌入条件 z I = ε l d m ( I ) z_{I} = \varepsilon_{ldm}(I) zI=εldm(I) 提供了结构信息。

然而,尽管基于 LDM 的生成模型可以为多任务图像恢复提供基础,但由于具有变分自编码器(VAE)的压缩重建过程,它们在重建具有复杂和小结构的图像方面存在局限性,有工作试图通过在特定类别的图像(例如,人脸)上重新训练变分自编码器(VAE)网络以学习专门的概率分布来减少压缩重建过程引起的失真。然而,由于图像内容的多样性,这种方法不适用于图像恢复任务。为了解决这些限制,我们向 LDM 引入了一个轻量级的插件式结构校正模块,增强了其在图像恢复期间处理复杂和小结构的能力。

结构校正潜在扩散模型(SC-LDM), 虽然基于 LDM 的生成模型可以为多任务图像恢复提供基础,但人们普遍注意到它们可能无法保持原始图像结构,例如人脸和文本,如图 4 所示。为了解决结构失真问题,我们采用了一个有效的结构校正模块(SCM),记为 F \mathcal{F} F。SCM 的目的是以残差的方式从原始图像中提取上下文信息 R \mathcal{R} R,并将其与中间图像恢复结果 I s d I_{sd} Isd 相结合。这通过以下等式实现

在这里插入图片描述

I r e s = I s d + w ⋅ F ( [ I s d , I ] ) (7) I_{res} = I_{sd} + w \cdot \mathcal{F}([I_{sd}, I]) \tag{7} Ires=Isd+wF([Isd,I])(7)

其中 [ ] 表示连接,并且 w 是一个可调节系数,其范围在 0 到 1 之间。w 的值决定了利用上下文信息来恢复最终结果的程度。w 的值较大时强调上下文信息的使用,这对于需要结构一致性的任务(例如低光增强)是有益的。相反,w 的值较小时通常用于保持潜在扩散模型对于像超分辨率这样的任务的生成能力。通过集成 SCM,AutoDIR 有效地恢复了原始图像的失真上下文,如 图 4 所示,无缝地整合了在编辑阶段所做的增强。

在训练阶段,我们为图像恢复任务对潜在扩散模型(LDM)的 UNet 的 backbone ϵ θ ( e , [ z t , z I ] , t ) \epsilon_{\theta}(e, [z_t, z_{I}], t) ϵθ(e,[zt,zI],t) 进行微调,其目标函数为:

L L D = E ε l d m ( x ) , c I , e , ϵ , t [ ∥ ϵ − ϵ θ ( e , [ z t , z I ] , t ) ∥ 2 2 ] (8) L_{LD} = \mathbb{E}_{\varepsilon_{ldm}(x), c_I, e, \epsilon, t} [ \left \| \epsilon - \epsilon_{\theta}(e, [z_t, z_{I}], t) \right \|_{2}^{2} ] \tag{8} LLD=Eεldm(x),cI,e,ϵ,t[ϵϵθ(e,[zt,zI],t)22](8)

对于结构校正潜在扩散模型(SC-LDM),我们不使用耗时的完整逆向采样过程来生成编辑后的隐变量 z ^ t \hat{z}_t z^t,而是利用通过以下方式计算得到的估计编辑后的隐变量 z ~ \tilde{z} z~

z ~ = z t α ˉ − 1 − α ˉ ( ϵ θ ( e , [ z t , z I ] , t ) ) α ˉ (9) \tilde{z} = \frac{z_t}{\sqrt{\bar{\alpha}}} - \frac{\sqrt{1 - \bar{\alpha}}( \epsilon_{\theta}(e, [z_t, z_{I}], t) )}{\sqrt{\bar{\alpha}}} \tag{9} z~=αˉ ztαˉ 1αˉ (ϵθ(e,[zt,zI],t))(9)

其中 α \alpha α 表示引入的噪声调度器。结构校正潜在扩散模型(SC-LDM)的损失函数进一步定义为:

L A I R = ∥ I g t − ( F ( D ( z ~ ) , I ) + D ( z ~ ) ) ∥ (10) L_{AIR} = \left \| I_{gt} - (\mathcal{F}(\mathcal{D}(\tilde{z}), I) + \mathcal{D}(\tilde{z}) ) \right \| \tag{10} LAIR=Igt(F(D(z~),I)+D(z~))(10)

处理多任务图像恢复的机制

图 5 展示了我们在逆向扩散过程中探索文本条件解开不同图像恢复任务机制的实验。我们发现不同的文本条件会产生不同的交叉注意力图。如图 5 所示,改变文本提示会导致交叉注意力图发生显著变化。该图与文本提示紧密对齐,对于 “去雾” 提示,注意力在整个图像上均匀分布;对于 “低分辨率” 提示,注意力集中在具有边缘或纹理的部分;对于 “去雨滴” 提示,注意力集中在诸如雨滴等特定区域。这表明 AutoDIR 可以将扩散注意力引导到更有可能存在图像伪影的区域。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2115218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Rust : 从事量化的生态现状与前景

Rust适不适合做量化工作? 一般地认为,目前大部分场景策略开发最佳是Python;策略交易和部署是C。但还是有人会问,Rust呢? 这个问题不太靠谱! 适不适合做一件事情,本身就是一件主观的事。即使是…

通信工程学习:什么是AN接入网络

AN接入网络 AN接入网络,全称Access Network,是电信部门业务节点与用户终端设备之间的实施系统。它可以部分或全部代替传统的用户本地线路网,并可包括复用、交叉连接和传输功能。以下是关于AN接入网络的详细解释: 一、AN接入网络的…

【数据结构入门】排序算法之交换排序与归并排序

前言 在前一篇博客,我们学习了排序算法中的插入排序和选择排序,接下来我们将继续探索交换排序与归并排序,这两个排序都是重头戏,让我们接着往下看。 一、交换排序 1.1 冒泡排序 冒泡排序是一种简单的排序算法。 1.1.1 基本思想…

Recyclerview Item 高度不同 统一最大高度

参考这篇: android - How to set recycler height to highest item in recyclerView? - Stack Overflowhttps://stackoverflow.com/a/67403957/13583023

解读三国历史中的配角们:探索未被书写的故事 - 《三国配角演义》读后感

在传统的三国叙事中,英雄主角们的事迹往往被无限放大,而那些默默无闻的小人物则被忽视。然而,《三国配角演义》通过挖掘历史细节,赋予这些小角色新的生命。书中用微小的史料合理推断,构建了他们不为人知的精彩故事。 …

嵌入式 24081开班典礼:与梦同行,同筑未来

2024 年 9 月 3 日,华清远见西安中心嵌入式 24081期开班典礼在班主任熊燕老师的主持中成功举行。此次开班典礼为学员们开启了嵌入式学习之旅的精彩序幕。 1.开班致辞 典礼伊始,校企合作经理针对行业现状深入分析了嵌入式前景,为学员们清晰地…

JVM合集

序言: 1.什么是JVM? JVM就是将javac编译后的.class字节码文件翻译为操作系统能执行的机器指令翻译过程: 前端编译:生成.class文件就是前端编译后端编译:通过jvm解释(或即时编译或AOT)执行.class文件时跨平台的,jvm并不是跨平台的通过javap进行反编译2.java文件是怎么变…

AI 与大模型:物流行业的变革力量

一、物流行业的现状与挑战 物流行业在现代经济中扮演着至关重要的角色,但目前也面临着诸多挑战。 在效率方面,交通拥堵是一个突出问题。许多城市道路容量不足,无法满足日益增长的货物运输需求,导致运输时间延长。例如&#xff0…

【H2O2|全栈】关于HTML(4)HTML基础(三)

HTML相关知识 目录 HTML相关知识 前言 准备工作 标签的具体分类(三) 本文中的标签在什么位置中使用? 列表 ​编辑​编辑 有序列表 无序列表 自定义列表 表格 拓展案例 预告和回顾 后话 前言 本系列博客将分享HTML相关知识点…

【NLP自然语言处理】文本的数据分析------迅速掌握常用的文本数据分析方法~

目录 🍔 文件数据分析介绍 🍔 数据集说明 🍔 获取标签数量分布 🍔 获取句子长度分布 🍔 获取正负样本长度散点分布 🍔 获取不同词汇总数统计 🍔 获取训练集高频形容词词云 🍔…

【docker】通过云服务器安转Docker

一、前言 这里关于Docker的安转,大家可以采用本地使用虚拟机来运行和安转Docker,我这里呢就采用云服务器来安装Docker,之所以用云服务器安转docker是因为比较简单,只是需要花一点money,而且自己没有用过云服务器所以这里就用这种方式来安转Docker了&…

Nginx跨域运行案例:云台控制http请求,通过 http server 代理转发功能,实现跨域运行。(基于大华摄像头WEB无插件开发包)

文章目录 引言I 跨域运行案例开发资源测试/生产环境,Nginx代理转发,实现跨域运行本机开发运行II nginx的location指令Nginx配置中, 获取自定义请求header头Nginx 配置中,获取URL参数引言 背景:全景监控 需求:感知站点由于云台相关操作为 http 请求,http 请求受浏览器…

【Canvas与钟表】“社会主义核心价值观“表盘

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>387.干支表盘</title><style type"text/css">…

最大时间

题目描述 给定一个数组&#xff0c;里面有6个整数&#xff0c;求这个数组能够表示的最大 24 进制的时间是多少&#xff0c;输出这个时间&#xff0c;无法表示输出 invalid. 输入描述 输入为一个整数数组&#xff0c;数组内有六个整数。 输入整数数组长度为6&#xff0c;不需…

火语言RPA流程组件介绍--浏览网页

&#x1f6a9;【组件功能】&#xff1a;浏览器打开指定网址或本地html文件 配置预览 配置说明 网址URL 支持T或# 默认FLOW输入项 输入需要打开的网址URL 超时时间 支持T或# 打开网页超时时间 执行后后等待时间(ms) 支持T或# 当前组件执行完成后继续等待的时间 UserAgen…

微积分-积分应用5.4(功)

术语“功”在日常语言中用来表示完成一项任务所需的总努力量。在物理学中&#xff0c;它有一个依赖于“力”概念的技术含义。直观上&#xff0c;你可以将力理解为对物体的推或拉——例如&#xff0c;一个书本在桌面上的水平推动&#xff0c;或者地球对球的向下拉力。一般来说&a…

【iOS】——渲染原理与离屏渲染

图像渲染流水线&#xff08;图像渲染流程&#xff09; 图像渲染流程大致分为四个部分&#xff1a; Application 应用处理阶段&#xff1a;得到图元Geometry 几何处理阶段&#xff1a;处理图元Rasterization 光栅化阶段&#xff1a;图元转换为像素Pixel 像素处理阶段&#xff1…

图像去噪算法性能比较与分析

在数字图像处理领域&#xff0c;去噪是一个重要且常见的任务。本文将介绍一种实验&#xff0c;通过MATLAB实现多种去噪算法&#xff0c;并比较它们的性能。实验中使用了包括中值滤波&#xff08;MF&#xff09;、自适应加权中值滤波&#xff08;ACWMF&#xff09;、差分同态算法…

Clion不识别C代码或者无法跳转C语言项目怎么办?

如果是中文会显示&#xff1a; 此时只需要右击项目&#xff0c;或者你的源代码目录&#xff0c;将这个项目或者源码目录标记为项目源和头文件即可。 英文如下&#xff1a;

什么是数字化人才?数字化人才画像是怎么样的?(附数字化知识能力框架体系)

什么是数字化人才&#xff1f; 数字化人才是指具备较高信息素养&#xff0c;有效掌握数字化相关能力&#xff0c;并将这种能力不可或缺地应用于工作场景的相关人才。随着数字技术的快速发展和应用&#xff0c;数字化人才的需求日益增加&#xff0c;他们在大数据、“互联网”、…