AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion

news2024/11/25 7:18:19

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion (Paper reading)

Yitong Jiang, The Chinese University of Hong Kong, arXiv23, Code, Paper

1. 前言

我们提出了一种具有潜在扩散的一体化图像恢复系统,名为AutoDIR,它可以自动检测和恢复具有多种未知退化的图像。我们的主要假设是,许多图像恢复任务,如超分辨率、运动去模糊、去噪、弱光增强、去雾和去噪,通常可以分解为一些共同的基算子,这些算子可以在不同方向上提高图像质量。AutoDIR旨在通过与多个图像恢复任务的联合训练,学习一个能够执行这些基本算子的统一图像恢复模型。具体而言,AutoDIR由基于CLIP的盲图像质量评估(BIQA)模块、基于潜在扩散的多功能图像恢复(AIR)模块和结构校正模块组成,BIQA模块自动检测输入图像的未知图像退化,AIR模块处理多种类型的图像退化,SCM模块进一步恢复图像结构。广泛的实验评估表明,AutoDIR在更广泛的图像恢复任务中优于最先进的方法。AutoDIR的设计还实现了灵活的用户控制(通过文本提示)和对新任务的泛化,作为图像恢复的基础模型。

2. 整体思想

整体思想就是分类不同降质,然后混合训练的扩散模型+增强模型,每一步根据分类的类型处理不同降质。仅仅扩散模型效果可能不好,也可能图片的condition方式不好。微调整个CLIP感觉有点多余,不如用分类器。思想是普通的,实验不太充分。

3. 方法

在这里插入图片描述
我们提出了AutoDIR,这是一种用于图像恢复的自动一体式模型,能够处理多种类型的图像退化,包括弱光、雾等。左:通过AutoDIR进行多任务图像恢复的管道,其中所述盲图像质量评估(BIQA)模块检测损坏图像的主要退化,并用文本提示指示基于潜在扩散的一体式图像恢复模块(AIR)进行恢复。结构校正模块(SCM)进一步改进了恢复图像的细节。对于退化程度未知的图像,例如以绿色虚线为边界的显示不足的相机图像,AutoDIR会自动将任务分解为多个步骤。右图:AutoDIR可以有效地恢复不同退化的干净图像,并可以处理未知退化的图像。(放大查看详细信息)。AutoDIR由一下结构组成:

  1. 盲图像质量评估(BIQA):该模块自动识别输入图像中存在的主要退化,如噪声、模糊、雾度,并生成相应的文本提示,表示为eauto,随后用于图像恢复过程。
  2. 一体式图像恢复(AIR):该模块基于预先训练的潜在扩散模型进行微调。在来自BIQA(或用户提供)的文本嵌入 e a u t o e_{auto} eauto的指导下,AIR模块输出恢复的图像 I s d I_{sd} Isd
  3. 结构校正模块(SCM):SCM是一个轻量级的卷积网络,旨在进一步恢复图像细节并校正 I s d I_{sd} Isd中的剩余失真。该恢复过程的输出是最终恢复的图像,表示为 I r e s I_{res} Ires

3.1 盲图像质量评估(BIQA)

我们使用CLIP模型作为我们的BIQA骨干。然而,由于CLIP是为强调语义信息而非图像质量的视觉识别任务预先训练的,因此它不能直接用于BIQA。下图左可以看到,原始CLIP对于清晰和有雾的图像无法在空间中分离,作者的目的是得到右边的,即不同任务的图像属于特定的空间。
在这里插入图片描述

为了克服这一点,作者分两个步骤来解决这个问题:(i)我们构建了一个新的图像质量评估任务来微调CLIP。(ii)我们为图像质量感知训练提出了一个新的正则化术语。

在这里插入图片描述

首先,作者冻结文本编码器并全微调图像编码器。作者在这里构建了正则本文输入,也就是固定句式只改变 c i { } c_i\{\} ci{},然后将文本输入到 ϵ T \epsilon_T ϵT中且降质图像输入到 ϵ I \epsilon_I ϵI中,获得的本文和图像编码计算他们的cosine相似性:

在这里插入图片描述

然后通过softmax取最大概率获得相应的text embedding:

在这里插入图片描述
然后作者使用多类保真度损失(multi-class fidelity loss)对图像编码器进行微调:

在这里插入图片描述

其中, y ( c i ∣ I ) y(c_i|I) y(ciI) c i c_i ci属于 I I I图片当降质类型为1,其他为0。这个损失的意思就是最大化 p ^ ( c i ∣ I ) \hat p(c_i|I) p^(ciI)这个概率。这种微调的方式还是无法区分域,如第一张图b所示。作者提出语义不可知损失(semantic-agnostic loss)解决这个问题(见第一张图c):

在这里插入图片描述

这个损失的意思和 L F I D L_{FID} LFID正好相反,这个损失是降质图像对应的GT匹配当前类型的概率尽可能的小,则最后的总损失函数为:
L B I Q A = L F I D + L S A L_{BIQA} = L_{FID} + L_{SA} LBIQA=LFID+LSA

3.2 All in one 图像复原 (AIR)

AIR模块是基于潜在扩散模型设计的,利用文本和图像嵌入条件来恢复具有生成先验的图像 I s d I_{sd} Isd。为了使文本条件能够指导不同的图像恢复,我们结合了交叉注意,将文本条件映射到潜在扩散模型的时间条件UNet主干的中间层。对于图像条件,我们将图像条件 z I z_I zI与噪声潜像 z t z_t zt连接起来,并将它们馈送到UNet主干。

3.3 结构校正模块 (SCM)

具体方法是一个神经网络F,输入是latent diffusion的输出和降质图像concat起来。这么做的话,我们需要先通过扩散采样得到输出 z z z,这是费时的。作者直接用任意时间步预测的 z ~ \tilde z z~来作为扩散采样的输出 z z z,损失函数如下:
L S C M = ∣ ∣ I g t − ( F ( D ( z ~ ) , I ) + D ( z ~ ) ) ∣ ∣ 2 2 L_{SCM} = ||I_{gt}-(F(D(\tilde z), I)+D(\tilde z))||_2^2 LSCM=∣∣Igt(F(D(z~),I)+D(z~))22
这里F是SCM模型,I是降质图像,D是VAE的解码器,其实F就是学习残差。如下图可以看到,他这个扩散模型的效果很差啊!!!没有这个SCM的话效果一定不行,所以他加SCM这个。

在这里插入图片描述

4. 实验

·不知道作者为什么只对比了2个,而且SD不算吧,至少也应该比一比不同任务的baselines啊?
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


·所谓的多步骤处理不同降质消融实验。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1267837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

供应链 | “利刃出鞘”——顶刊POMS论文解读:制造商借助电子商务部门入侵

论文解读者:肖善,温梓曦,张怡雯,杨子豪 编者按: 解密品牌商在线电商平台:组织结构、策略选择、三方共赢 Manufacturer encroachment with an e‐commerce division 原文作者信息 Shi, S., Wang, C., Ch…

C语言进阶指南(14)(部分字符串库函数及其模拟实现)

欢迎来到博主的专栏——C语言进阶指南 博主id:reverie_ly 文章目录 1、strlen()——字符串长度计算函数自定义strlen函数的实现 2、strcpy——字符串拷贝函数strcpy的模拟实现 3.strcat——字符串追加函数strcat的模拟实现 4、strcmp——字符…

喜讯!安全狗入选《2024中国企业服务云图(精选版)》多个细分领域

近日,由吴中区人民政府、苏州市工信局指导,崔牛会主办,苏州太湖国家旅游度假区管委会协办的2023中国SaaS大会在苏州顺利举办。 作为国内云原生安全领导厂商,安全狗突出的多项安全能力也在大会上受到认可。 厦门服云信息科技有限公…

软件需求分析报告

《软件需求分析报告》 软件开发全套资料获取:点我获取

VR虚拟教育展厅,为教学领域开启创新之路

线上虚拟展厅是一项全新的展示技术,可以为参展者带来不一样的观展体验。传统的实体展览存在着空间限制、时间限制以及高昂的成本,因此对于教育领域来说,线上虚拟教育展厅的出现,可以对传统教育方式带来改革,凭借强大的…

【RT-DETR改进】SIoU、GIoU、CIoU、DIoU、AlphaIoU等二十余种损失函数

一、本文介绍 这篇文章介绍了RT-DETR的重大改进,特别是在损失函数方面的创新。它不仅包括了多种IoU损失函数的改进和变体,如SIoU、WIoU、GIoU、DIoU、EIOU、CIoU,还融合了“Alpha”思想,创造了一系列新的损失函数。这些组合形式的…

私域数字化建设:解锁企业融资新引擎

私域数字化建设对于增加企业融资能力的机遇是十分重要的,随着数字化经济的快速发展和数据技术的不断进步,企业需要正确认识到数据资产的重要性和私域数字化建设在提升融资能力等方面所带来的机遇。 近期,财政部发布了《企业数据资源相关会计…

教你设置疯狗都咬不烂的防火墙

1 安全技术和防火墙 1.1 安全技术 入侵检测系统(Intrusion Detection Systems):特点是不阻断任何网络访问,量化、定位来自内外网络的威胁情况,主要以提供报警和事后监督为主,提供有针对性的指导措施和安全…

一文详解Python中常用数据类型

文章目录 Python 中常用的数据类型包括:Python 中布尔类型(bool)Python 中的数字类型概述Pyhon中的字符串概述Python 中的List概述Python 中的元组类型(tuple)Python中的字典(Dictionary)Python中的集合(Set)Python中的…

基于STM32+定时器中断和定时器外部时钟(标准库函数讲解)

前言 本篇博客主要学习了解定时器的标准库函数,以及定时器中断进行LED灯的反转,还有定时器外部时钟获取脉冲计数功能。本篇博客大部分是自己收集和整理,如有侵权请联系我删除。 本篇博客主要是对通用定时器来讲解,功能适中比较常…

C语言进阶指南(15)(函数指针的创建与使用)

*欢迎来到博主的专栏——C语言进阶指南 博主id 文章目录 函数指针函数指针的应用——回调函数函数指针数组 函数指针 函数也有地址(函数在调用的时候会占用内存空间,所以函数是有地址的),因此我们也可以用一个指针指向函数 1 函数…

OSCP系列靶场-Esay保姆级

总结 getwebshell : ftp可匿名登录 → 发现隐藏文件夹 → 发现ssh密钥 → 猜解ssh用户名 → ssh密钥登录 提 权 思 路 : 发现suid权限文件 → cpulimit提权 准备工作 启动VPN 获取攻击机IP → 192.168.45.191 启动靶机 获取目标机器IP → 192.168.179.130 信息收集-端口扫…

基于SpringBoot实现的教务查询系统

一、系统架构 前端:html | js | css | jquery | bootstrap 后端:springboot | springdata-jpa 环境:jdk1.7 | mysql | maven 二、代码及数据库 三、功能介绍 01. 登录页 02. 管理员端-课程管理 03. 管理员端-学生管理 04. 管理员端-教师管理…

又有两大巨头官宣加入鸿蒙, 鸿蒙已成, 华为余承东说得没错

自从华为发布HarmonyOS 4系统后,宣布下一个鸿蒙版本将不再支持安卓应用,并启动鸿蒙原生应用,随后国内巨头纷纷响应,为鸿蒙系统开发原生应用。 如今,又有两大巨头官宣加入鸿蒙,一家是广汽传祺,M…

智慧工地解决方案,Spring Cloud智慧工地项目平台源码

智慧工地一体化信息管理平台源码,微服务架构JavaSpring Cloud UniApp MySql 智慧工地云平台是专为建筑施工领域所打造的一体化信息管理平台。通过大数据、云计算、人工智能、物联网和移动互联网等高科技技术手段,将施工区域各系统数据汇总,建…

Flutter创建TabBar

使用TabBar和TabBarView来创建一个包含"首页"、"分类"和"我的"的TabBar。每个Tab对应一个Tab控件,TabBarView中的每个页面对应一个Widget。 1.Tab使用自定义图标和颜色 一般UI设计的图会带渐变色之类的,应该保持图片的原…

由于找不到steam_api64.dll如何修复?steam_api64.dll丢失多种解决方法

steam_api64.dll文件介绍 steam_api64.dll是Steam平台的一个关键组件,主要用于支持Steam客户端和相关游戏的应用程序。这个文件缺失或损坏会导致Steam及相关游戏无法正常运行。它位于Steam安装目录的bin子文件夹中。 steam_api64.dll丢失的原因 系统误删&#xf…

品味丰富美食,羊大师温暖心灵

品味丰富美食,羊大师温暖心灵 冬季来临,寒冷的天气让人们渴望寻找一种温暖和满足感,这时候美食便成了一种心灵享受。冬季与美食的结合,使得人们在寒冷的冬日也能感受到温暖与欢乐。本文小编羊大师将带大家领略冬季与美食的完美结…

C库函数—sprintf

函数介绍: C 库函数 int sprintf(char *str, const char *format, ...) 发送格式化输出到 str 所指向的字符串。 参数: str -- 这是指向一个字符数组的指针,该数组存储了 C 字符串。format -- 这是字符串,包含了要被写入到字符串 …

网络入门---网络的大致了解

目录标题 网络发展的简单认识协议作用的理解协议的本质什么是协议分层网络通信所面对的问题OSI七层模型TCP/IP模型协议报头的理解局域网通信局域网通信基本原理报头的问题局域网的特点跨网的网络链接如何查看mac地址 网络发展的简单认识 通过之前的学习我们知道计算机是给人提…