图像编辑技术的新篇章:基于扩散模型的综述

news2025/1/11 20:52:20

在人工智能的浪潮中,图像编辑技术正经历着前所未有的变革。随着数字媒体、广告、娱乐和科学研究等领域对高质量图像编辑需求的不断增长,传统的图像编辑方法已逐渐无法满足日益复杂的视觉内容创作需求。尤其是在AI生成内容(AIGC)的背景下,如何利用人工智能技术对图像进行高效、精准的编辑,已成为当前研究的热点问题。尽管基于学习算法的图像编辑技术取得了显著进展,但仍存在诸多挑战,例如模型的泛化能力、编辑的自然性、以及用户意图的准确捕捉等。此外,现有的图像编辑方法往往需要大量的训练数据和计算资源,这在实际应用中可能并不总是可行。为了克服这些问题,本文将重点探讨一种新兴的图像编辑技术——基于扩散模型的图像编辑方法。

基于扩散模型的图像编辑研究出版物的统计概览,分为三个部分:学习策略(Top)、输入条件(Middle)、编辑任务(Bottom)

什么是扩散模型?

扩散模型,作为生成人工智能领域的一项突破性技术,其灵感来源于非平衡热力学的原理。这些模型通过逐步向数据样本中添加噪声,将它们从原始分布转换为预定义的、通常更简单的分布,如高斯分布,然后通过迭代过程逆转这一过程,以生成与原始数据分布相匹配的数据。与传统的生成模型相比,扩散模型的特点是它们在迭代时间步骤中动态执行,涵盖前向和后向的时间运动。

这种模型的前向扩散过程将数据分布转换为高斯分布,而反向扩散过程的目标是学习前向过程的逆过程,以生成与原始未修改数据样本紧密对齐的分布。优化策略涉及最小化前向和后向序列的联合分布之间的Kullback-Leibler散度,这为模型提供了一个变分界限,用于指导学习过程中的参数更新。扩散模型还能够通过特定的反转方案将真实图像反转到相应的噪声潜在空间,为图像编辑提供了强大的基础。

图像编辑的分类

图像编辑任务可以根据编辑的性质被分为语义编辑、风格编辑和结构编辑三大类。图像编辑任务的分类反映了编辑目标的不同层面,指导了模型的设计和应用策略。

语义编辑关注于图像内容和叙述的实质性改变。这类任务包括在图像中添加或移除对象、替换现有元素、更改背景以及调整图像中的情感表达。例如,用户可能希望在风景照片中添加一只飞鸟,或者从集体照片中移除某个人物。这些编辑直接影响到图像所讲述的故事和传达的情境。

风格编辑着重于图像的视觉风格和审美特征的调整。这种编辑不改变图像的基本内容,而是改变其艺术表现形式,如色彩、纹理或整体风格。用户可能想要将一幅风景画转换为梵高风格的画作,或者改变一张照片的色调以匹配特定的情绪氛围。

结构编辑涉及对图像中元素的空间排列、位置、视点和特性的改动。这类编辑强调场景中对象的组织和展示方式,如移动对象位置、改变对象的大小和形状、调整对象的姿态或视角。例如,用户可能希望在室内场景中重新布置家具,或者改变建筑物的视角以展现不同的外观。

这种多维度的分类不仅帮助我们理解图像编辑的不同需求,也为扩散模型的应用提供了一个清晰的框架。通过深入分析这些类别,我们可以更准确地评估和设计扩散模型的性能,确保它们能够满足不同编辑任务的特定需求。

基于扩散模型的图像编辑方法的全面分类,从多个角度(如训练、测试时微调、无需训练和微调)对方法进行了颜色编码,并列出输入条件和任务能力

基于训练的方法

基于训练的方法在扩散模型的图像编辑中占据显著地位,这些方法通过稳定训练扩散模型和有效建模数据分布,为多种编辑任务提供可靠性能。具体可以分为几类:弱监督下的领域特定编辑、自监督的参考和属性引导、全监督的指令性编辑以及弱监督的伪目标检索。

基于训练的图像编辑方法的分类

弱监督下的领域特定编辑策略针对特定领域的小规模数据集进行训练,以解决大规模数据集训练资源消耗大的问题。例如,在处理人脸或特定动物图像的数据集时,研究者们通过弱监督的方式,即不需要精确的标签信息,而是利用数据集中的固有结构,来训练模型识别和编辑图像。这种方法使得模型能够在资源有限的情况下学习到有效的编辑策略。

两种代表性的CLIP引导方法DiffusionCLIP和Asyrp的训练流程的对比

通过自监督的参考和属性引导方法,研究者们开发了一种无需外部标注信息的机制,直接从图像本身提取参考和属性信息作为训练条件。例如,通过使用图像中的某个区域作为参考,模型学习如何根据这个参考合成或编辑图像的其他部分。这种方法充分利用了图像内部的结构信息,提高了模型的自适应性和灵活性。

全监督下的教学式编辑策略采用了一种更接近人类交流方式的指令来引导编辑过程。与传统的基于描述的编辑不同,这种策略使用直接的指令,如“去除帽子”或“改变天空颜色”,来告诉模型需要执行的具体操作。这种方式使得用户可以更自然、直观地与模型交互,提高了编辑过程的准确性和可控性。

指令式图像编辑方法的通用框架,说明了不同组件如何协同工作以根据指令编辑图像

弱监督下的伪目标检索方法面对的挑战是如何在缺乏精确编辑结果的情况下训练模型。这类方法通过检索最符合指令描述的图像作为伪目标,或者使用CLIP模型的评分作为优化目标,来指导模型的学习过程。这种方法允许模型在没有明确编辑结果的情况下,通过学习如何更好地接近目标描述来进行优化。

这些基于训练的方法展示了扩散模型在图像编辑任务上的多样性和适应性,它们通过不同的监督策略,实现了从简单到复杂的各种编辑任务,极大地扩展了图像编辑的可能性和应用范围。随着这些方法的不断发展和完善,未来的图像编辑技术将更加精准、高效,并能更好地满足用户的个性化需求。

测试时微调方法

在图像编辑的领域,测试时微调方法提供了一种在模型部署后进一步提升性能的策略。这些方法在模型的推理阶段对模型进行微调,以适应特定的编辑任务和用户需求。

测试时微调框架及其不同的微调组件,说明了在图像编辑中如何应用这些组件

去噪模型微调是最直接的一种测试时微调方法。通过在特定的图像或图像集合上微调整个去噪网络,可以使模型更好地学习图像的特征,并更准确地响应文本提示或编辑指令。例如,UniTune和Custom-Edit等方法通过在单个基础图像上微调扩散模型,鼓励模型生成与基础图像相似的图像,同时在采样阶段使用修改过的采样过程,以平衡对基础图像的忠实度和对编辑指令的对齐。

嵌入微调则专注于优化文本或空文本嵌入,以更好地整合嵌入与生成过程,实现更精确的编辑结果。空文本嵌入微调的目标是解决DDIM反转中的重建失败问题,通过在采样过程中微调空文本嵌入,减少采样轨迹与反转轨迹之间的距离,从而提高重建性能。而文本嵌入微调则通过优化从输入文本派生的嵌入,使编辑后的图像更符合条件特征。

超网络引导的方法通过引入一个自定义网络,来更好地符合特定的编辑意图。例如,StyleDiffusion和InST等方法使用映射网络或多层交叉注意力机制,将输入图像的特征映射到与文本提示嵌入空间对齐的嵌入空间,从而实现文本-图像交互。

潜在变量优化是另一种微调技术,它直接优化图像的潜在变量,而不是优化生成器的参数或嵌入的条件参数。这种方法通过引入特定的损失函数和中间层的特征,使用预训练的扩散模型执行图像翻译,而无需成对的训练数据。

混合微调结合了上述各种微调方法,可以是顺序的,也可以是同时进行的集成工作流程。这种复合微调方法可以实现针对性和有效的图像编辑。例如,Imagic和LayerDiffusion等方法通过结合文本嵌入优化和去噪模型微调,提高了模型在图像重建和编辑方面的性能。

测试时微调方法的分类

测试时微调方法为扩散模型提供了一种灵活的改进途径,可以根据具体的应用场景和用户需求,快速调整模型的行为,实现更加精细和个性化的图像编辑效果。随着这些技术的不断发展,未来的图像编辑工具将更加智能和适应性强。

无需训练和微调的方法

在图像编辑技术的发展中,无需训练和微调的方法代表了一种快速且成本效益高的范式,因为它们避免了在编辑过程中对模型进行时间和资源密集型的训练或微调。这些方法直接利用预训练模型的潜力,通过不同的策略实现对图像的精确编辑。

无需训练和微调的图像编辑方法的分类

输入文本优化标志着在图像编辑领域中,文本到图像翻译机制的重要进步。这种方法通过改善文本嵌入和简化用户输入,确保图像的修改既准确又符合上下文。它允许概念性的修改和直观的用户指令,消除了对复杂模型修改的需求。例如,通过利用扩散先验模型来执行CLIP图像嵌入空间中的概念编辑,可以实现更细腻和上下文感知的图像编辑。

反转/采样修改是无需训练和微调方法中常用的技术。这些方法通过修改反转和采样公式来改善重建能力。例如,直接反转方法通过改变源提示到目标提示来编辑真实图像,展示了处理多样化任务的能力。尽管如此,它仍然面临重建失败的问题,因此出现了多种方法来改进反转和采样公式,以提高重建性能。

注意力修改方法通过增强注意力层中的操作来增强图像编辑。这些方法通过识别并利用注意力层中的固有原理,然后通过修改注意力操作来进行编辑。例如,P2P方法通过识别交叉注意力层在控制图像布局和提示词空间关系中的关键作用,提供了一个仅依赖于文本输入的直观提示到提示编辑框架。

掩码引导在基于扩散的图像编辑中代表了一种增强图像编辑的技术。这些方法使用掩码来增强去噪效率,通过选择性处理图像区域来有效减少计算需求并提高整体效率。掩码增强的去噪效率方法通过利用掩码在交叉注意力层中引导特定区域的编辑,从而提高编辑的精度和速度。

多噪声重定向是预测不同方向的多个噪声,然后将它们重定向到单个噪声的过程。这种方法的优势在于能够使单个噪声统一多个不同的编辑方向,从而更有效地满足用户的编辑需求。例如,通过语义引导的噪声重定向方法,可以在采样过程中更精细地控制图像内容。

无需训练和微调方法的通用框架,说明了不同修改如何应用于扩散模型以实现图像编辑

这些无需训练和微调的方法,以其灵活性和高效性,在图像编辑领域中展现出巨大的潜力。它们为用户提供了一种快速实现个性化图像编辑的途径,同时为研究人员提供了探索新的可能性和创新应用的空间。

图像修复和扩展

图像修复和扩展是图像编辑中的两个重要子领域,它们专注于填补图像中的缺失部分或扩展图像的边界,以创造出无缝的视觉效果。

视觉上比较了传统的基于上下文的修复(顶部)和多模态条件修复(底部),展示了两种方法的样本

传统基于上下文的修复:基于监督训练的修复方法和零样本学习方法。在监督训练中,模型通过成对的损坏和完整图像进行学习,以掌握如何根据图像的上下文信息填补缺失区域。例如,Palette模型通过条件扩散模型来处理图像到图像的转换任务,它使用低质量参考图像与去噪结果的直接连接作为噪声预测的条件。而在零样本学习中,模型尝试从未损坏的图像部分提取结构和纹理,以补充缺失区域的内容,保持全局内容的一致性。这种方法不需要成对的训练数据,而是依赖于模型对图像内容的内在理解。

多模态条件修复 :即使用随机掩码训练和精确控制条件的方法。这些方法通过引入用户指定的多模态条件,如文本描述、分割图或参考图像,来指导修复过程。例如,GLIDE和Stable Diffusion等模型通过随机生成的掩码以及掩码图像和完整图像的描述进行训练,使模型能够利用未掩码区域的信息。为了提供更精确的控制,一些方法如SmartBrush和Imagen Editor通过引入精度因子或使用对象检测器生成的掩码,来实现对修复内容的精确控制。

多模态条件修复的另一个重要方向是利用预训练的扩散模型,通过整合各种技术来处理特定的修复任务。例如,Blended Diffusion和Inpaint Anything等模型通过结合CLIP计算和预训练的扩散模型,实现了在用户界面友好性和灵活性方面的显著提升。

评估

在任务选择方面,研究者们根据现有方法的能力精心挑选了一系列编辑任务。这些任务覆盖了从简单的对象编辑到复杂的场景变化,旨在全面考察不同图像编辑方法的性能。

在数据集构建上,研究团队精选了一系列高质量的图像。为每张图像配备了详尽的源文本描述、目标描述以及编辑指令,这样做的目的是为了确保评估过程中的多样性和适用性,让评估结果更具有代表性和广泛性。

在度量设计和选择上,研究者们认识到传统的评估方法可能无法充分捕捉编辑结果的质量。为了解决这一问题,他们提出了LMM Score,这是一种创新的量化评估指标。LMM Score利用了大型多模态模型(LMMs)的先进视觉-语言理解能力,以评估不同任务上的编辑性能。这种新指标的引入,旨在更准确地反映图像编辑结果与用户指令之间的一致性,为图像编辑领域的研究提供了一个更为精确的评估工具。

研究者选择了几种不同的基于扩散模型的图像编辑方法,并在EditEval基准上对它们进行了测试。在性能比较环节,研究者们细致地计算了每种方法在七个编辑任务上的平均得分和标准差。结果显示,并没有单一的方法能够在所有任务上都取得最佳性能,这反映出图像编辑方法的多样性以及它们在特定应用场景下的适用性。

为了进一步验证LMM Score这一评估指标的有效性,研究者们将其得分与用户研究的结果进行了细致的比较。通过计算LMM Score与用户评分之间的皮尔逊相关系数,研究者们发现两者之间存在显著的正相关性。这一发现表明,LMM Score不仅能够作为一项客观的评估工具,而且能够很好地反映用户的主观偏好和评价,从而为图像编辑方法的评估提供了一个可靠的量化指标。

LMM分数与用户研究之间的皮尔逊相关系数
7个选定的编辑类型上进行了视觉上的比较

通过这些评估得出结论,基于扩散模型的图像编辑技术虽然取得了显著进展,但仍存在样本依赖性和性能波动等问题。LMM Score作为一种新的评估指标,已被证明是可靠和有效的,能够为图像编辑领域提供更加精确的性能评估。

随着技术的不断发展,未来的基准构建和评估方法需要进一步考虑如何更好地模拟真实世界的应用场景,以及如何更全面地衡量编辑结果的质量和实用性。这将有助于推动图像编辑技术向更高水平发展,并为研究人员和开发者提供宝贵的反馈和指导。

论文链接:https://arxiv.org/abs/2402.17525

GitHub 地址:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1854501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【论文复现|智能算法改进】一种基于多策略改进的鲸鱼算法

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】 2.改进点 混沌反向学习策略 将混沌映射和反向学习策略结合,形成混沌反向学习方法,通过该方 法…

三十八篇:架构大师之路:探索软件设计的无限可能

架构大师之路:探索软件设计的无限可能 1. 引言:架构的艺术与科学 在软件工程的广阔天地中,系统架构不仅是设计的骨架,更是灵魂所在。它如同建筑师手中的蓝图,决定了系统的结构、性能、可维护性以及未来的扩展性。本节…

LSSS算法实现,基于eigen和pbc密码库【一文搞懂LSSS,原理+代码】

文章目录 一. LSSS简介1.1 概述1.2 线性秘密分享方案(LSSS)与 Shamir的秘密分享方案对比LSSS1.2.1 Shamir的秘密分享方案1.2.2 线性秘密分享方案(LSSS)1.2.3 主要区别 二. 基于矩阵的LSSS加解密原理分析2.1 LSSS矩阵构造2.1.1 定义…

【python】python基于微博互动数据的用户类型预测(随机森林与支持向量机的比较分析)(源码+数据集+课程论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

群体优化算法---电磁共振优化算法(EROA)介绍包含示例滤波器设计

介绍 电磁共振优化算法(Electromagnetic Resonance Optimization Algorithm, EROA)是一种新型的元启发式优化算法,其灵感来源于电磁共振现象。电磁共振是一种物理现象,当一个系统在特定频率下响应最大时,这个频率被称…

【算法】优先级队列-基础与应用

优先级队列(Priority Queue)是一种特殊的队列类型,它允许在其元素中分配优先级。与传统的先进先出(FIFO)队列不同,优先级队列中元素的出队顺序取决于它们的优先级。优先级较高的元素会被优先处理&#xff0…

LLaMA:挑战大模型Scaling Law的性能突破

实际问题 在大模型的研发中,通常会有下面一些需求: 计划训练一个10B的模型,想知道至少需要多大的数据?收集到了1T的数据,想知道能训练一个多大的模型?老板准备1个月后开发布会,给的资源是100张A100,应该用多少数据训多大的模型效果最好?老板对现在10B的模型不满意,想…

完美解决找不到steam_api64.dll无法执行代码问题

游戏缺失steam_api64.dll通常意味着该游戏依赖于Steam平台的一些功能或服务,而这个DLL文件是Steam客户端的一部分,用于游戏与Steam平台之间的交互。如果游戏中缺失这个文件,可能会出现无法启动、崩溃或其他问题。 一,详细了解stea…

数据结构8---查找

一、静态查找和动态查找 (一)静态查找 静态查找:数据集合稳定,不需要添加,删除元素的查找操作。 对于静态查找来说,我们不妨可以用线性表结构组织数据,这样可以使用顺序查找算法,如果我们再对关键字进行…

XSS跨站攻击漏洞

XSS跨站攻击漏洞 一 概述 1 XSS概述 xss全称为:Cross Site Scripting,指跨站攻击脚本,XSS漏洞发生在前端,攻击的是浏览器的解析引擎,XSS就是让攻击者的JavaScript代码在受害者的浏览器上执行。 XSS攻击者的目的就是…

【从0实现React18】 (三) 初探reconciler 带你初步探寻React的核心逻辑

Reconciler 使React核心逻辑所在的模块,中文名叫协调器,协调(reconciler)就是diff算法的意思 reconciler有什么用? 在前端框架出现之前,通常会使用 jQuery 这样的库来开发页面。jQuery 是一个过程驱动的库,开发者需要…

SLAM Paper Reading和代码解析

最近对VINS、LIO-SAM等重新进行了Paper Reading和代码解析。这两篇paper和代码大约在三年前就读过,如今重新读起来,仍觉得十分经典,对SLAM算法研发具有十分重要的借鉴和指导意义。重新来读,对其中的一些关键计算过程也获得了更新清…

java的输出流File OutputStream

一、字节输出流FileOutput Stream 1、定义 使用OutputStream类的FileOutput Stream子类向文本文件写入的数据。 2.常用构造方法 3.创建文件输出流对象的常用方式 二、输出流FileOutputStream类的应用示例 1.示例 2、实现步骤 今天的总结就到此结束啦,拜拜&#x…

JVM专题七:JVM垃圾回收机制

JVM专题六:JVM的内存模型中,我们介绍了JVM内存主要分哪些区域,这些区域分别是干什么的,同时也举了个例子,在运行过程种各个区域数据是怎样流转的。细心的小伙伴可能发现一个问题,在介绍完方法弹栈以后就没有…

SQL找出所有员工当前薪水salary情况

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 有一个薪水表…

13.爬虫---PyMongo安装与使用

13.PyMongo安装与使用 1.安装 PyMongo2.使用PyMongo2.1连接数据库和集合2.2增加数据2.3修改数据2.4查询数据2.5删除数据 3.总结 MongoDB 安装可以看这篇文章MongoDB安装配置教程(详细版) 1.安装 PyMongo PyMongo 是Python中用于连接MongoDB数据库的库&a…

win32API(CONSOLE 相关接口详解)

前言: Windows这个多作业系统除了协调应⽤程序的执⾏、分配内存、管理资源之外,它同时也是⼀个很⼤的服务中⼼,调⽤这个服务中⼼的各种服务(每⼀种服务就是⼀个函数),可以帮应⽤程式达到开启视窗、描绘图形…

Linux使用——查看发行版本、内核、shell类型等基本命令

先做快照 虚拟机中编辑网络 关机 普通账户和管理员账户 互相对照 localhost相当于IP 参数: 短格式:以减号(-)开头,参数字母 长格式:以2个减号(--)后跟上完整的参数单词 当前发行版本 [rootserver ~]# cat /etc/redhat-release Red Hat Enterprise Linux release 9.…

区块链技术原理

1.起源: ➢ 中本聪(Satoshi Nakamoto), 2008 ➢ 比特币:一种点对点的电子现金系统 2.分布式账本技术原理 ➢ 将交易向全网所有节点进行广播 ➢ 众多记账节点对记账权达成共识,由共识确认的记账节点把记账区块发布给全网 ➢ 所有账本数据完整存储于区块…