论文阅读 SeedEdit: Align Image Re-Generation to Image Editing

news2025/1/12 22:59:28

目录

 摘要

1 INTRODUCTION

2 SEEDEDIT

2.1 T2I MODEL FOR EDITING DATA GENERATION 

2.2 CAUSAL DIFFUSION MODEL WITH IMAGE INPUT 

 2.3 ITERATIVE ALIGNMENT

3 EXPERIMENTS

3.1 BENCHMARK AND METRICS

3.2 IMAGE EDITING COMPARISON

4 CONCLUSION


摘要

SeedEdit,这是一种扩散模型,它能够用任何文本提示修改给定图像。在我们看来,这项任务的关键是在保持原始图像(即图像重建)和生成新的图像(即图像再生)之间获得最佳平衡。为此,我们从一个弱生成器(文本到图像模型)开始,它在这两个方向之间创建不同的对,并逐渐将其对齐到一个强大的图像编辑器中,可以很好地平衡这两个任务。SeedEdit 可以在先前的图像编辑方法上实现更多样化和更稳定的编辑能力,从而能够对扩散模型生成的图像进行顺序修改。

1 INTRODUCTION

(1)今天的扩散模型只能从文本描述创建逼真和多样化的图像。然而,这些生成的图像通常相当不可控,在某种程度上,生成过程就像抛掷骰子,直到看到一个好的输出。为了获得对生成内容的更多可控性,所需的特征是教学图像编辑,即使用文本描述修改输入图像。这可以被视为图像生成和图像理解之间的交集,这两者今天都非常成熟。然而,到目前为止,图像编辑本身的技术仍然远远落后于生成和理解

(2)现有的扩散模型图像编辑大致可以分为两类。首先,training-free方法结合了特定的技术,如DDIM反演、测试时间微调、注意控制来重建输入图像,并使用新的文本引导生成新的图像。但是由于重建和再生过程都存在不稳定性,这两者的组合累积到编辑图像中的更多错误中,这可能与输入图像或目标描述不一致。

(3)第二种方法是数据驱动的方法,其中准备了一个大规模的成对编辑数据集来训练教学扩散模型。然而,这里的主要困难是准备多样化和高质量的编辑数据集。与可以从互联网大规模收集的图像数据集不同,图像编辑对非常罕见,几乎不可能收集涵盖所有类型的编辑对的高质量数据集。因此,现有的工作试图使用某些工具,例如 Prompt-to-Prompt 或 in-painting 来创建这样的数据集。但是因此,它们的性能受到这些数据创建工具的限制,这些工具本身不满足任何一个.

(4)为了克服上述困难,我们引入了一个新的框架,将图像生成扩散模型转换为编辑图像的模型。我们认识到图像编辑本质上是图像重建和再生之间的平衡,因此我们开发了一个管道,首先生成不同的成对数据,这些数据分散到这两个方向上,然后逐渐对齐图像条件扩散模型,以达到这两个任务之间的最佳平衡。总体而言,它导致了一个模型,该模型能够用指令或描述修改图像,我们称之为 SeedEdit,并且与之前的研究相比产生了卓越的性能。

2 SEEDEDIT

图像编辑问题的核心难点是成对图像数据的稀缺性。我们从对齐的角度解决了这个问题。特别是,我们将文本到图像 (T2I) 模型视为弱编辑模型,该模型通过生成具有新提示的新图像来实现“编辑”。然后,我们通过在提高图像一致性的同时最大限度地继承再生能力,将这种弱编辑模型提炼并对齐到强编辑模型中,如图 2 所示。

2.1 T2I MODEL FOR EDITING DATA GENERATION 

我们最初的编辑数据是使用预训练的 T2I 模型作为编辑模型生成的,其中可以使用相应的文本描述生成编辑前后的一对图像,类似于 IntructPix2Pix Brooks 等人。有了这些数据,我们可以将 T2I 模型提炼成一个图像条件编辑模型。然而,这种幼稚的再生可能会导致两幅图像之间的不一致。为了提高一致性,存在提示的各种promptto-prompt 和attention control (方法和注意力控制)。然而,这些技术可以生成非常有限的对数据类型,并且很难涵盖所有类型的图像编辑。因此,我们结合不同的再生技术和参数来创建更多样化的数据集。特别是,我们生成了一个具有更多随机性的大规模成对数据集,以确保多样性,然后应用过滤器选择好的示例进行模型训练和对齐。图 3 说明了我们的对齐模型比基于 CLIP 指标的朴素再生表现得更好。

2.2 CAUSAL DIFFUSION MODEL WITH IMAGE INPUT 

我们的图像条件扩散模型的模型架构如图4所示。与以往为图像条件添加额外的输入通道的研究不同(Brooks et al., 2023),为此重用自我注意,其中扩散模型的两个分支(共享参数)分别应用于输入和输出图像。这受到先前training-free方法的启发(Cao et al., 2023),我们凭经验发现这样的架构在几何变形任务上表现更好,并引入了更少的新参数。具体来说,引入了因果自注意力结构,使得两个网络可以基于中间特征构建通信。如果我们去掉输入分支,它会导致原始的 T2I 扩散模型,允许对编辑和 T2I 数据进行混合训练。 

 2.3 ITERATIVE ALIGNMENT

由于嘈杂的数据集,在一对示例上训练的初始编辑模型对于应用程序可能不够稳健。也就是说,与数据集本身一样,该模型能够涵盖不同的编辑任务,但成功率有限。为了进一步确保模型的鲁棒性,我们建议通过添加额外的微调轮次来逐步对齐编辑模型。特别是,由于我们已经在这个阶段有一个编辑模型,我们可以根据当前模型准备一组新的数据,遵循类似的数据生成管道。然后再次对结果进行标记和过滤,以微调编辑模型,如第2.2节所示。我们重复这个过程进行多轮,直到模型收敛,即对指标没有更多的改进。

3 EXPERIMENTS

3.1 BENCHMARK AND METRICS

我们的实验评估了两个基本模型,即 SDXL (Podell et al., 2023) 和基于 DiT 架构的内部 T2I 模型 (Peebles & Xie, 2023; Esser et al., 2024)。我们使用两个公共数据集来评估图像编辑性能。(Hui et al., 2024) 中提出的 HQ-Edit 数据集和来自 (Sheynin et al., 2024) 的 Emu Edit 数据集。前者由293张Dalle3生成的图像组成,后者由535张真实的野外图像输入组成。我们注意到我们的方法主要关注HQ-Edit基准中的应用场景,我们希望用任意指令修改T2I生成的图像。Emu Edit 与我们的训练数据有很大不同,后者主要包括对真实场景图像进行本地编辑。因此,我们将 Emu Edit 视为域外 (OOD) 测试,但主要依靠 HQ-Edit 来评估我们的方法的应用潜力。 我们采用两个指标来评估编辑性能。第一个是基于clip (Brooks et al., 2023),其中CLIP方向评分用于评估编辑提示的对齐,并使用CLIP图像相似度来衡量一致性。第二个是 LLM-as-evaluator,其中 GPT 用于替换 CLIP 方向分数来衡量编辑的成功。

3.2 IMAGE EDITING COMPARISON

我们将我们的方法与几种最先进的图像编辑方法进行比较,包括无训练方法Prompt-to-Prompt (Null-text Inversion) (Hertz et al., 2022; Mokady et al., 2023) 和数据驱动方法 Instruct-Pix2Pix (Brooks et al., 2023)、MagicBrush Zhang et al. (2024)、Emu Edit Sheynin et al. (2024) 和 UltraEdit Zhao et al. (2024)。由于 Emu Edit 不是开源的,我们只在自己的测试集上比较它们。对于其他方法,我们使用他们发布的带有默认参数的模型进行比较。表 1 显示了基线和我们的方法的定量结果。总体而言,我们的方法在两个基准上显示出比开源基线高得多的编辑分数。同时,我们还观察到HQ-Edit 数据集上的 CLIP 图像相似度更高,这表明可以更好地保存原始图像中的内容。

虽然我们主要关注修改 T2I 图像的应用场景,如 HQ-Edit 所示,但我们的方法在 Emu Edit 基准上也实现了下降定量分数,与原始 Emu Edit 方法相当/更好。然而,总的来说,我们观察到所有方法(包括我们的方法)生成的图像的质量在 Emu Edit 基准上都不太令人满意,这证明了我们认为 T2I 图像的修改可能是在编辑任意野外图像之前解决的第一步。

我们将我们的方法与几种最先进的图像编辑方法进行比较,包括无训练方法Prompt-to-Prompt (Null-text Inversion) (Hertz et al., 2022; Mokady et al., 2023) 和数据驱动方法 Instruct-Pix2Pix (Brooks et al., 2023)、MagicBrush Zhang et al. (2024)、Emu Edit Sheynin et al. (2024) 和 UltraEdit Zhao et al. (2024)。由于 Emu Edit 不是开源的,我们只在自己的测试集上比较它们。对于其他方法,我们使用他们发布的带有默认参数的模型进行比较。表 1 显示了基线和我们的方法的定量结果。总体而言,我们的方法在两个基准上显示出比开源基线高得多的编辑分数。同时,我们还观察到HQ-Edit 数据集上的 CLIP 图像相似度更高,这表明可以更好地保存原始图像中的内容。

虽然我们主要关注修改 T2I 图像的应用场景,如 HQ-Edit 所示,但我们的方法在 Emu Edit 基准上也实现了下降定量分数,与原始 Emu Edit 方法相当/更好。然而,总的来说,我们观察到所有方法(包括我们的方法)生成的图像的质量在 Emu Edit 基准上都不太令人满意,这证明了我们认为 T2I 图像的修改可能是在编辑任意野外图像之前解决的第一步。

图 5 显示了我们的方法在 HQ-Edit 基准上的一些定性示例和基线。我们的方法之间的主要区别在于我们的方法可以理解相当模棱两可的指令,并且在以更高的成功率执行细粒度编辑时。

最后,我们将 SeedEdit(内部 T2I 模型)与其他商业 SoTA 工具(例如 DALLE3 Edit1 和 Midjourney2)的图像编辑能力进行比较,这些工具允许编辑自生成的图像。图 7 显示了结果的定性比较。一般来说,DALLE3 和 Midjourney 都倾向于在指定的编辑提示之外引入更意想不到的内容更改。在这两者之间,Midjourney 产生了更美观的图像,而 DALLE3 表现出优于对提示指令的依从性。相比之下,如最后一列所示,SeedEdit 取得了更好的平衡,提供了更接近给定指令的更精确的编辑。此外,我们进行了一项内部用户研究,表明对我们的方法产生的结果有很强的偏好。

4 CONCLUSION

 在这项工作中,我们介绍了 SeedEdit,这是一种渐进式对齐框架,用于将预训练的 T2I 扩散模型适应图像编辑模型,该模型最大化提示对齐和图像一致性。提出了一种因果扩散模型,将图像和文本作为图像生成的条件。提出了一种迭代数据生成和微调框架,将扩散对准精确的图像编辑。实验结果表明,与现有方法相比,我们的方法产生了更好的结果。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2244607.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营day41|动态规划04

最后一块石头的重量|| 返回剩余最后一块石头石头最小的可能重量,那么就应该最后剩余的两块石头尽量都等于或接近总重量的一半,这样剩下的就是一半的质量 目标和 给定一个非负整数数组,a1, a2, …, an, 和一个目标数,S。现在你有…

【C++】绘制内存管理的地图

生活是属于每个人自己的感受,不属于任何人的看法。 前言 这是我自己学习C的第二篇博客总结。后期我会继续把C学习笔记开源至博客上。 上一期笔记是关于C的类与对象础知识,没看的同学可以过去看看: 【C】面向对象编程的艺术之旅-CSDN博客https…

【AI大模型引领变革】探索AI如何重塑软件开发流程与未来趋势

文章目录 每日一句正能量前言流程与模式介绍【传统软件开发 VS AI参与的软件开发】一、传统软件开发流程与模式二、AI参与的软件开发流程与模式三、AI带来的不同之处 结论 AI在软件开发流程中的优势、挑战及应对策略AI在软件开发流程中的优势面临的挑战及应对策略 结论 后记 每…

前端访问后端实现跨域

背景&#xff1a;前端在抖音里做了一个插件然后访问我们的后端。显然在抖音访问其他域名肯定会跨域。 解决办法&#xff1a; 1、使用比较简单的jsonp JSONP 优点&#xff1a;JSONP 是通过动态创建 <script> 标签的方式加载外部数据&#xff0c;属于跨域数据请求的一种…

《Vue零基础入门教程》第二课:搭建开发环境

往期内容&#xff1a; 《Vue零基础入门教程》第一课&#xff1a;Vue简介 1 搭建开发环境 Vue环境分为两种 不使用构建工具使用构建丁具 首先&#xff0c;我们会介绍 不使用构建工具 的环境,在组件化章节中介绍 使用构建工具 的方式 1) 初始化 使用如下指令初始化 npm i…

快速排序【hoare版】

目录 介绍 算法思路 函数实现 函数声明 确定基准值 创建新函数 创建循环找数据&#xff08;right&#xff0c;left&#xff09; 交换左右数据 交换条件设置 外部循坏条件设置 初步总结代码 循环条件完善 内层循环的完善 外层循环的完善 相遇值大于keyi 相遇值等于k…

oracle导入线上数据的全步骤

多租户架构允许oracle数据库成为一个多租户的容器数据库&#xff0c;也就是CDB&#xff0c;container database&#xff0c;与之相对应的&#xff0c;则是插入到这个容器里面的可插拔式数据库&#xff0c;pluggable database 一个CDB可以包含0&#xff0c;1或者多个用户创建的…

嵌入式硬件实战基础篇(三)-四层板PCB设计-步进电机驱动(TMC2208/TMC2209)

引言&#xff1a;我们在嵌入式硬件杂谈&#xff08;三&#xff09;中有提到阻抗匹配的问题&#xff0c;也引入了高速PCB设计的思想&#xff0c;并且此篇实战基础篇主要是基础的四层板的绘制设计&#xff0c;后续实战会对高速板展开&#xff0c;本篇主要是提升读者的设计PCB板的…

uniapp 选择 省市区 省市 以及 回显

从gitee仓库可以拿到demo 以及 json省市区 文件 // 这是组件部分 <template><uni-popup ref"popup" type"bottom"><view class"popup"><view class"picker-btn"><view class"left" click"…

C语言练习.while语句

题目&#xff1a; 1.用C语言编程&#xff0c;运用while语句&#xff0c;写一段简短的代码。 分析&#xff1a; 1.运用while语句要注意&#xff1a;while语句&#xff0c;要设置好退出条件&#xff0c;不然就会造成无限循环的结果&#xff0c;导致程序停不下来。 2.编写代码…

Linux编辑器 - vim

目录 一、vim 的基本概念 1. 正常/普通/命令模式(Normal mode) 2. 插入模式(Insert mode) 3. 末行模式(last line mode) 二、vim 的基本操作 三、vim 正常模式命令集 1. 插入模式 2. 移动光标 3. 删除文字 4. 复制 5. 替换 6. 撤销上一次操作 7. 更改 8. 调至指定…

24.11.20 sevlet2

1.servlet是否线程安全 (线程特性) 线程安全的指标 //1.是否有共享数据 //2.多线程对共享数据做写操作 servlet中 不要创建成员变量 servlet是单实例的 所以成员变量(不加static) 就会在多线程间共享 如果service()方法中 对成员变量有写操作 则线程不安全 servlet中非特殊情…

【编译器】Dev C++建立C语言工程

【编译器】Dev C建立C语言工程 文章目录 [TOC](文章目录) 前言一、创建工程二、添加.c.h三、主函数处理四、在桌面中打开exe文件五、参考资料总结 前言 在使用了很多编译器之后&#xff0c; 要么是太大了&#xff0c; 要么是太新了&#xff0c; 要么是在线编译器&#xff0c;用…

【ArcGIS微课1000例】0132:从多个GIS视角认识与攀登珠穆朗玛峰

文章目录 1. Map Viewer中打开2. 场景查看器中打开3. ArcGIS中打开4. QGIS中打开5. Globalmapper中打开6. ArcGIS Earth中打开官网地址:https://www.arcgis.com/home/item.html?id=504a23373ab84536b7760c0add1e0c1c 1. Map Viewer中打开 以下展示不同底图样式的珠穆朗玛峰壮…

vscode uniapp 微信小程序 view、text、image标签红色波浪线

没修改前的红色波浪线样式 看好多人没解决方法&#xff0c;我的这种反正成功了&#xff0c;解决方法如下&#xff1a;首先降级Vue - Official 为 v2.0.12 选择版本 配置tsconfig.json "vueCompilerOptions": {// experimentalRuntimeMode 已废弃&#xff0c;现调整为…

SCTransNet验证测试

SCTransNet 是PRCV 2024、ICPR 2024 Track 1、ICPR 2024 Track 2 三项比赛冠军方案的 Baseline, 同时也是多个优胜算法的Baselines. Bilibili 视频分享 【工作分享】SCTransNet:面向红外弱小目标检测的空间 - 通道交叉 Transformer_哔哩哔哩_bilibili 极市平台 推文分享 …

电路模型和电路定理(二)

电路元件 是电路中最基本的组成单元。 电阻元件&#xff1a;表示消耗电能的元件 电感元件&#xff1a;表示产生磁场&#xff0c;储存磁场能的元件 电容元件&#xff1a;表示产生电场&#xff0c;储存电场能量的元件 电压源和电流源&#xff1a;表示将其他形式的能量转变成…

2023AE软件、Adobe After Effects安装步骤分享教程

2023AE软件是一款由Adobe公司开发的视频编辑软件&#xff0c;也被称为Adobe After Effects。它在广告、电影、电视和网络视频等领域广泛应用&#xff0c;用于制作动态图形、特效、合成和其他视觉效果。该软件支持多种视频和音频文件格式&#xff0c;具有丰富的插件和预设&#…

AI Large Language Model

AI 的 Large Language model LLM , 大语言模型&#xff1a; 是AI的模型&#xff0c;专门设计用来处理自然语言相关任务。它们通过深度学习和庞大的训练数据集&#xff0c;在理解和生成自然语言文本方面表现出色。常见的 LLM 包括 OpenAI 的 GPT 系列、Google 的 PaLM 和 Meta…

【大数据学习 | Spark】关于distinct算子

只有shuffle类的算子能够修改分区数量&#xff0c;这些算子不仅仅存在自己的功能&#xff0c;比如分组算子groupBy&#xff0c;它的功能是分组但是却可以修改分区。 而这里我们要讲的distinct算子也是一个shuffle类的算子。即可以修改分区。 scala> val arr Array(1,1,2,…