实时图像编辑大革新!Adobe发布TurboEdit:可以通过文本来编辑图像,编辑时间<0.5秒!

news2024/9/25 13:19:47

今天给大家介绍Adobe研究院新的研究TurboEdit,可以通过文本来编辑图像,通过一句话就能改变图像中的头发颜色、衣服、帽子、围巾等等。而且编辑飞快,<0.5秒。简直是图像编辑的利器。

相关链接

项目:betterze.github.io/TurboEdit

论文:arxiv.org/abs/2408.08332

论文阅读

TurboEdit: Instant text-based image editing(即时基于文本的图像编辑)

摘要

我们在几步扩散模型的背景下解决了精确图像反转和分离图像编辑的挑战。

我们引入了一种基于编码器的迭代反演技术。反演网络以输入图像和上一步的重建图像为条件,允许对输入图像进行下一次重建校正。我们证明,通过以(自动生成的)详细文本提示为条件,可以在几步扩散模型中轻松实现分离控制。

为了操纵反转图像,我们冻结噪声图并修改文本提示中的一个属性(手动或通过 LLM 驱动的基于指令的编辑),从而生成与输入图像相似的新图像,但只有一个属性发生变化。它可以进一步控制编辑强度并接受指导性文本提示。

我们的方法促进了实时的真实文本引导图像编辑,反转中只需要 8 个功能评估 (NFE)(一次性成本),每次编辑只需要 4 个 NFE。我们的方法不仅速度快,而且明显优于最先进的多步扩散编辑技术。

方法

给定一个输入的真实图像 x0,我们利用 LLaVA 生成详细的标题 c。用户可以修改 c 以创建新的文本提示 c ′。反演过程首先将 x0、c、当前时间步长 t 和之前重建的图像 x0,t+1(初始化为零矩阵)输入反演网络。然后,该网络预测噪声 ϵt,随后将其输入到冻结的 SDXL-Turbo 模型中以生成新的重建图像 x0,t。给定最终的反演噪声 ϵt 以及 c,我们可以使用 SDXL-Turbo 创建反演轨迹并重建 x0,0,这与 x0 非常相似。使用相同的噪声 ϵt 和略有不同的文本提示 c ′,从 t = T 开始到更小的 t,编辑轨迹将与反演轨迹非常相似,生成的图像将与输入图像非常相似,仅在 c' 中指定的属性上有所不同。

实验

当呈现简洁的源文本提示时,文本空间中的微小编辑可能导致图像空间中的布局和结构发生重大变化。相反,在详细的文本提示中进行小文本编辑往往会导致图像空间中发生更简单的变化。结果来自使用相同随机种子的单步图像生成。下面提供了标题和颜色编码的修改区域。

给定详细的源文本和相应的目标文本,我们可以对文本嵌入进行插值,并在图像空间中生成平滑的插值,即使对于较大的结构变化也是如此。

使用 PIE-Bench 数据集中的描述性文本进行图像编辑比较。效率是在单个 H100 GPU 中测量的。我们的方法实现了最佳的背景保留和剪辑相似性,同时比其他方法快得多(4 步 DDIM 除外)。

我们比较了使用描述性文本提示作为指导的方法。尽管我们的方法只需要四个步骤,但它的表现优于多步骤方法,特别是在需要对属性进行重大结构变化的场景中,例如添加帽子或将男人变成女人。相比之下,InfEdit 和 Pix2PixZero 在背景和身份保存方面遇到了困难。同样,Ledits 和 Ledits++ 无法有效处理大的结构变化,这一点从它们无法添加高顶礼帽或将男人变成女人就可以看出。

我们评估了利用指导性提示作为指导的方法。虽然我们的方法不需要任何意外训练,只需要四个采样步骤,但在身份保存(猫到狗)和文本提示对齐(毛衣到 T 恤)方面,它优于 InstructPix2Pix 及其变体。值得一提的是,InstructPix2pIx 及其变体需要收集大规模意外训练集、计算密集型训练和多步骤采样。

结论

据我们所知,我们的方法是第一个在几步扩散模型的背景下探索图像编辑的工作,也是第一个探索扩散模型中基于编码器的反演的工作。我们证明,通过对(自动生成的)详细文本提示进行条件处理,可以在几步扩散模型中轻松实现解缠结控制。我们的方法使用户能够以交互速率进行逼真的文本引导图像编辑,反演和编辑过程都在几毫秒内完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2089804.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

闪存刷新机制文献的解读

闪存刷新机制文献的解读 一、文献信息1、标题&#xff1a;Flash Correct-and-Refresh: Retention-Aware Error Management for Increased Flash Memory Lifetime2、作者来源&#xff1a;卡耐基梅隆大学 二、Motivation三、Technique ( Flash Correct-and-Refresh, FCR )1、Repr…

如何使用Svg矢量图封装引用到vue3项目中

前言 在现代前端开发中&#xff0c;SVG&#xff08;可缩放矢量图形&#xff09;因其高质量和灵活性成为了图标和图形设计的热门选择。对于 Vue 3 项目而言&#xff0c;将 SVG 图标封装和引用到项目中不仅能提升性能&#xff0c;还能带来更高的可维护性和一致性。SVG 图标本质上…

LED的使用寿命评估

一&#xff0e;前言 LED光源随着时间的推移&#xff0c;输出光功率会逐渐衰减。在某一时间点&#xff0c;当LED发出的光衰减到一定水平&#xff0c;就无法满足应用要求。因此&#xff0c;常遇见客户会索取产品中LED光源的使用寿命数据。那么怎样确认LED的使用寿命呢&#xff1…

视觉Mamba综述——Visual Mamba: A Survey and New Outlooks论文总结

Visual Mamba: A Survey and New Outlooks &#xff08;31页&#xff0c;视觉Mamba综述&#xff09; 香港科技大学计算机科学与工程系 https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models. 任务背景 0.摘要 Mamba是最近提出的一种选择性结构化状态空间模型&#xff…

公共DNS大测评,哪个解析性能最好?

日前阿里云方面发布公告称&#xff0c;由于产品升级&#xff0c;将于2024年9月30日24时起对公共DNS中免费的解析请求采取智能流量管控措施。据其透露&#xff0c;“公共DNS仍会致力于为广大免费用户提供高质量的基础递归解析服务&#xff0c;但在高并发解析场景&#xff0c;将对…

建模杂谈系列249 增量数据的正态分布拟合

说明 从分布开始&#xff0c;分布又要从正态开始 假设有一批数据&#xff0c;只有通过在线的方式增量获得。 内容 1 生成 先通过numpy生成一堆随机数据&#xff0c;从3个正态分布生成&#xff0c;然后拼接起来。 import numpy as np import matplotlib.pyplot as plt from …

【智能算法改进】路径规划问题的多策略改进樽海鞘群算法研究

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】樽海鞘群算法&#xff08;SSA)原理及实现 2.改进点 无标度网络策略 复杂网络在图论中可以用边和节点表示&#xff0c; Barabasi 等于1999年通过分析大量的数据提出了无标度网络模型. 该网络…

框架 +【Mybatis】概述 以及 基础环境搭建

目录 什么是框架&#xff1f; java后端框架包括 Mybatis概述 1、背景介绍 2、mybatis介绍 Mybatis环境搭建 1.创建一个maven项目 2.导入mysql数据库驱动包 导入mybatis依赖的jar包 3.创建一个全局的mybatis配置文件 4.创建数据库,创建表,准备数据 5.创建一个访问接口…

单图生成 2D 和 3D 人物,高质量图像处理模型 CharacterGen来啦!

CharacterGen引入了一个简化的生成流程和一个图像条件的多视图扩散模型。该模型有效地将输入姿态校准到规范形式&#xff0c;同时保留输入图像的关键属性&#xff0c;从而解决了多样化姿态带来的挑战。 CharacterGen的另一个核心组成部分是基于Transformer的、可泛化的稀疏视图…

httpx:一个神奇的 Python HTTP客户端

文章目录 httpx&#xff1a;一个神奇的 Python HTTP客户端1. 背景&#xff1a;为什么选择 httpx&#xff1f;2. httpx 是什么&#xff1f;3. 如何安装 httpx&#xff1f;4. 简单的库函数使用方法5. 场景应用6. 常见问题及解决方案7. 总结 httpx&#xff1a;一个神奇的 Python H…

第 8 章 数据的家——MySQL的数据目录

8.1 数据库和文件系统的关系 数据库把表存储在文件系统上。当我们读取数据时&#xff0c;存储引擎会从文件系统中把数据读出来返回给我们&#xff1b;当我们写入数据时&#xff0c;存储引擎会把这些数据写回文件系统。 8.2 MySQL数据目录 8.2.1 数据目录和安装目录的区别 数…

C++从入门到起飞之——list模拟实现 全方位剖析!

​ ​ ​ &#x1f308;个人主页&#xff1a;秋风起&#xff0c;再归来~&#x1f525;系列专栏&#xff1a;C从入门到起飞 &#x1f516;克心守己&#xff0c;律己则安 目录 ​ ​1、list的整体框架 2、list迭代器 >整体分析 >整体框架 >成员函数 >运…

操作系统:实验六文件操作实验

一、实验目的 1、了解文件系统功能及实现原理。 2、掌握LINUX下文件操作的有关系统调用。 3、熟悉main函数带参数运行的有关操作过程。 4、通过模拟程序实现简单的一级文件系统或二级文件系统。 二、实验内容 1、编程显示文件自身。&#xff08;1分&#xff09; #includ…

分享两个方法分析python打包exe

在Python开发中&#xff0c;常常需要将Python脚本打包成独立的可执行文件&#xff0c;以便在没有Python环境的电脑上运行。你是否曾为此感到困惑&#xff0c;不知道该选择哪种工具来实现这一目标&#xff1f;其实&#xff0c;打包Python脚本并不难&#xff0c;关键在于选择合适…

Mybatis框架——缓存(一级缓存,二级缓存)

本章将简单介绍Mybatis框架中的缓存&#xff0c;欢迎大家点赞➕收藏&#xff0c;蟹蟹&#xff01;&#xff01;&#xff01;&#x1f495; &#x1f308;个人主页&#xff1a;404_NOT_FOUND &#x1f308;MyBatis环境搭建步骤&#xff08;超全解析&#xff01;&#xff01;&am…

AI写论文真的可靠吗?免费推荐6款AI论文写作助手

在当今的学术研究和写作领域&#xff0c;AI论文写作助手已经成为不可或缺的工具。这些工具不仅能够提高写作效率&#xff0c;还能帮助研究者生成高质量的论文。以下是六款免费推荐的AI论文写作助手&#xff0c;包括千笔-aipasspaper&#xff0c;它们各自具有独特的功能和优势。…

【hot100篇-python刷题记录】【最小路径和】

R6-多维动态规划篇 好经典的dp题&#xff0c;纯粹的题。 多维动态规划无论是二维还是三维&#xff0c;无非是创建dp表&#xff0c;dp[][][][][][]即可 动态规划式子 dp[i][j]当前值min(dp[i][j-1],dp[i-1][j]) 边界问题处理&#xff1a;是否存在即可。哦对了好像不用这样&a…

探索异步之美:aiohttp库的魔力与奥秘

文章目录 探索异步之美&#xff1a;aiohttp库的魔力与奥秘背景&#xff1a;为何选择aiohttp&#xff1f;什么是aiohttp&#xff1f;如何安装aiohttp&#xff1f;简单函数使用方法场景应用常见Bug及解决方案总结 探索异步之美&#xff1a;aiohttp库的魔力与奥秘 背景&#xff1…

Linux教程七:文件目录类命令ls、cd(图文详解)

默认登录出现一个[用户localhost ~] 代表时登陆用户的家目录 1、 Linux ls命令 基本用法 ls&#xff1a;列出当前目录下的文件和目录&#xff08;不包括以.开头的隐藏文件&#xff09;。ls 目录名&#xff1a;列出指定目录下的文件和目录。 常用选项 -l&#xff1a;以长格式列出…

【Python 报错已解决】`TypeError: ‘method‘ object is not subscriptable`

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引言 在编程的世界里&#xff0c;我们经常会遇到各种报错&#xff0c;它们像隐藏在代码中的小怪兽&#xff0c;时不时跳出来给…