图像编辑大一统?多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑。

news2024/10/22 1:48:05

今天给大家介绍一个基于图像和文本的编辑的框架D-Edit,它是第一个可以通过掩码编辑实现图像编辑的项目,近期已经在HuggingFace开放使用,并一度冲到了热门项目Top5。

使用 D-Edit 的编辑流程。用户首先上传一张分割成多个项目的图像。微调 DPM 后,用户可以进行各种类型的控制,包括

(a) 使用文本提示替换模型;

(b) 细化分割造成的不完美细节;

(c) 将包移到地面;

(d) 将手提包替换为参考图另一个手提包;

(e) 重塑手提包;

(f) 调整模型和手提包的大小;

(g) 去除背景。

相关链接

论文地址:https://arxiv.org/pdf/2403.04880

代码链接:https://github.com/collovlabs/d-edit

试用地址:https://huggingface.co/spaces/Collov-Labs/d-edit

论文介绍

基于文本到图像扩散模型 (DPM) 的成功,图像编辑是实现人类与 AI 生成内容交互的重要应用。在各种编辑方法中,提示空间内的编辑因其容量大和控制语义的简单性而受到更多关注。然而,由于扩散模型通常是在描述性文本标题上进行预训练的,直接编辑文本提示中的单词通常会导致完全不同的生成图像,违反了图像编辑的要求。另一方面,现有的编辑方法通常考虑引入空间掩码来保留未编辑区域的身份,而这些区域通常会被 DPM 忽略,因此导致不和谐的编辑结果。

针对这两个挑战,在这项工作中,我们建议将综合图像提示交互分解为几个项目提示交互,每个项目都链接到一个特殊的学习提示。由此产生的框架名为 D-Edit,基于预训练的扩散模型,交叉注意层已解开,并采用两步优化来构建项目提示关联。然后,可以通过操作相应的提示将多功能图像编辑应用于特定项目。我们展示了四种编辑操作的最新结果,包括基于图像、基于文本、基于掩码的编辑和项目删除,涵盖了大多数类型的编辑应用程序,所有这些都在一个统一的框架内。值得注意的是,D-Edit 是第一个可以 (1) 通过掩码编辑实现项目编辑和 (2) 结合基于图像和文本的编辑的框架。我们通过定性和定量评估展示了各种图像集合的编辑结果的质量和多功能性。

方法

传统全交叉注意和分组交叉注意的比较。查询、键和值显示为一维向量。对于分组交叉注意,每个项目(对应于某些像素/块)仅关注分配给它的 文本提示(两个标记)。

嵌入层在文本编码器。新令牌 插入随机初始化。

不同类型的图像所需的操作 编辑。每个彩色道具都有一个独特的提示符p。

实验

文本引导编辑。D-Edit允许选择 任何项目分割和编辑使用文本提示。

图像引导编辑的定性比较。在项目替换和面部交换方面,D-Edit 与 Anydoor、Paint-by-Example 和 TF-ICON 进行了比较。

图像引导编辑:图像中的任何项目都可以被来自相同或不同图像的另一个项目所替换

结论

这项工作提出了基于扩散模型的多功能图像编辑框架 D-Edit。D-Edit 将给定图像分割成多个项目,每个项目都分配有一个提示来控制其在提示空间中的表示。图像提示交叉注意力被解开为一组项目提示交互。通过调整扩散模型来建立项目提示关联,该模型学习使用给定的一组项目提示来重建原始图像。定性和定量评估展示了在收集的各种图像中编辑结果的质量和多功能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2220439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CTFHUB技能树之文件上传——前端验证

开启靶场,打开链接: 看到提示是js前端验证 直接F12查看前端源代码: 可以看出对上传的文件做了限制,只能上传.jpg、.png、.gif文件 (小插曲:本来我想着直接删除onsubmit处的代码的,但是删了之后…

沈阳乐晟睿浩科技有限公司:引领抖音小店迈向新纪元

在当今数字化浪潮汹涌的时代,电子商务以其独特的魅力和无限潜力,正深刻改变着人们的消费习惯与商业模式。在这场变革中,沈阳乐晟睿浩科技有限公司凭借其敏锐的市场洞察力和卓越的技术实力,成为了抖音小店领域的佼佼者,…

功能推荐 | TopOn 智能管家,开发者收益提升好帮手,一键托管自动提升ARPU!

01 什么是智能管家 智能管家,是TopOn SDK基于广告位填充率、广告源预估收益等大数据学习的基础上开发的一项新功能,它能根据当前开发者流量分组瀑布流配置的数据情况,自动判断对应广告源是否需要开启/关闭,以及是否需要增加Biddi…

SpringBoot整合mybatisPlus实现批量插入并获取ID

背景:需要实现批量插入并且得到插入后的ID。 使用for循环进行insert这里就不说了,在海量数据下其性能是最慢的。数据量小的情况下,没什么区别。 【1】saveBatch(一万条数据总耗时:2478ms) mybatisplus扩展包提供的:…

Verilator——最简单、最细节上手教程

目录 前言工具安装Verilator 安装GTKwave 安装 Verilator 基础用法fst格式和vcd格式的wave文件Verilator 的使用 Verilator 的进阶使用与GDB搭配与makefile搭配 Verilator 的高阶用法访问模块内部数据 前言 此教程会以ubuntu22.04为例 从如何安装,到如何使用 全程帮…

coze上构建必应搜索工作流

首先登入COZE网站,打开工作空间,进入后默认是个人空间,在其下方选择资源库,最后在右上角点击资源按钮,在弹出的列表中点击工作流。 构建必应搜索工作流 Coze官方介绍:必应搜索插件,其中插件输…

【网络】IP协议的地址管理

【网络】IP协议的地址管理 一. IP协议格式二. 地址管理1.动态分配IP地址2.NAT机制2.1 NAT机制下网络的请求/响应 3. 网段划分3.1 特殊的IP地址 4.路由选择5.DNS域名解析系统 一. IP协议格式 4位版本号(version): 指定IP协议的版本(IPv4/IPv6), 对于IPv4来…

AI工具:最受欢迎与最佳体验的探索

在当今数字化的时代,人工智能(AI)技术的广泛应用正在彻底改变我们的生活方式、工作方式和社会交往。AI工具不仅在工业生产、医疗诊断、金融服务等领域发挥着关键作用,还深入日常生活,为人们带来便捷与高效。本文将探讨…

基于SpringBoot的旅店管理系统的设计与实现源码+Vue前端(酒店、民宿、功能较多)

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

基于JSP实习管理系统【附源码】

基于SSM的学生管理系统(源码L文说明文档) 目录 4 系统设计 4.1 系统概述 4.2系统功能结构设计 4.3数据库设计 4.3.1数据库E-R图设计 4.3.2 数据库表结构设计 5 系统实现 5.1管理员功能介绍 5.1.1管理员登录 5.1.2…

RuoYi-Vue若依 环境搭建 速成

一、若依简介 RuoYi-Vue 是一个开源的后台管理系统,适用于快速开发企业级应用。该平台由两部分组成:前端和后端。 (1)技术框架 前端技术: Vue.js: 前端框架使用 Vue.js,这是一种流行的JavaScript框架&a…

鸿蒙网络编程系列28-服务端证书锁定防范中间人攻击示例

1. TLS通讯中间人攻击及防范简介 TLS安全通讯的基础是基于对操作系统或者浏览器根证书的信任,如果CA证书签发机构被入侵,或者设备内置证书被篡改,都会导致TLS握手环节面临中间人攻击的风险。其实,这种风险被善意利用的情况还是很…

数据结构与算法——Java实现 44.翻转二叉树

目录 226. 翻转二叉树 思路 代码 本地代码测试 不管前方的路有多苦 只要走的方向正确 不管多么崎岖不平 都比站在原地更接近幸福 —— 24.10.21 226. 翻转二叉树 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输…

GEE引擎传奇UI界面修改教程

还记得小林之前给大家分享了gom引擎UI界面编辑教程,今天给大家分享一下gee引擎UI界面修改教程 首先打开登录器生成器-客户端界面设置 在客户端界面设置这里可以自定义UI素材,也可以直接在原素材上编辑主界面 传奇根目录指向的是你的传奇客户端根目录&am…

单神经元建模:基于电导的模型[神经元结构、静息电位和等效电路]

文章目录 神经元结构、静息电位和等效电路神经元结构静息电位能斯特方程1. **描述浓度比的非线性关系**:2. **化学势与电势的关系**:3. **对称性**:4. **热力学与平衡**:总结: GHK方程Nernst方程和GHK方程的对比 等效电…

深度学习:YOLO目标检测和YOLO-V1算法损失函数的计算

简介 YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,它的核心思想是将目标检测问题转化为一个回归问题,通过一个神经网络直接预测目标的类别和位置。 YOLO算法将输入图像分成SxS个网格,每个网格负责预测…

cefsharp79.1.360(Chromium 79.0.3945.130)支持H264视频播放-PDF预览 老版本回顾系列体验

一、关于此版本 版本:Cef 79.1.36/CefSharp 79.1.360/Chromium 79.0.3945.130/支持H264/支持PDF预览 支持PDF预览和H264推荐版本 63/79/84/88/100/111/125 运行环境需要 visual c++ 2015不支持xp/vista/2003/2008默认不支持h264(版权问题)支持打印预览 print preview已知问题…

Kafka之原理解析

定义 Kafka 是一个分布式流媒体平台,kafka官网:http://kafka.apache.org/ Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统,最初由 LinkedIn 公司开发,使用Scala 语言编写,目前是Apache 的开源项目。 流媒体…

深入解析Golang GMP

文章目录 1. 引言2. GMP 模型概述与核心结构体2.1. G(Goroutine)2.2. M(Machine/Thread)2.3. P(Processor)2.4. 全局调度器schedt(Scheduler) 3. Goroutine 的生命周期与状态管理3.1…

子比主题美化-用户中心隐私功能

前言 子比主题用户中心的文章、评论、粉丝等默认全部人可见,但是有时不想让全部人可见就可以开启此功能 图片展示 教程开始 把以下代码添加到子比主题下,按顺序找到该文件/inc/functions/zib-author.php,在zib-author.php第374行把原代码删…