对话图像编辑研究综述

news2025/1/11 10:13:16

MGIE:MLLM 引导图像编辑(ICLR 2024)

https://mllm-ie.github.io/

利用 MLLM 来增强基于指令的图像编辑 (“what will this image be like if [instruction]” ,来重写)。
训练好后,大视觉语言模型直接推导出简洁明确的表达指令(concise expressive instruction),并为预期目标提供明确的视觉相关指导(visual token)然后通过Edit head 注入到Diffusion模型。

扩散模型以端到端的方式通过编辑头联合训练和实现具有潜在想象的图像编辑。

其中,Edit Head 表示:序列到序列模型 (4层transformer),它将来自 MLLM 的顺序视觉标记(sequential visual tokens)映射到语义上有意义的潜在编码 U = {u1, u2,…, uL} 作为编辑指导
在这里插入图片描述

解读:
https://blog.csdn.net/imwaters/article/details/136045973

https://www.unite.ai/zh-CN/%E9%80%9A%E8%BF%87%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%8C%87%E5%AF%BC%E5%9F%BA%E4%BA%8E%E6%8C%87%E4%BB%A4%E7%9A%84%E5%9B%BE%E5%83%8F%E7%BC%96%E8%BE%91/

LLaVA-Interactive:一体化的图像对话、分割与生成/编辑平台

https://llava-vl.github.io/llava-interactive/

Image Input. 可以上传一张图像,或者通过指定其语言描述和为对象的预期空间布局绘制边界框来生成一张图像

Visual Chat: 询问有关图像的任何问题,例如,关于如何修改图像的建议。根据编辑建议,人们可以分别使用步骤 3 或 4 移除或添加新对象。

Interactive Segmentation: 人们可以使用笔画绘制或文本提示来分割对象掩码。要将其移除,请将掩码拖出图像,背景将自动填充。

Grounded Editing: 人们可以通过绘制边界框并为预期对象关联相应的概念,将新对象直接放置在图像上。

Mult-turn Interaction: 重复步骤 2、3 或 4 以迭代地优化视觉创作。

在这里插入图片描述

FFCLIP:单个模型实现多文本引导图像编辑(NIPS 2022)

https://github.com/KumapowerLIU/FFCLIP

描述用户意图的自由文本提示已被用于编辑 StyleGAN 潜在空间以进行图像编辑操作 [1、2]。一句话(例如,‘Blue’)或短语(例如,‘Man aged 10’)作为输入,这些方法通过调制 StyleGAN 潜在空间中的潜在编码来相应地编辑所描述的图像属性。

精确的文本 - 图像编辑依赖于 StyleGAN 的视觉语义空间与 CLIP 的文本语义空间之间的精确潜在映射。

比如当文本提示是 “惊喜”,我们首先在视觉语义空间中识别其相关的语义子空间(即 “表情”,因为惊喜属于表情这个属性)。找到与文本相对应的语义子空间后,文本会告诉我们隐编码的变化方向,从让隐编码从当前的表情变化到惊喜的表情。

TediGAN [1] 和 StyleCLIP [2] 等开创性研究凭经验预先定义了哪个潜在视觉子空间对应于目标文本提示嵌入(即 TediGAN 中的特定属性选择和 StyleCLIP 中的分组映射)。这种经验识别限制了给定一个文本提示,他们必须训练相应的编辑模型。

但基于 GAN 的文本 - 图像编辑依旧有一些问题等待解决,例如经典的 StyleCILP 中针对每一个文本必须要训练一个模型,这种单文本对单模型的方式在实际应用中是不方便的。

我们提出了 FFCLIP-Free Form CLIP,它可以针对不同的文本自动找到相对应视觉子空间

FFCLIP 由几个语义调制模块组成,这些语义调制模块把 StyleGAN 潜在空间 中的潜在编码 和文本编码 e 作为输入。
在这里插入图片描述
FFCLIP 首先通过预训练好的 GAN inversion 编码器和文本编码器得到图像和文本的潜在编码,其中图像的潜在编码则是之前提到的 StyleGAN 视觉语义空间 中的 w,而文本编码则是和 StyleCLIP 一样采用 e4e GAN inversion 编码器 [4] 和 CLIP 中的文本编码器来分别得到相应的潜在编码。

在这里插入图片描述

语义调制模块由一个语义对齐模块和一个语义注入模块组成。语义对齐模块将文本编码 e 作为 query,将潜在编码 w 作为 key 和 Value。然后我们分别在 position 和 channel 维度上计算交叉注意力,从而得到两个注意力图。

解读:

https://blog.csdn.net/qq_27590277/article/details/128631486

DialogGen:多轮文生图交互对话系统(腾讯混元)

https://hunyuan-dialoggen.github.io/

文生图带来了很大的便利,但是

  • 需要专业的prompt知识才能准确地将用户意图变为现实→阻碍了在普通用户中的应用
  • 用户会根据之前的对话结果生成图像→需要多回合T2I生成

现有解决方式

将MLLM集成到T2I中,这就导致了多模态交互对话系统(MIDS)的出现,接收多个模态,输出多个模态

新的挑战

text encoder容量有限,难以理解用户复杂的自然语言指令

本文提出的DialogGen

集成为一个管线:绘图提示对齐→训练数据处理→误差修正
在这里插入图片描述

  • 绘图提示对齐

    将MLLM的输出转换为T2I模型所支持的形式
    (re-caption model重新起标题,以确保转换后的提示与T2I模型之间的对齐)

  • 处理:一致性保证、混合指令调优数据、双语数据

    1. 一致性保证:训练数据添加约束(尽可能少地改变先前图像使用的绘图提示)+固定T2I模型的随机种子
    2. 混合指令调优数据:由于缺乏将用户的自然语言输入转化为详细描述提示的数据集→查询GPT-4以生成包含单轮文本到提示样本的数据集
    3. 双语:中+英混合训练
  • 错误纠正

    1. 给定一个训练数据集D,经过几轮训练,得到一个学生模型m
    2. 引入一个教师纠错器模型MT和一个查询MT的提示符Pf,其中Pf是指示MT生成纠错数据的few-show提示符,使用校正模型MT对训练集中的每个样本生成一个校正
    3. 来自正确响应的反馈增强了模型对其准确行动的信心。来自错误响应的反馈会提醒模型注意它的错误,以及如何在将来避免这些错误。

InternGPT:与超越语言的ChatGPT交互来解决以视觉为中心的任务

https://github.com/OpenGVLab/InternGPT

可以通过指向设备进行点击、拖拽和绘制等操作来与 ChatGPT 进行交互。InternGPT 这个名字分别代表着交互( interaction)、非语言(n onverbal)和聊天(Chat GPT)。

不同于现有依赖纯语言的交互系统,通过加入指向指令,iGPT 大大提高了用户与聊天机器人的沟通效率,以及聊天机器人在以视觉为中心的任务中,尤其是在复杂视觉场景中的准确性。

在这里插入图片描述

iGPT由三个主要组件组成:

(1)一个感知单元,用于解释用户在图像和视频上的指向手势,实现精确的对象选择和识别;
(2)一个LLM控制器,用于处理用户的语言命令,促进自然通信;
(3)一个开放世界工具包,集成了各种现成的模型/应用程序,为不同的任务提供多功能平台。

HairCLIP:图像编辑Image Editing(2022,中科大)

Paper:https://arxiv.org/pdf/2112.05142.pdf
Github:https://zhuanlan.zhihu.com/p/480539824
Blog:https://zhuanlan.zhihu.com/p/480539824

文章利用在大规模人脸数据集上预训练的StyleGAN作为的生成器。给定待编辑的真实图像,我们首先使用StyleGAN inversion方法得到其隐编码,然后我们的头发映射器根据隐编码和条件输入(发型条件、发色条件)预测隐编码相应的变化,最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。本质上是通过CLIP输出的embedding来指导图像的生成。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2045624.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FreeRTOS队列(下)

文章目录 一、使用队列实现多设备输入1、增加旋转编码器2、使用队列集执行任务3、增加姿态控制(使用MPU6050控制挡球板) 二、队列实验_分发数据给多个任务(赛车游戏)三、传输大块数据四、示例:邮箱(Mailbox)五、队列集…

远程桌面你的凭据不工作解决方法

如果遇到“你的凭据不工作”的提示,请首先确认您输入的凭据是否正确。如果确认无误但仍然出现Windows远程桌面凭据不工作的提示,这可能是由于Windows安全设置的问题所导致的。要解决远程桌面连接提示你的凭据不工作这一问题,您可以尝试以下解…

qemu的VNC协议(RFB协议)

1、握手 1.1、服务器收到客户端TCP连接上后,服务器发送RFB的版本: 52 46 42 20 30 30 33 2e 30 30 38 0a RFB 003.008\n 1.2、客户端收到后回复: 52 46 42 20 30 30 33 2e 30 30 38 0a RFB 003.008\n 2、安全认证 2.1、服务器发送支…

MySQL数据库之part2

一、索引原理与慢查询优化 一)介绍 1、为何需要有索引 一般的应用系统,读写比例是10:1左右,而且插入操作和一般的更新操作很少出现性能问题。在生产环境中,我们遇到最多的、也是最容易出问题的还是一些负责的查询操作。因此查询语…

密码学基础---椭圆曲线一文打尽

1.ECC简介及密钥生成 当前公认安全有效的三大类公钥密钥体制分别为基于大数因子分解难题(RSA)、离散对数难题(DSA)和椭圆曲线离散对数(ECC)难题的密码体制。 最初RSA由于其容易理解被广泛运用,但随着计算机性能的提升,要保证RS…

JavaScript学习笔记(十三):网络请求JS AJAX

1、AJAX - XMLHttpRequest 对象 1.1 XMLHttpRequest 对象是 AJAX 的基石。 创建 XMLHttpRequest 对象定义回调函数打开 XMLHttpRequest 对象向服务器发送请求 1.2 XMLHttpRequest 对象 所有现代浏览器都支持 XMLHttpRequest 对象。 XMLHttpRequest 对象可用于在后台与 Web…

【mysql】MySQL的数据库简单搭建

文章目录 前言基础知识数据库数据表数据表结构记录(数据) 数据类型数值类型字符串类型日期类型二进制类型其他数据类型 约束where子句其他条件 order by 语句 (排序)group by语句(分组) 数据库操作新建数据…

漏洞挖掘 | EDU拿敏感信息的骚思路

1. 寻找资产 在进行edu漏洞挖掘的时候,我们常常遇到统一认证平台,账号是学号,密码是身份证后6位(甚至是更复杂的密码),同时找到这两者的几率很小,所以我们把关注点放在微信小程序中&#xff0c…

15 个高难度 Java 面试题及答案

一、企业聘用指南 聘用合适的 Java 开发人员对您的业务至关重要。聘用不当可能会导致代码效率低下、错过最后期限以及团队活力不佳。这就是为什么在聘用候选人之前必须彻底审查每位候选人的原因。这个过程的一部分是在面试 Java 开发人员候选人时提出正确的问题。 通过我们列…

OK-COIN : 总统大选成为比特币牛市的导火索

每一届总统大选,都将带动比特币进入牛市行情,还有三个多月时间,现在比特币经过底部针震荡整理后,形成了坚实的“双针探底”形态,确认比特币底部形成,随后迎来了非常强势的单边趋势性行情机会 ,相…

IDEA关键词全局检索-之jar包

正常没有下载到源码的jar包,是无法检索到.class编译文件中内容的 repository本地仓库中,也是没有源码的 《检索步骤》 1、首先,下载源码 - 可以配置maven自动下载所有jar包的源码(再同样配置File-NewProjectsSetup-Settingsfor…

CAN总线学习笔记

1 CAN总线简介 CAN(Controller Area Network)控制器局域网。 2 电平表示 CAN 总线用两根数据线传输数据,使用差分信号。 2.1 显性电平–低电平–逻辑零 当单片机发送逻辑0信号时,CAN转换芯片输出端会输出一个3.5V信号和一个…

【大模型理论篇】GPT系列预训练模型原理讲解

1. 背景简述 GPT的全称是Generative Pre-Trained Transformer,以Transformer为基础模型(可以看Transformer的原理解析),先后迭代了GPT-1【1】,GPT-2【2】,GPT-3【3】、GPT3.5(InstructGPT)【10】、GPT4。…

【直播预告】智能机器人赛道技术培训定档8.20

在不远的将来,机器人可能会成为我们日常生活中不可或缺的伙伴,它们在工业生产线上精准操作,在家庭中提供温馨陪伴,甚至在探索未知领域中担当先锋。而现在,正是我们拥抱这一未来,深入了解并掌握智能机器人技…

【一个月备战国赛】按模型算法分类的国内外优秀论文分享

时间一天一天过去,离国赛又更近一步,昨天分享了matlab的算法程序包,但是可能很多小伙伴拿到算法之后,不知道该如何去使用,如何与题目相结合去完成论文的写作,那么这里就需要家人们提高自己文章的阅读量&…

【python与java的区别-序列(字符串、列表、元组)02】

序列都可以进行的操作包括索引,切片,加,乘,检查成员。 一、字符串 1、定义 Java中的字符是单引号,字符串是双引号;Python则是单双都可以,python也可以使用三引号创建多行字符串 shello fre…

kubernetes之HPA和VPA

目录 HPA 服务发布 创建HPA 增加负载 停止产生负载 VPA HPA HPA(Horizontal Pod Autoscaling,Pod水平自动伸缩)是Kubernetes中的一个核心功能,它允许用户根据当前Pod的资源使用率(如CPU、内存等)或其…

想知道排名好的自闭症学校有哪些?这里为你解答

在当今社会,自闭症儿童的教育和康复问题备受关注,网络上关于自闭症学校排名的文章层出不穷。然而,家长们在为自己的孩子挑选合适的学校时,切不可盲目依赖这些排名,一定要结合线下实地考察。 那么,一…

ONES 王颖奇:关于 ONES V6 发布的解读

经过近一年的产品研发,ONES 正式发布 V6 版。 结合 ONES 的产品成熟度阶段和近两年的市场变化,ONES V6 为以下几个场景做了能力深耕。 1. 系统兼容和部署方面,软件供应链国产化政策引导趋势明显,在金融等领域要求全栈信创支持。 …

【数据结构-哈希前缀】力扣1590. 使数组和能被 P 整除

给你一个正整数数组 nums,请你移除 最短 子数组(可以为 空),使得剩余元素的 和 能被 p 整除。 不允许 将整个数组都移除。 请你返回你需要移除的最短子数组的长度,如果无法满足题目要求,返回 -1 。 子数组…