MuLan:模仿人类画家的多对象图像生成

news2025/1/10 11:41:30

在图像生成领域,处理包含多个对象及其空间关系、相对大小、重叠和属性绑定的复杂提示时,现有的文本到图像模型仍面临挑战:当文本提示中包含多个对象,并且这些对象之间存在特定的空间关系时,现有模型往往难以准确地捕捉和表现这些复杂的场景。

例如,假设有一个文本提示是“一个橙色的南瓜放在黑色的门的右边”。对于这样的提示,现有的文本到图像(T2I)模型可能无法正确地将南瓜和门的相对位置以及属性(如颜色)表现出来。这主要是因为现有模型在空间推理能力上存在限制,并且它们与扩散模型的结合并不总是能够精确地理解和处理复杂的文本提示。

自香港科技大学、加州大学洛杉矶分校、宾夕法尼亚州立大学和马里兰大学的研究团队提出了一个无需训练的多模态大型语言模型(LLM)代理。MuLan的核心思想是将复杂的文本提示分解为一系列更简单的子提示,每个子提示只关注生成提示中的一个对象。这种方法模仿了人类画家的工作方式,即先制定一个高级的计划,然后逐步绘制每个对象,并在必要时进行修正。

MuLan生成的图像与其他几种方法生成的图像的对比

方法 

MuLan模型的架构,包括三个主要组件:LLM规划、单对象扩散与注意力引导,以及VLM反馈控制

如图1所示MuLan由三个主要部分组成:

  1. LLM规划(LLM planning):这部分涉及使用大型语言模型(LLM)来规划图像生成的总体布局。LLM负责将复杂的文本提示分解为一系列更易管理的子提示,每个子提示关注生成提示中的一个对象。

  2. 单一对象扩散与注意力引导(Single-object diffusion with attention guidance):在这一步,MuLan集中于根据子提示和之前已生成的对象来生成一个单一的对象。LLM为新对象提供一个大致的布局规划,而注意力引导则确保对象在图像中的位置和形状精确,通过提供一个准确的掩码来实现。

  3. VLM反馈控制(VLM-feedback control):这是MuLan中的一个反馈循环机制,使用视觉-语言模型(VLM)来评估当前生成步骤的结果,并与原始文本提示进行对比。如果发现任何偏差或错误,VLM将提供反馈,MuLan据此调整扩散模型的超参数,以重新生成图像,确保每一步的生成结果都尽可能地符合原始提示的要求。

研究者设计的MuLan系统利用LLM的高级语言理解能力,自动地从原始文本提示中识别出各个对象,并确定它们在图像中的相对位置和顺序。这一过程模仿了人类画家在开始绘画前制定计划的方式,LLM根据预定义的空间顺序——从左到右、从下到上——来组织对象,确保生成的图像布局合理且符合人类的直观感受。

为了实现这一目标,研究者为LLM提供了一个明确的任务描述,指导模型将文本提示中的对象按照绘画的顺序进行排列。LLM根据这个描述,生成一个对象列表,这个列表决定了在图像生成过程中各个对象的创建顺序。这个过程不仅需要LLM理解文本中的对象和它们的关系,还需要它能够预测并规划出这些对象在最终图像中的布局。

研究者还为LLM设计了一套模板,用于在生成过程中对每个对象的大致位置和大小进行规划。这包括确定对象是在另一个对象的左边、右边、上方或下方,以及估计对象的数量。通过这种方式,MuLan能够在生成每个对象之前,就对它们在图像中的分布有一个初步的规划。

MuLan 利用大型语言模型(LLM)规划和注意力引导来逐步生成图像过程开始于LLM规划的粗略掩码,该掩码定义了新对象在图像中的预期位置和大小。这个掩码基于LLM对对象相对位置的规划,考虑到图像中当前可用的空间。例如,如果前一个对象已经放置在图像的左侧,LLM将决定新对象的位置,可能是在右侧或者上方,并估计对象的尺寸。

接下来,MuLan使用稳定扩散模型在由注意力掩码定义的边界框内生成对象。注意力引导在这一步骤中发挥了至关重要的作用,它确保了对象在生成过程中能够被精确地定位。就是说MuLan利用反向引导方法,通过调整扩散模型的输入潜在表示,来引导对象在图像中的正确位置生成。

MuLan还考虑了对象间的重叠问题。在生成新对象时,如果LLM判断存在与前一个对象的重叠,MuLan会计算几个候选的粗略掩码,这些掩码对应不同的重叠比例。然后,MuLan会使用这些掩码生成几个候选图像,并通过计算输入提示与生成图像之间的一致性得分来选择最佳图像。

最后,MuLan通过视觉-语言模型(VLM)进行反馈控制,以确保生成的每个对象都与原始文本提示保持一致。如果在任何生成阶段检测到错误,VLM将提供反馈,MuLan据此调整扩散模型的参数,重新生成对象。

MuLan在第n阶段生成单个对象objn时的流程,包括LLM规划粗糙掩码、注意力引导和单对象扩散

MuLan在生成每个对象后,会利用VLM对生成的图像进行评估。VLM的作用是提供对当前生成步骤的反馈,确保图像中的对象与原始文本提示保持一致。如果VLM检测到生成的对象与预期不符,比如对象的位置、大小或属性与文本描述不匹配,它将向MuLan提供反馈,指出需要调整的地方。

基于VLM的反馈,MuLan可以调整扩散模型的超参数,对图像进行重新生成。这个过程可以重复进行,直到生成的图像满足文本提示的要求。这种自适应的反馈和调整机制是MuLan系统的核心特点之一,它使得系统能够持续优化生成结果,提高图像的准确性和真实性。

除了与VLM的交互外,MuLan还考虑了人类用户的参与。在实际应用中,人类用户可能希望对生成过程进行监督或提出特定要求。MuLan的设计允许人类用户在生成过程中提供输入,比如调整文本提示或对生成的图像给出评价。这种用户交互可以进一步提高生成图像的满意度,并使MuLan更加灵活和适应不同的应用场景。

如何根据前一个生成的对象objn−1的精确掩码来计算当前对象objn的粗糙掩码

 实验

研究者为了评估MuLan框架,构建了一个由不同基准测试组成的提示数据集。这个数据集专注于生成包含多个对象、空间关系和属性绑定的复杂提示。研究者首先从T2I-CompBench收集了所有复杂的空间提示,并通过ChatGPT生成了约400个具有不同对象、空间关系和属性绑定的提示,使提示集包含约600个提示。为了进一步评估框架在极其复杂和困难的提示上的能力,研究者手动添加了SDXL无法生成的提示,形成了包含200个提示的困难提示数据集。

作为一个无需训练的框架,MuLan可以集成到任何现有的扩散模型中。研究者评估了两种稳定扩散模型与MuLan框架的结合效果,包括Stable Diffusion v1.4和最先进的Stable Diffusion XL。为了验证MuLan的优越性,研究者将其与先前的可控生成方法和通用T2I生成方法进行了比较,包括Structure Diffusion、Promptist、原始的Stable Diffusion v1.4、原始的SDXL和最近的SOTA扩散模型PixArt-α。

MuLan使用GPT-4作为LLM规划器,并使用LLaVA-1.5作为VLM检查器提供反馈。研究者还进行了消融研究,以展示VLM提供的反馈控制在所提出的框架中的重要性,以及不同VLM的影响。研究者发现在注意力引导过程中使用的注意力块至关重要,这些块可以被分类为近输入块、近中间块和近输出块。在主要实验中,研究者使用了近中间块,并展示了不同块的消融结果。

由于提示数据集包含具有复杂组成的文本,研究者设计了一个问卷,全面调查生成图像与相应输入文本之间的一致性。问卷由三个方面组成 - 对象完整性、属性绑定的正确性以及空间关系的准确性。对于每个问题,研究者只设置了两个选项(是或否),没有歧义。研究者使用问卷询问最新一代的多模态大型语言模型(GPT-4V)和人类评估者对生成图像的质量进行评估。

研究者使用GPT-4V对不同方法和不同基础模型生成的图像进行了评估结果显示,MuLan框架在与其他可控生成方法和T2I生成方法相比时,能够实现最佳性能。特别是在属性绑定和空间关系的两个“更难”方面,MuLan能够以较大优势超越其他方法。

不同方法生成的图像在GPT-4V评估和人类评估下的性能对比
由不同方法生成的图像的更多定性结果
不同注意力块对扩散生成过程中性能的影响

研究者从提示数据集中随机抽取了50个提示,用于消融研究中的所有实验。研究者发现,近中间块在生成控制和性能方面能够实现最佳结果,通常包含最丰富的语义信息。

VLM反馈控制是MuLan中提供反馈和调整生成过程以确保每个阶段正确生成的关键组件。研究者展示了通过从整个框架中移除反馈控制的重要性。结果显示,如果没有反馈控制,结果会大大恶化,因为没有保证或适应性调整每个生成阶段,这验证了VLM提供的反馈控制对于处理复杂提示至关重要。

有无VLM反馈控制在MuLan性能上的差异
在MuLan中使用不同VLM对性能的影响

实验表明,MuLan优于先前的方法,展示了MuLan作为可控扩散生成新范式的潜力。

在MuLan模型中使用不同视觉-语言模型(VLM)对整体性能的影响

尽管MuLan取得了显著的成果,但仍存在需要在未来工作中进一步解决的局限性。由于整个生成包含多个阶段,根据对象的数量,它将比单阶段生成方法需要更长的时间。另一方面,LLM规划器可能会错误地解析输入提示,导致错误的分解。这可以通过首先通过LLM重写输入提示来解决,以便于后续处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1905348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LlamaGen:自回归模型的图像生成革命

LlamaGen:自回归模型的图像生成革命 1. 突破性进展:LlamaGen超越传统扩散模型 在图像生成领域,LlamaGen团队带来了颠覆性创新。由香港大学和字节跳动的研究人员共同开发的这一模型,不仅在技术上超越了传统的扩散模型,…

MySQL8.0在windows下的下载安装及详细使用

下载mysql8.0二进制包 下载地址:MySQL :: Download MySQL Community Server 编辑my.ini配置文件 解压二进制包,新建/编辑my.ini配置文件(如果不存在则新建) [client] #客户端设置,即客户端默认的连接参数 # 设置mysql客户端连接服务端时…

element-plus 的form表单组件之el-radio(单选按钮组件)

单选按钮组件适用于同一组类型的选项只能互斥选择的场景,就是支持单选。单选组件包含以下3个组件 组件名作用el-radio-group单选组组件,子元素可以是el-radio或el-radio-button,v-mode绑定单选组的响应式属性el-radio单选组件,la…

区块链论文速读A会-ISSTA 2023(2/2)如何检测DeFi协议中的价格操纵漏洞

Conference:ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA) CCF level:CCF A Categories:Software Engineering/System Software/Programming Languages Year:2023 第1~5篇区块链文章 请点击此…

linux centos7.9 安装mysql5.7;root设置客户端登录、配置并发、表名大小写敏感等

查看centos版本 cat /etc/centos-releasecentos版本为7.9 查看是否已安装mariadb,安装了需要先删除 1.查看是否安装了mariadb和mysql,安装了需要先删除 mariadb是mysql的一个分支,但要安装mysql需要删除它 执行rpm -qa|grep mariadb,查看mariadb情况…

推荐几款漂亮的代码字体

Visual Studio Code 中字体看时间长了就会产生幻觉,于是今天看到有人推荐漂亮的代码字体,于是自己也推荐几款: 需要注意的是,大部分网上的教程都建议使用混合字体,即使用微软雅黑与某种等宽字体混合。但事实上&#x…

操作系统中的权限说明

什么是权限 权限在操作系统中是一个重要的功能,它允许你控制谁可以读取、写入或执行某个文件。不同的操作系统和文件系统可能有不同的权限模型,但在类Unix系统(如Linux和macOS)中,文件权限通常由三部分组成&#xff1a…

Python3极简教程(一小时学完)中

异常 在这个实验我们学习 Python 的异常以及如何在你的代码中处理它们。 知识点 NameErrorTypeError异常处理(try..except)异常抛出(raise)finally 子句 异常 在程序执行过程中发生的任何错误都是异常。每个异常显示一些相关…

julia系列17: tsp问题代码整理

1. 常用库和基础函数 这里是优化版的函数: using TSPLIB,LKH,Distances,PyPlot MaxNum 10000 tspreadTSPLIB(:att48) dist [round.(Int,euclidean(tsp.nodes[i,:],tsp.nodes[j,:])) for i in 1:tsp.dimension,j in 1:tsp.dimension]; pos(tsp::TSP,t::Vector{In…

【机器学习】基于线性回归的医疗费用预测模型

文章目录 一、线性回归定义和工作原理假设表示 二、导入库和数据集矩阵表示可视化 三、成本函数向量的内积 四、正态方程五、探索性数据分析描述性统计检查缺失值数据分布图相关性热图保险费用分布保险费用与性别和吸烟情况的关系保险费用与子女数量的关系保险费用与地区和性别…

软件架构之数据库系统(2)

软件架构之数据库系统(2) 3.4 事务管理3.4.1 并发控制3.4.2 故障与恢复 3.5 备份与恢复3.6分布式数据库系统3.6.1分布式数据库的概念3.6.2 分布式数据库的架构 3.7 数据仓库3.7.1 数据仓库的概念3.7.2数据仓库的结构3.7.3 数据仓库的实现方法 3.8 数据挖…

【机器学习实战】Datawhale夏令营:Baseline精读笔记2

# AI夏令营 # Datawhale # 夏令营 在原有的Baseline上除了交叉验证,还有一种关键的优化方式,即特征工程。 如何优化特征,关系着我们提高模型预测的精准度。特征工程往往是对问题的领域有深入了解的人员能够做好的部分,因为我们要…

用QFramework重构飞机大战(Siki Andy的)(下01)(06-0? 游戏界面及之后的所有面板)

GitHub // 官网的 全民飞机大战(第一季)-----框架设计篇(Unity 2017.3) 全民飞机大战(第二季)-----游戏逻辑篇(Unity 2017.3) 全民飞机大战(第三季)-----完善…

CGAL计算凸包(OSG进行可视化)

目录 一、什么是凸包 二、运行步骤 1、安装依赖项 2、编译osg库 3、运行代码 4、运行截图 一、什么是凸包 凸包是计算几何中的一个基本概念,用来描述一个点集的最小凸包围形。具体来说,给定一个点集,凸包是包含该点集的最小凸多边形或凸多面体。 二维凸包:在二维平面…

linux RTC时钟时间出现了明显的偏移

RTC时钟时间出现了明显的偏移 1、开发环境2、问题阐述3、验证问题3.1、首先去排查了硬件电路和芯片电压不稳定的问题。3.2、晶振的问题。3.3、芯片本身3.4、芯片寄存器 4、代码修改 1、开发环境 平台:imx6ul kernel版本:linux4.1.5 RTC芯片:…

CSS技巧:纯CSS实现文字渐变动画效果

文字渐变动画&#xff0c;可以实现的有两种&#xff1a;一种是一行文字整体变化颜色&#xff1b;另一种一行文字依次变化颜色。接下来&#xff0c;我就介绍一下这两种文字渐变的实现过程。 布局代码&#xff1a; <div class"con"><div class"animate…

Redis基本命令源码解析-有序集合相关命令

1. zadd 将一个或多个member和score加入到有序集合对应的key中 zadd key [nx|xx] [ch] [incr] score1 member1 score2 member2 ... 调用zaddCommand-->zaddGenericCommand 1.1 zaddGenericCommand 从第3个参数开始解析,参数循环,按位与到flag中 如果有nx,则只做添加…

04.C1W3.Vector Space Models

往期文章请点这里 目录 Vector Space ModelsWord by Word and Word by DocWord by Document DesignWord by Document DesignVector Space Euclidean DistanceEuclidean distance for n-dimensional vectors Euclidean distance in PythonCosine Similarity: IntuitionCosine S…

关于新装Centos7无法使用yum下载的解决办法

起因 之前也写了一篇类似的文章&#xff0c;但感觉有漏洞&#xff0c;这次想直接把漏洞补齐。 问题描述 在我们新装的Centos7中&#xff0c;如果想要用C编程&#xff0c;那就必须要用到yum下载&#xff0c;但是&#xff0c;很多新手&#xff0c;包括我使用yum下载就会遇到一…

在DevEco运行typeScript代码,全网详细解决执行Set-ExecutionPolicy RemoteSigned报出的错

目录 基本思路 网络推荐 本人实践 如下操作,报错: 基本思路 //在DevEco运行typeScript代码 /** * 1.保证node -v出现版本,若没有,配置环境变量(此电脑-属性-高级系统变量配置-path-粘贴路径);DevEco在local.properties中可看到当前nodejs的路径 * 2.npm install …