ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜!ReCorD:交互场景生成最新SOTA!

news2024/9/27 23:32:24

文章链接:https://arxiv.org/pdf/2407.17911
git链接:https://alberthkyhky.github.io/ReCorD/

亮点直击

  • 引入了一种新颖的推理框架,将潜在扩散模型(LDM)与视觉语言模型(VLM)相结合,以克服生成逼真的人与物体互动(HOI)时面临的挑战,缓解了以往方法中的问题,例如大语言模型(LLM)对简单文本提示的过度分析以及LDM中的训练数据偏差。

  • 为了提升人物形象描绘的准确性,在LDM中设计了一个校正机制,用于动态图像调整,使得对生成图像中人类互动的精确控制和精细化成为可能,从而显著提高了描绘的准确性。

  • 大量实验表明,本文的免训练方法ReCorD在创建引人入胜且逼真的HOI场景方面表现出色,优于其它SOTA方法。

扩散模型通过利用自然语言引导多媒体内容的创作,彻底改变了图像生成技术。尽管在这些生成模型上取得了显著进展,但在描绘人类与物体的详细互动方面仍存在挑战,特别是在姿势和物体放置准确性方面。

本文引入了一种名为推理和校正扩散(ReCorD)的免训练方法来解决这些挑战。该模型结合了潜在扩散模型和视觉语言模型,以优化生成过程,确保精确描绘人与物体的互动(HOI)。提出了一个互动感知推理模块来改进互动的解释,并引入一个互动校正模块,以精细化输出图像,达到更精确的HOI生成效果。通过精心的姿势选择和物体定位过程,ReCorD在生成图像的保真度方面表现出色,同时有效减少了计算需求。在三个基准上进行了全面的实验,展示了在解决文本到图像生成任务上的显著进展,ReCorD通过在HOI分类评分、FID和动词CLIP评分上的优越表现,展示了其精确渲染复杂互动的能力,优于现有方法。

方法

ReCorD,是一种免训练优势的互动感知模型。生成的图像依赖于人类采用适当的姿势,并确保物体根据给定的文本提示位于合适的位置。生成流程包括三个模块:粗略候选生成、互动感知推理和互动校正。将这些模块分别简称为、和。通过观察到扩散模型在早期去噪步骤中捕捉初始布局,并在后期迭代中细化细节,将去噪过程分解为两个阶段,即和。在前一阶段,生成k个粗略候选,而根据文本提示建议理想的姿势和布局。随后,在保留选定姿势的同时纠正物体位置,将粗略图像细化为所需的图像。重要的是,ReCorD赋予扩散模型创建与文本提示一致的图像的能力,突出了复杂的空间条件和复杂的互动,而无需额外训练。整体流程如下图2所示。

粗略候选生成模块

给定描述HOI三元组(即“主体正在对物体进行某个动作”)的文本提示𝑦,通过在中采用不同的注意力机制来增强互动表示。更具体地说,操控交叉注意力和自注意力图生成与提示动作相关的候选图像𝑘。

交叉注意力图操控。为了便于生成与文本信息相关的图像,在LDMs中使用交叉注意力图来整合这些条件。在去噪过程中,LDMs最初从高斯分布N(0,1)中采样潜在向量,并逐步去除噪声以在每一步中获得。通过文本编码器将提示𝑦编码为文本tokens后,交叉注意力图定义如下:

其中,和分别表示通过相应投影函数得出的查询和键embeddings。𝜑和𝜓分别是空间归一化和来自CLIP的文本编码器,生成中间表示和𝑁个文本tokens 。为简化起见,在操控注意力图时省略了表示去噪步骤的下标t。

在生成HOI场景时,建模交叉注意力图以表示互动(即𝑦中的动词)具有挑战性,导致动词标记的表示模糊。为了解决这一问题,提出了一种替代的不及物提示,这通常排除y中与物体相关的描述。使用,可以通过在公式(1)中用替换K来导出交叉注意力图。如下图3所示,使用时,相比于A捕捉到了更多的信息线索,特别是对动词标记,从而生成更具互动性的表示。通过重新排列最终的交叉注意力图,公式如下:

其中,𝑛表示文本标记的索引。理想情况下,如果文本tokens存在于不及物提示中,会接受这些注意力图。

自注意力图操控。与交叉注意力图不同,自注意力图缺乏直接的tokens关联,但仍然会影响生成图像的空间布局和外观。因此,在去噪步骤𝑡 >𝛾后,同样对潜在表示的自注意力图进行操控,以获得,其中𝛾是一个预定义参数,确保可以有效生成来自原始token 𝜓(𝑦)的场景和物体。

互动感知推理模块

作为连接其他模块的中间模块,在中生成粗略候选后,提出了互动感知推理模块 (见下图4)。该模块由两个由VLM驱动的组件组成:姿势选择agent和布局agent。具体来说,姿势选择agent选择与提示𝑦一致的图像,而布局agent调整物体的位置,保留人关键点P,并进一步确定校正模块M𝑐的目标位置。

姿势选择Agent。由于姿势在HOI生成中具有重要特征,首先结合一个agent来选择与提示条件一致的适当姿势。姿势选择agent将初始提示𝑦与先前生成的候选相结合,以创建姿势模板。利用VLM的视觉理解能力,该agent在识别与𝑦对应的精确姿势方面表现出色,增强了模型对视觉数据的解释能力,而不仅仅依赖于LLM中的文本认知。这一步骤确保了从LDMs初始获得的姿势信息在后续阶段得到精细化处理。

布局Agent。为了解决LLM辅助方法过于依赖提示来采样布局的问题,将识别出的关键点P和人体的边界框作为附加数据。认识到互动涉及人与物体的关系,使用33个关键点在(𝑥,𝑦)坐标中收集P的重要信息,并表示。此外,使用先前agent选择的图像作为VLM的输入来执行布局建议任务。

首先使用Otsu算法提取物体位置,这是一种自动阈值技术,应用于物体的交叉注意力图,以隔离具有较高值的区域。随后, 使用MediaPipe Pose Landmark检测人体关键点以创建分割mask 。接着,为VLMs制定一系列指南和固定协议,包括对的约束,以保持预期人体姿势的完整性,并通过减少重叠策略来提高包含多个物体的生成图像的质量。

此外,受链式思维方法[59]的启发,通过引导VLMs构建视觉属性信息来增强人类姿势的逻辑连贯性。基于多个视觉属性(例如姿势类型、身体方向、物体关系等)在逻辑推理中支持VLMs。借鉴以往研究[5, 39]的见解,为VLMs准备了三个示例,以帮助澄清视觉表示,防止过度分析和幻觉,以构建互动模板。

最终,通过文本抓取提取建议的位置,用于框约束损失公式(4),并集成一个检查机制来确定的变更是否在预定阈值内。如果变更很小,表示差异不大,将不向发出更改信号。此机制对于保持简化且资源高效的生成过程至关重要,确保只有显著的位置调整才会促使进一步行动。

互动校正模块

在中细致地优化由双agent提供的候选图像,同时保留原有人体姿势,如下图5所示。为了结合LDMs的生成能力与VLMs的推理能力,我们逐步更新潜变量,根据与互动相关的边界框调整物体的位置和大小。值得注意的是,在的过程中进行去噪,包括交叉注意力和自注意力图的调制。

同时修改物体位置时,需要考虑与人体可能重叠的情况,因为来自不同token的交叉注意力图可能在同一区域表现出强值,这将降低图像质量。为了解决这一挑战,引入了消除注意力重叠的机制。具体来说,给定物体的token索引为𝑚,在每个时间步𝑡使用交叉注意力图构建一个逆mask,记为,其中𝟙是与维度相同的张量,所有元素均为1。然后将这个逆注意力图应用于其余的图,通过逐元素乘积操作定义如下:

通过公式(3),可以在更新物体位置时减轻人与物体之间的注意力重叠问题,确保成功生成更新后的物体。

条件空间约束 由于ReCorD是免训练的,并且不涉及用于知识转移的额外可学习网络,采用框约束来规范去噪器,其公式如下:

其中,序列顺序中的每一项分别表示内框、外框和角点约束。在每个时间步𝑡使用对应的权重应用公式(4)来更新潜变量:

通过在每一步对进行轻微更新,确保物体与框区域保持足够的互信息并符合指定的大小,即,从而准确纠正物体的位置以表示互动。由于LDM旨在迭代去噪并涉及作为中介的注意力图,是在操控前的时间步𝑡的扩散过程,该过程会查找相应的注意力图。在通过提出的ReCorD之后,去噪UNet被重复使用以预测下一步的潜在表示。正式地,表示采用操控过的注意力图的扩散模型,结果为预测,即。

实验

实验设置

数据集。鉴于缺乏专门为HOI生成设计的标准基准,通过从两个已建立的HOI检测数据集中提取HOI三元组来评估我们方法的有效性,即HICO-DET和VCOCO,以形成输入文本提示。HICO-DET包含600个三元组,涵盖80个物体类别和117个动词类别,而VCOCO包含228个三元组,跨越80个物体类别和29个动词类型。为了全面评估,结合了T2I-CompBench中的非空间关系类别,该类别包含875个互动术语。选择T2I-CompBench中仅涉及HOI的提示。为了增强多样性,对从数据集中提取的每个动词和物体对应用随机主体增强以形成输入提示。因此,实验在三个数据集上进行:HICO-DET,有7,650个HOI提示;VCOCO,提供2,550个提示;以及T2I-CompBench的非空间关系类别,增加465个提示。

Baselines。与九个表现强劲的模型的比较,

  • T2I模型:Stable Diffusion (SD)、Attend-and-Excite (A&E)、SDXL和DALL-E 3。

  • L2I模型:BoxDiff、MultiDiffusion和InteractDiffusion。

  • LLM辅助的T2I模型:LayoutLLM-T2I和LMD。

使用了每个Baseline的官方实现和默认设置。对于L2I模型,除了文本提示外,还提供了来自HICO-DET和VCOCO数据集的实际边界框数据。对于LLM辅助的方法,输入布局完全由LLMs生成,而不是来自数据集。

评估指标。为了测量生成图像中的互动情况使用CLIP-Score 来评估输入文本和生成图像之间的相似性。虽然这个指标通常用于估计对文本提示的忠实度,但注意到它倾向于名词或物体偏倚,CLIP经常无法区分动词,而是依赖名词[40, 66]。为了解决这个问题,专门提取文本提示中的动词,并计算动词CLIP-Score 。此外,引入了HOI分类得分来评估互动表现。通过将一个预训练的最先进HOI检测器转化为分类器,评估生成图像中的HOI实例,并将其与HICO-DET和VCOCO的实际情况进行比较。HOI分类的准确性根据前三名准确度进行评估。HOIFull和HOIRare分别表示HICO-DET数据集中完整集合和稀有集合的得分。稀有集合是基于数据集中实例少于10个的标准选择的。此外,使用Fréchet Inception Distance (FID)和PickScore来评估图像质量。FID比较真实图像和生成图像之间的Inception特征的Fréchet距离分布,而PickScore是一种文本-图像评分指标,在预测用户偏好方面超越了人类表现。

实现细节。选择Stable Diffusion模型作为默认backbone,并将GPT4V作为中的VLM。将无分类器引导的比例设置为7.5,去噪步骤为,,并在去噪步骤中使用DDIM调度器。粗略候选的数量𝑘 = 5,超参数𝛾 = 5启动自注意力图的操控操作。对于评估,HICO-DET和VCOCO数据集每个三元组生成一张图像,而T2I-CompBench每个三元组生成三张图像。

质量结果

提供了一个定性比较来评估生成的HOI。如下图6所示,ReCorD在生成符合文本提示的真实人体姿势和物体位置方面优于其他最先进的方法,证明了其在高保真度描绘物体互动方面的能力。相比之下,Baseline方法往往会错误地放置物体或无法捕捉预期动作的细微差别。对于L2I模型,虽然BoxDiff在物体大小要求方面表现良好,但在准确描绘互动姿势方面存在困难;InteractDiffusion即使经过微调,仍无法准确呈现细微动作,如(a)、(d)、(e)和(f)所示;MultiDiffusion尽力实现精确的物体定位,但生成的图像大小各异。

另一方面,尽管LayoutLLM-T2I利用语言模型来改善布局生成,但通常会产生与人类不成比例的物体,这在(e)和(f)中尤为明显。此外,MultiDiffusion定义了一种新的生成优化过程,但它严重依赖于预训练模型的先验知识。特别是,SDXL在动作姿势(a)、(b)、(d)和(e)方面存在困难,而DALL-E 3在物体大小和位置(a)、(c)、(e)和(f)方面存在问题,显示了ReCorD在超越现有解决方案的局限性方面的关键进展。

定量结果

生成结果的定量比较,其中HICO-DET和VCOCO的数据提示见下表1,T2I-CompBench数据提示见表2。

CLIP基础的图像-文本相似性。CLIP-Score 的结果显示,ReCorD在HICO-DET和T2I-CompBench数据集上优于其他方法,并且在VCOCO数据集上与MultiDiffusion相当。此外,ReCorD在三个数据集中都在动词CLIP-Score 方面取得了最佳结果,这确认了生成更紧密匹配的互动的能力。

图像质量评估。根据PickScore评估,ReCorD模型与SDXL模型相当,并且优于其他方法。这表明,在将设计的互动校正模块与SD模型结合后,ReCorD可以保持模型的图像生成质量,同时实现更真实的互动。此外,当使用FID分数比较HICO-DET和VCOCO数据集中的生成图像与真实图像时,ReCorD优于其他方法,除了InteractDiffusion。值得注意的是,考虑到InteractDiffusion使用HICO-DET和COCO数据集进行了微调,ReCorD在无需训练或额外HOI数据的情况下表现尤为突出。

互动准确性评估。上表1验证了ReCorD显著提高了HOI生成的准确性,显示了在合成更精确HOI方面的效果。

生成速度和内存使用

生成一张图像时,使用了Nvidia RTX 6000 GPU,当使用SD/SDXL作为骨干网时,内存消耗分别为14/42 GB,总推理时间为40.66/61.48秒。

比较布局建议的MLLM

评估了BLIP-2,通过随机调整HICO-DET中真实边界框的大小和位置。然而,BLIP-2常常误解现实世界的分布,提供无关的答案和无效的mIoU分数。相比之下,GPT-4V达到了49.72%的mIoU分数,展示了优越的布局建议准确性,使其非常适合ReCorD。

GPT-4V的评估

根据T2I-CompBench对非空间关系的评估,ReCorD取得了98.16的GPT分数,优于SOTA T2I方法如SDXL(97.87)、MultiDiffusion(97.43)和LayoutLLM-T2I(96.75)。这证明了ReCorD生成与基础模型知识对齐的准确HOI图像的能力。

消融研究

在消融研究中,下图7展示了集成了ReCorD模块的SD HOI生成结果:(a) 仅使用SD,(b) 使用SD和,(c) 使用、 + + 。仅使用的情况下,生成的输出效果较差,这可能受到其训练数据中固有偏差的影响,导致对文本提示中描述的意图交互的误解。从(b)的结果来看,加入后,由于采用了非及物提示调整技术,生成的人的动作准确性显著提高,这表明简化提示以专注于核心动作能够使模型更精确地生成预期的姿势。然而,它仍然在准确定位图像中的物体方面存在困难,导致交互错误。对于ReCorD,有助于选择合适的姿势并保留合适的候选项,而则对图像进行细化,以获得正确的对象大小和位置的准确交互,同时保持所选姿势。因此,(c)中的完整pipeline的HOI生成展示了最成功的结果。

结论

本文引入了专门为HOI(人-物体交互)图像生成量身定制的ReCorD框架。该方法包括三个特定于交互的模块,这些模块相互协作。核心思想围绕使用基于VLM(视觉语言模型)的agent和LDM(潜在扩散模型)来推理布局和修正注意力图,以解决这一挑战。大量实验证明了本文方法在提高图像准确性和语义忠实度方面的有效性,特别是在捕捉复杂交互概念方面,这是许多Baseline生成模型难以处理的。此外,通过各种协议和针对HOI生成的用户调查量化了我们的改进,提供了有价值的见解,并为该领域未来的探索铺平了道路。

参考文献

[1]ReCorD: Reasoning and Correcting Diffusion for HOI Generation

 更多精彩内容,请关注公众号:AI生成未来

欢迎加群交流AIGC技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1985237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

私域成交的关键点

私域运营,私域团购,私域秒杀,私域发售

单张图像降噪Masked and Shuffled Blind Spot Denoising for Real-World Images

文章目录 Masked and Shuffled Blind Spot Denoising for Real-World Images1.噪声的空间相关性2.mask3.loss4.masking ratio 与 spatial correlation的关系5.空间噪声去相关6.Automated selection of the BSD masking ratio7.小结 Masked and Shuffled Blind Spot Denoising f…

深入 Dify 源码,洞察 Dify RAG 切片机制实现细节

背景介绍 最近测试时发现 Dify 的 RAG 分片效果一般,不管是使用之前 深入 Dify 源码,洞察 Dify RAG 核心机制 中有调研过的默认解析还是 Unstructured 解析。因此调研比较了 大量的开源框架 实现了特定格式的结构化解析方案,并与 Dify 现有解…

高通8255 Android Virtio Virtio-IIC 配置方法

目录 一:VirtIO和Passthrough的区别 方法一: passthrough 方法二:virtIO 二:配置逻辑 三:示例Virtio-I2C配置 Virtio-I2C框架 步骤一:QNX IIC资源配置 & 测试 配置 测试 步骤二:B…

干货整理: 什么软件能够监控电脑? 六大好用监控电脑软件抢手推荐

如何保障电脑的安全是许多企业用户关注的焦点。 除了常见的杀毒软件外,电脑监控软件也是一道重要的防线。 这些软件能够实时监控电脑的各项运行状况,及时发现并处理潜在的安全威胁,确保电脑的正常运行和用户数据的安全。 接下来&#xff0…

优思学院|防呆法的十大原理

防呆法(Poka-Yoke),又称防错法(Mistake-Proofing),是一种通过预防错误的发生来提高工作效率,也是精益管理、六西格玛中常用的管理工具。以下就是防呆法的十大原理: 1. 断根原理 断…

算法_链表专题---持续更新

文章目录 前言两数相加题目要求题目解析代码如下 两两交换链表中的结点题目要求题目解析代码如下 重排链表题目要求题目解析代码如下 合并K个升序链表题目要求题目解析 K个一组翻转链表题目要求题目解析代码如下 前言 本文将记录leetcode链表算法题解,包含题目有&a…

Why Memory Matters?(记忆力为何如此重要?)

What is memory? The general consensus is that memory is a multitude of cognitive systems which allow us to store information for certain periods of time so that we can learn from our past experiences and predict the future. 什么是记忆?人们普遍的共识是&am…

《PostgreSQL 数据库在国内的发展前景》

从DB-engines这张2024年8月的最新排名图上可以看出,PostgreSQL数据库的发展趋势还是非常好的,在国内,PostgreSQL数据库也展现出令人振奋的发展前景,非常明显的一种表现就是腾讯云、人大金仓、阿里云、华为等众多厂商都有基于Postg…

推荐一个uniapp选择文件上传的插件

插件地址:文件选择、文件上传组件(图片,视频,文件等) - DCloud 插件市场 支持 H5 / App / 微信小程序

警惕!SCI投稿也有“假网址”!3秒教你查询正确的期刊官网网址

【SciencePub学术】很多没有发表过SCI论文的学者,对于投稿是非常陌生的。首先第一步,对于寻找正确的SCI/SSCI期刊官网都是一项难题。 01 假网站泛滥 • 目前市面上很多假的期刊官网,甚至于界面都所差无几,但是网址仅仅相差一个“…

【两周年纪念日】我将竭尽全力,只为和最美丽的自己早日汇合

​ 您好,我是程序员小羊! 存在有其原因,经历有其始终,年华有其始末,拼搏要有结果。 2023来去匆匆,2024奋斗始终,献出一份感情,收获一份心情,拼出一段经验,收获…

两个方法 搞定伦敦金涨跌预测

受美联储降息预期和地缘局势紧张的关系影响,近期伦敦金价格再次出现了强势的上涨,盘中攀升超过30美元。这波涨势的出现,实在是在很多人的意料之外,那么下一步投资者就要开始考虑伦敦金的上涨的终点在哪里?实际上这就是…

计算机组成原理 - 中央处理器

中央处理器 考纲内容 CPU的功能和基本结构指令执行过程数据通路的功能和基本结构控制器的功能和工作原理异常和中断机制 异常和终端的基本概念;异常和中断的分类;异常和中断的检测与响应指令流水线 指令流水线的基本概念;指令流水线的基本实…

动态规划:买卖股票系列

目录 1. 买卖股票的最佳时机1-只能买卖一次(LeetCode121) 解法1:暴力解法 解法2:贪心算法 解法3:动态规划 2. 买卖股票的最佳时机2-可以买卖多次(LeetCode122) 解法1:贪心算法 解法2:动态规划 3. 买卖股票的最…

【架构设计】软件设计原则中的7种耦合和内聚(详解)

文章目录 一、前言二、内聚1、定义2、7 种内聚类型及其描述3、设计要求 三、耦合1、定义2、7 种耦合类型及其描述3、设计要求 四、总结 一、前言 耦合(Coupling)和内聚(Cohesion)是衡量软件模块设计质量的两个非常重要的概念。高…

2024实验班选拔考试(热身赛)

比赛传送门 邀请码&#xff1a;2024wksyb A. 简单的数列问题 签到&#xff0c;记得开long long。 #include<bits/stdc.h> #define rep(i,a,b) for (int ia;i<b;i) #define per(i,a,b) for (int ia;i>b;--i) #define se second #define fi first #define endl …

linux进程篇总结——实战——自定义shell

前言&#xff1a;经过过去两章十二篇文章的学习&#xff0c;我们已经知道了进程的基本概念以及进程的控制方法。 本篇内容就是使用过去学习的内容自己写一个功能简单的shell外壳程序&#xff0c; 也就是我们使用的bash命令行。 本篇内容是过去进程知识的集大成者。 我们在这个实…

智慧能源管理:助力公共机构节能增效

一、背景&#xff1a; 在全球倡导绿色发展、节能减排的时代浪潮下&#xff0c;公共机构作为社会服务的重要提供者&#xff0c;能源消耗量大&#xff0c;特别是在照明方面能源消耗问题尤为突出。从政府办公楼的日常照明&#xff0c;到学校教室的学习照明&#xff0c;再到医院走…

计算机组成原理 - 存储系统

存储系统 考纲内容 存储器的分类层次化存储器的基本结构半导体随机存储器(RAM) SRAM、DRAM、Flash存储器主存储器 DRAM芯片和内存条、多模块存储器、主存储器和CPU之间的连接外部存储器 磁盘存储器、固态硬盘(SSD)高速缓冲存储器(Cache) Cache的基本原理&#xff1a;Cache和主…