ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜！ReCorD:交互场景生成最新SOTA！

文章链接：https://arxiv.org/pdf/2407.17911
git链接：https://alberthkyhky.github.io/ReCorD/

亮点直击：

引入了一种新颖的推理框架，将潜在扩散模型（LDM）与视觉语言模型（VLM）相结合，以克服生成逼真的人与物体互动（HOI）时面临的挑战，缓解了以往方法中的问题，例如大语言模型（LLM）对简单文本提示的过度分析以及LDM中的训练数据偏差。

为了提升人物形象描绘的准确性，在LDM中设计了一个校正机制，用于动态图像调整，使得对生成图像中人类互动的精确控制和精细化成为可能，从而显著提高了描绘的准确性。

大量实验表明，本文的免训练方法ReCorD在创建引人入胜且逼真的HOI场景方面表现出色，优于其它SOTA方法。

扩散模型通过利用自然语言引导多媒体内容的创作，彻底改变了图像生成技术。尽管在这些生成模型上取得了显著进展，但在描绘人类与物体的详细互动方面仍存在挑战，特别是在姿势和物体放置准确性方面。

本文引入了一种名为推理和校正扩散(ReCorD)的免训练方法来解决这些挑战。该模型结合了潜在扩散模型和视觉语言模型，以优化生成过程，确保精确描绘人与物体的互动（HOI）。提出了一个互动感知推理模块来改进互动的解释，并引入一个互动校正模块，以精细化输出图像，达到更精确的HOI生成效果。通过精心的姿势选择和物体定位过程，ReCorD在生成图像的保真度方面表现出色，同时有效减少了计算需求。在三个基准上进行了全面的实验，展示了在解决文本到图像生成任务上的显著进展，ReCorD通过在HOI分类评分、FID和动词CLIP评分上的优越表现，展示了其精确渲染复杂互动的能力，优于现有方法。

方法

ReCorD，是一种免训练优势的互动感知模型。生成的图像依赖于人类采用适当的姿势，并确保物体根据给定的文本提示位于合适的位置。生成流程包括三个模块：粗略候选生成、互动感知推理和互动校正。将这些模块分别简称为、和。通过观察到扩散模型在早期去噪步骤中捕捉初始布局，并在后期迭代中细化细节，将去噪过程分解为两个阶段，即和。在前一阶段，生成k个粗略候选，而根据文本提示建议理想的姿势和布局。随后，在保留选定姿势的同时纠正物体位置，将粗略图像细化为所需的图像。重要的是，ReCorD赋予扩散模型创建与文本提示一致的图像的能力，突出了复杂的空间条件和复杂的互动，而无需额外训练。整体流程如下图2所示。

粗略候选生成模块

给定描述HOI三元组（即“主体正在对物体进行某个动作”）的文本提示𝑦，通过在中采用不同的注意力机制来增强互动表示。更具体地说，操控交叉注意力和自注意力图生成与提示动作相关的候选图像𝑘。

交叉注意力图操控。为了便于生成与文本信息相关的图像，在LDMs中使用交叉注意力图来整合这些条件。在去噪过程中，LDMs最初从高斯分布N(0,1)中采样潜在向量，并逐步去除噪声以在每一步中获得。通过文本编码器将提示𝑦编码为文本tokens后，交叉注意力图定义如下：

其中，和分别表示通过相应投影函数得出的查询和键embeddings。𝜑和𝜓分别是空间归一化和来自CLIP的文本编码器，生成中间表示和𝑁个文本tokens 。为简化起见，在操控注意力图时省略了表示去噪步骤的下标t。

在生成HOI场景时，建模交叉注意力图以表示互动（即𝑦中的动词）具有挑战性，导致动词标记的表示模糊。为了解决这一问题，提出了一种替代的不及物提示，这通常排除y中与物体相关的描述。使用，可以通过在公式（1）中用替换K来导出交叉注意力图。如下图3所示，使用时，相比于A捕捉到了更多的信息线索，特别是对动词标记，从而生成更具互动性的表示。通过重新排列最终的交叉注意力图，公式如下：

其中，𝑛表示文本标记的索引。理想情况下，如果文本tokens存在于不及物提示中，会接受这些注意力图。

自注意力图操控。与交叉注意力图不同，自注意力图缺乏直接的tokens关联，但仍然会影响生成图像的空间布局和外观。因此，在去噪步骤𝑡 >𝛾后，同样对潜在表示的自注意力图进行操控，以获得，其中𝛾是一个预定义参数，确保可以有效生成来自原始token 𝜓(𝑦)的场景和物体。

互动感知推理模块

作为连接其他模块的中间模块，在中生成粗略候选后，提出了互动感知推理模块（见下图4）。该模块由两个由VLM驱动的组件组成：姿势选择agent和布局agent。具体来说，姿势选择agent选择与提示𝑦一致的图像，而布局agent调整物体的位置，保留人关键点P，并进一步确定校正模块M𝑐的目标位置。

姿势选择Agent。由于姿势在HOI生成中具有重要特征，首先结合一个agent来选择与提示条件一致的适当姿势。姿势选择agent将初始提示𝑦与先前生成的候选相结合，以创建姿势模板。利用VLM的视觉理解能力，该agent在识别与𝑦对应的精确姿势方面表现出色，增强了模型对视觉数据的解释能力，而不仅仅依赖于LLM中的文本认知。这一步骤确保了从LDMs初始获得的姿势信息在后续阶段得到精细化处理。

布局Agent。为了解决LLM辅助方法过于依赖提示来采样布局的问题，将识别出的关键点P和人体的边界框作为附加数据。认识到互动涉及人与物体的关系，使用33个关键点在(𝑥,𝑦)坐标中收集P的重要信息，并表示。此外，使用先前agent选择的图像作为VLM的输入来执行布局建议任务。

首先使用Otsu算法提取物体位置，这是一种自动阈值技术，应用于物体的交叉注意力图，以隔离具有较高值的区域。随后，使用MediaPipe Pose Landmark检测人体关键点以创建分割mask 。接着，为VLMs制定一系列指南和固定协议，包括对的约束，以保持预期人体姿势的完整性，并通过减少重叠策略来提高包含多个物体的生成图像的质量。

此外，受链式思维方法[59]的启发，通过引导VLMs构建视觉属性信息来增强人类姿势的逻辑连贯性。基于多个视觉属性（例如姿势类型、身体方向、物体关系等）在逻辑推理中支持VLMs。借鉴以往研究[5, 39]的见解，为VLMs准备了三个示例，以帮助澄清视觉表示，防止过度分析和幻觉，以构建互动模板。

最终，通过文本抓取提取建议的位置，用于框约束损失公式（4），并集成一个检查机制来确定的变更是否在预定阈值内。如果变更很小，表示差异不大，将不向发出更改信号。此机制对于保持简化且资源高效的生成过程至关重要，确保只有显著的位置调整才会促使进一步行动。

互动校正模块

在中细致地优化由双agent提供的候选图像，同时保留原有人体姿势，如下图5所示。为了结合LDMs的生成能力与VLMs的推理能力，我们逐步更新潜变量，根据与互动相关的边界框调整物体的位置和大小。值得注意的是，在的过程中进行去噪，包括交叉注意力和自注意力图的调制。

同时修改物体位置时，需要考虑与人体可能重叠的情况，因为来自不同token的交叉注意力图可能在同一区域表现出强值，这将降低图像质量。为了解决这一挑战，引入了消除注意力重叠的机制。具体来说，给定物体的token索引为𝑚，在每个时间步𝑡使用交叉注意力图构建一个逆mask，记为，其中𝟙是与维度相同的张量，所有元素均为1。然后将这个逆注意力图应用于其余的图，通过逐元素乘积操作定义如下：

通过公式（3），可以在更新物体位置时减轻人与物体之间的注意力重叠问题，确保成功生成更新后的物体。

条件空间约束 由于ReCorD是免训练的，并且不涉及用于知识转移的额外可学习网络，采用框约束来规范去噪器，其公式如下：

其中，序列顺序中的每一项分别表示内框、外框和角点约束。在每个时间步𝑡使用对应的权重应用公式（4）来更新潜变量：

通过在每一步对进行轻微更新，确保物体与框区域保持足够的互信息并符合指定的大小，即，从而准确纠正物体的位置以表示互动。由于LDM旨在迭代去噪并涉及作为中介的注意力图，是在操控前的时间步𝑡的扩散过程，该过程会查找相应的注意力图。在通过提出的ReCorD之后，去噪UNet被重复使用以预测下一步的潜在表示。正式地，表示采用操控过的注意力图的扩散模型，结果为预测，即。

实验

实验设置

数据集。鉴于缺乏专门为HOI生成设计的标准基准，通过从两个已建立的HOI检测数据集中提取HOI三元组来评估我们方法的有效性，即HICO-DET和VCOCO，以形成输入文本提示。HICO-DET包含600个三元组，涵盖80个物体类别和117个动词类别，而VCOCO包含228个三元组，跨越80个物体类别和29个动词类型。为了全面评估，结合了T2I-CompBench中的非空间关系类别，该类别包含875个互动术语。选择T2I-CompBench中仅涉及HOI的提示。为了增强多样性，对从数据集中提取的每个动词和物体对应用随机主体增强以形成输入提示。因此，实验在三个数据集上进行：HICO-DET，有7,650个HOI提示；VCOCO，提供2,550个提示；以及T2I-CompBench的非空间关系类别，增加465个提示。

Baselines。与九个表现强劲的模型的比较，

T2I模型：Stable Diffusion (SD)、Attend-and-Excite (A&E)、SDXL和DALL-E 3。
L2I模型：BoxDiff、MultiDiffusion和InteractDiffusion。
LLM辅助的T2I模型：LayoutLLM-T2I和LMD。

使用了每个Baseline的官方实现和默认设置。对于L2I模型，除了文本提示外，还提供了来自HICO-DET和VCOCO数据集的实际边界框数据。对于LLM辅助的方法，输入布局完全由LLMs生成，而不是来自数据集。

评估指标。为了测量生成图像中的互动情况使用CLIP-Score 来评估输入文本和生成图像之间的相似性。虽然这个指标通常用于估计对文本提示的忠实度，但注意到它倾向于名词或物体偏倚，CLIP经常无法区分动词，而是依赖名词[40, 66]。为了解决这个问题，专门提取文本提示中的动词，并计算动词CLIP-Score 。此外，引入了HOI分类得分来评估互动表现。通过将一个预训练的最先进HOI检测器转化为分类器，评估生成图像中的HOI实例，并将其与HICO-DET和VCOCO的实际情况进行比较。HOI分类的准确性根据前三名准确度进行评估。HOIFull和HOIRare分别表示HICO-DET数据集中完整集合和稀有集合的得分。稀有集合是基于数据集中实例少于10个的标准选择的。此外，使用Fréchet Inception Distance (FID)和PickScore来评估图像质量。FID比较真实图像和生成图像之间的Inception特征的Fréchet距离分布，而PickScore是一种文本-图像评分指标，在预测用户偏好方面超越了人类表现。

实现细节。选择Stable Diffusion模型作为默认backbone，并将GPT4V作为中的VLM。将无分类器引导的比例设置为7.5，去噪步骤为，，并在去噪步骤中使用DDIM调度器。粗略候选的数量𝑘 = 5，超参数𝛾 = 5启动自注意力图的操控操作。对于评估，HICO-DET和VCOCO数据集每个三元组生成一张图像，而T2I-CompBench每个三元组生成三张图像。

质量结果

提供了一个定性比较来评估生成的HOI。如下图6所示，ReCorD在生成符合文本提示的真实人体姿势和物体位置方面优于其他最先进的方法，证明了其在高保真度描绘物体互动方面的能力。相比之下，Baseline方法往往会错误地放置物体或无法捕捉预期动作的细微差别。对于L2I模型，虽然BoxDiff在物体大小要求方面表现良好，但在准确描绘互动姿势方面存在困难；InteractDiffusion即使经过微调，仍无法准确呈现细微动作，如（a）、（d）、（e）和（f）所示；MultiDiffusion尽力实现精确的物体定位，但生成的图像大小各异。

另一方面，尽管LayoutLLM-T2I利用语言模型来改善布局生成，但通常会产生与人类不成比例的物体，这在（e）和（f）中尤为明显。此外，MultiDiffusion定义了一种新的生成优化过程，但它严重依赖于预训练模型的先验知识。特别是，SDXL在动作姿势（a）、（b）、（d）和（e）方面存在困难，而DALL-E 3在物体大小和位置（a）、（c）、（e）和（f）方面存在问题，显示了ReCorD在超越现有解决方案的局限性方面的关键进展。

定量结果

生成结果的定量比较，其中HICO-DET和VCOCO的数据提示见下表1，T2I-CompBench数据提示见表2。

CLIP基础的图像-文本相似性。CLIP-Score 的结果显示，ReCorD在HICO-DET和T2I-CompBench数据集上优于其他方法，并且在VCOCO数据集上与MultiDiffusion相当。此外，ReCorD在三个数据集中都在动词CLIP-Score 方面取得了最佳结果，这确认了生成更紧密匹配的互动的能力。

图像质量评估。根据PickScore评估，ReCorD模型与SDXL模型相当，并且优于其他方法。这表明，在将设计的互动校正模块与SD模型结合后，ReCorD可以保持模型的图像生成质量，同时实现更真实的互动。此外，当使用FID分数比较HICO-DET和VCOCO数据集中的生成图像与真实图像时，ReCorD优于其他方法，除了InteractDiffusion。值得注意的是，考虑到InteractDiffusion使用HICO-DET和COCO数据集进行了微调，ReCorD在无需训练或额外HOI数据的情况下表现尤为突出。

互动准确性评估。上表1验证了ReCorD显著提高了HOI生成的准确性，显示了在合成更精确HOI方面的效果。

生成速度和内存使用

生成一张图像时，使用了Nvidia RTX 6000 GPU，当使用SD/SDXL作为骨干网时，内存消耗分别为14/42 GB，总推理时间为40.66/61.48秒。

比较布局建议的MLLM

评估了BLIP-2，通过随机调整HICO-DET中真实边界框的大小和位置。然而，BLIP-2常常误解现实世界的分布，提供无关的答案和无效的mIoU分数。相比之下，GPT-4V达到了49.72%的mIoU分数，展示了优越的布局建议准确性，使其非常适合ReCorD。

GPT-4V的评估

根据T2I-CompBench对非空间关系的评估，ReCorD取得了98.16的GPT分数，优于SOTA T2I方法如SDXL（97.87）、MultiDiffusion（97.43）和LayoutLLM-T2I（96.75）。这证明了ReCorD生成与基础模型知识对齐的准确HOI图像的能力。

消融研究

在消融研究中，下图7展示了集成了ReCorD模块的SD HOI生成结果：(a) 仅使用SD，(b) 使用SD和，(c) 使用、 + + 。仅使用的情况下，生成的输出效果较差，这可能受到其训练数据中固有偏差的影响，导致对文本提示中描述的意图交互的误解。从(b)的结果来看，加入后，由于采用了非及物提示调整技术，生成的人的动作准确性显著提高，这表明简化提示以专注于核心动作能够使模型更精确地生成预期的姿势。然而，它仍然在准确定位图像中的物体方面存在困难，导致交互错误。对于ReCorD，有助于选择合适的姿势并保留合适的候选项，而则对图像进行细化，以获得正确的对象大小和位置的准确交互，同时保持所选姿势。因此，(c)中的完整pipeline的HOI生成展示了最成功的结果。

结论

本文引入了专门为HOI（人-物体交互）图像生成量身定制的ReCorD框架。该方法包括三个特定于交互的模块，这些模块相互协作。核心思想围绕使用基于VLM（视觉语言模型）的agent和LDM（潜在扩散模型）来推理布局和修正注意力图，以解决这一挑战。大量实验证明了本文方法在提高图像准确性和语义忠实度方面的有效性，特别是在捕捉复杂交互概念方面，这是许多Baseline生成模型难以处理的。此外，通过各种协议和针对HOI生成的用户调查量化了我们的改进，提供了有价值的见解，并为该领域未来的探索铺平了道路。