DILLEMA：扩散模型+大语言模型，多模态数据增强框架

引言：深度学习模型的鲁棒性测试需要全面且多样化的测试数据。现有的方法通常基于简单的数据增强技术或生成对抗网络，但这些方法在生成真实且多样化的测试数据集方面存在局限性。为了克服这些限制，DILLEMA框架应运而生，旨在通过结合大型语言模型和控制条件下的扩散模型，为视觉神经网络生成合成的高保真测试数据集。

©️【深蓝AI】编译

论文标题：DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation

论文作者：Luciano Baresi, Davide Yi Xian Hu, Muhammad Irfan Mas'udi, Giovanni Quattrocchi

论文地址：https://arxiv.org/pdf/2502.04378

01 核心要点

1.1. 问题背景

深度学习模型在现实场景中常因数据多样性不足或测试覆盖不全，导致“极端场景”下的异常行为。传统数据增强方法（如旋转、裁剪）或GAN生成的测试数据缺乏多样性和语义合理性，难以满足复杂场景（如自动驾驶、医学图像分析）的测试需求。

1.2. 解决方案

DILLEMA创新性地整合扩散模型与大语言模型，构建多模态数据增强框架。该框架通过生成高保真度的多样化合成测试数据，有效提升模型的健壮性。其核心思想是“文本-图像-文本”闭环：将图像转化为文本描述，利用LLM生成假设性描述，再通过扩散模型生成新图像，确保语义一致性和场景合理性。

1.3. 技术亮点

多模态协同：结合视觉与语言模型的优势，实现语义可控的图像生成。

假设性推理：LLM通过逻辑推理生成假设性描述（如 “ 将晴天改为暴雨”），突破传统增强的随机性局限。

空间一致性保持：扩散模型在生成过程中保留关键场景元素（如物体位置、光照条件），避免生成无效测试数据。

▲图1｜ DILLEMA的框架图©️【深蓝AI】编译

02 技术解析

如图1框架示意图所示，DILLEMA框架通过以下五个步骤生成合成的、高保真度的测试数据集，这些步骤共同作用，确保生成的测试数据集不仅真实且多样化，还能有效揭示深度学习模型的潜在弱点。以下是每个步骤的详细描述：

2.1. 图像字幕生成（Image Captioning）

图像字幕生成是DILLEMA框架的第一步，其核心目标是将输入图像转换为详细的文本描述。这一过程借助预训练的字幕生成模型（Captioning Model, CM），将图像中的关键信息转化为多句文本描述。每个句子聚焦于场景的不同方面，如物体、环境和上下文关系，从而提供全面且详细的图像表示。

例如，对于一张描绘“一辆灰色汽车行驶在雾蒙蒙的街道上”的图像，字幕生成模型可能会输出：“一条街道上有一辆灰色汽车。街道雾蒙蒙且昏暗。”

这种多句描述方法能够有效捕捉图像中的关键细节，避免遗漏重要信息，为后续步骤提供坚实基础。

▲图2｜分类（图2a）和分割（图2b）之间的约束差异展示©️【深蓝AI】编译

2.2. 关键词识别（Keyword Identification）

关键词识别是DILLEMA框架的第二步，旨在识别字幕中可以安全修改的关键词。这些关键词代表图像中可修改的方面，如颜色、天气条件或对象属性，而不改变图像的整体含义或主要任务。

此步骤利用大型语言模型（LLM）分析字幕，识别出可修改的关键元素。在识别过程中，LLM会排除对任务至关重要的核心元素，以确保修改不会影响图像的主要任务。

例如图2所示：在图像分类任务中，背景颜色或照明可以修改，但对象本身（如汽车）不能改变；在语义分割任务中，道路和关键对象（如汽车、行人）必须保持存在，但颜色或天气条件可以改变。

为了明确任务要求，DILLEMA会向LLM提供特定任务相关的查询提示，例如：“给定任务和由字幕描述的图像，字幕中可以修改的关键元素是什么，以便图像对应的真值不会改变？”

通过这种方式，LLM能够根据任务要求，识别出如“灰色汽车”、“雾蒙蒙”和“昏暗”等可修改的关键元素。

2.3. 替代选项识别（Alternative Identification）

替代选项识别是DILLEMA框架的第三步，其目的是为识别出的关键词生成替代选项。这些替代选项应与原始关键词在语义相关，但具有不同的属性，从而在不改变图像整体任务的情况下提供变化。

LLM为每个识别出的关键词生成替代选项，例如，对于关键词“灰色汽车”，可能的替代选项包括“白色汽车”、“红色汽车”；对于“雾蒙蒙”，替代选项可以是“雪天”、“晴天”。

在生成替代选项时，LLM会考虑上下文的一致性，避免引入与任务无关的变化。例如，将“汽车”替换为“自行车”在车辆检测任务中是不合适的。

为了指导LLM生成合适的替代选项，DILLEMA会提供明确的任务和关键词提示，例如：“给定任务和由字幕描述的图像，这些关键词的可能替代选项是什么？”

通过这种方式，LLM能够生成多样化的替代选项，为后续步骤提供丰富的变化选项。

2.4. 假设性字幕生成（Counterfactual Caption Generation）

假设性字幕生成是DILLEMA框架的第四步，通过将替代选项应用于原始字幕，生成新的假设性字幕。这些假设性字幕描述了如果某些元素被修改，图像会是什么样子。此步骤利用LLM将原始字幕中的关键词替换为生成的替代选项，同时确保生成的字幕在语义连贯且符合任务要求。

替换的范围可以根据需要进行控制，例如，一次只替换一个关键词，以实现小幅度的变化；或者同时替换多个关键词，以引入更大的变化。

例如，原始字幕为“一条街道上有一辆灰色汽车。街道雾蒙蒙且昏暗。”，关键词“灰色汽车”替换为“白色汽车”，“雾蒙蒙”替换为“雪天”，生成的假设性字幕为：“一条街道上有一辆白色汽车。街道雪天且阳光明媚。”

在生成假设性字幕时，LLM会考虑上下文的连贯性，避免生成矛盾或不合逻辑的描述。通过这种方式，DILLEMA能够生成描述修改后图像的详细文本指导，为后续的图像生成提供基础。

2.5. 可控文本到图像生成（Controlled Text-to-Image Generation）

可控文本到图像生成是DILLEMA框架的最后一步，其目标是根据假设性字幕生成新的测试图像，同时保持原始图像的空间一致性。此步骤利用可控扩散模型（Diffusion Model, DM），通过条件输入（如边缘图或分割图）保留原始图像的空间结构，确保生成的图像在视觉和语义上符合任务要求。

例如，对于假设性字幕“一条街道上有一辆白色汽车。街道雪天且阳光明媚。”，生成的图像将保留原始图像中汽车和街道的空间位置，但汽车颜色变为白色，天气条件变为雪天。

可控扩散模型的输入包括原始图像的条件输入和假设性字幕，从而在生成图像时兼顾语义一致性和空间连贯性。

通过这种方式，DILLEMA能够生成与假设性字幕对齐的逼真图像，用于测试深度学习模型在不同条件下的表现，从而有效揭示模型的潜在弱点，并增强模型的泛化能力和异常场景适应性。

▲图3｜ DILLEMA生成的图片示例可视化©️【深蓝AI】编译

03 实验验证

3.1. 数据集与测试模型的性能

实验使用了两个数据集：用于图像分类的 ImageNet1K 和用于自动驾驶语义分割的 SHIFT。对于 ImageNet1K，使用了ResNet18、ResNet50 和 ResNet152 模型测试；对于 SHIFT，使用了DeepLabV3 模型测试。

3.2. 评估指标

图像分类：使用准确率（accuracy）评估模型表现。

语义分割：使用平均交并比（mIoU）评估模型表现。

3.3. RQ1（有效性）：DILLEMA 能否从现有数据中生成有效且真实的测试数据集？

通过亚马逊 Mechanical Turk 进行的人类评估显示，99.7% 的增强 ImageNet1K 图像保留了原始标签，82.7% 的模型误分类图像仍被人类评估者认为是有效的。对于 SHIFT 数据集，道路、行人和车辆的保留率分别为 98.9%、84.6% 和 100.0%。这表明 DILLEMA 生成的图像不仅真实，而且能够有效保留原始图像的关键语义信息。

3.4. RQ2（测试的有效性）：生成的测试数据集能否识别出最先进的 DL 模型中的弱点？

ImageNet1K：DILLEMA 生成的测试数据集平均暴露了 47.0% 的模型错误行为，而原始测试数据集仅能暴露 3.1%。即使考虑到人类评估中约 82.7% 的有效性，DILLEMA 的有效性仍显著高于原始测试数据集（38.9%）。

SHIFT：DILLEMA 在语义分割任务中也成功暴露了模型的弱点，例如在“ SideWalk”类别中，模型在原始数据集中的准确率为 97%，而在增强数据集中的准确率降至 38%。这表明 DILLEMA 能够揭示模型在关键类别中的潜在弱点。

3.5. RQ3（再训练的鲁棒性）：生成的测试数据集能否用于增强模型的泛化能力和异常场景适应性？

ImageNet1K：使用 DILLEMA 生成的数据重新训练 ResNet18 模型后，模型在增强测试数据集上的准确率提高了 52.27%，在原始测试设置上的准确率提高了 20.19%。

SHIFT：重新训练后，模型在原始测试设置上的 mIoU 从 85.32% 提高到 88.76%，在增强数据集上的 mIoU 从 72.45% 提高到 80.32%，特别是在行人识别方面，准确率从 38% 提高到 62%。这表明 DILLEMA 生成的测试数据集不仅能够揭示模型的弱点，还能显著提升模型的鲁棒性。

04 影响有效性的因素

尽管 DILLEMA 在实验中表现出色，但仍存在一些潜在的威胁：

内部有效性问题：依赖预训练模型和随机采样，可能导致结果的随机性和偏差。此外，合成图像与真实图像之间可能存在领域偏移，导致模型表现不佳。

外部有效性问题：虽然在分类和分割任务中进行了测试，但可能无法推广到特定领域（如医学成像）。需要在更多样化的数据集上进行测试，以确认其在工业应用和其他视觉任务中的适应性。

构建的有效性：主要衡量标准是生成图像是否保留了原始标签并揭示了模型的弱点。尽管人类评估表明图像仍然有效，但 LLM 生成的替代选项可能存在潜在偏差，可能会影响结论。

05 总结与展望

DILLEMA 通过结合字幕生成、LLM 驱动的假设性生成和可控扩散模型，可以有效地揭示模型的弱点并提高模型鲁棒性。未来的工作将与其他基线进行比较，并探索生成测试数据集的优先级排序。DILLEMA 的提出为深度学习模型的测试和鲁棒性提升提供了一种新的思路，有望在自动驾驶、医疗影像等领域发挥重要作用。