Aligning Large Multi-Modal Model with Robust Instruction Tuning

Abstract

尽管多模态任务取得了有希望的进展，但当前的大型多模态模型（LMM）很容易产生与相关图像和人类指令 不一致的描述的幻觉。

LRV-指令。我们通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题，该数据集名为大规模鲁棒视觉（LRV）指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成，涵盖16 个具有开放式指令和答案的视觉和语言任务。我们还设计了 LRV-Instruction，以包含正向和负向指令，以实现更强大的视觉指令调整。我们的否定指令是在两个语义级别设计的：（i）不存在的元素操作和（ii）存在的元素操作。

GAVIE：为了有效测量 LMM 产生的幻觉，我们提出了GPT4 辅助视觉指令评估（GAVIE），这是一种评估视觉指令调整的新方法，无需人工注释的真实答案，并且可以适应不同的指令格式。我们进行了全面的实验来研究 LMM 的幻觉。

结果。我们的结果表明，现有的 LMM 在收到我们的负面指令（尤其是现有元素操作指令）时表现出明显的幻觉。此外，通过对 LRV-Instruction 上的 MiniGPT4 进行微调，与最先进的方法相比，我们使用更少的训练数据成功地减轻了幻觉，同时提高了公共数据集的性能。此外，我们观察到训练数据中正例和负例的平衡比例可以产生更稳健的模型。

视觉指令跟随数据

基于具有边界框和密集标题的视觉基因组数据集，我们与仅语言的 GPT4 进行交互，并总共收集了 120K 视觉指令跟踪样本。 LRV-指令包括正指令和负指令：

正向指令有16个任务，包括图像字幕、物体检测、图像情感分析、图像质量评估、物体交互分析、图像异常检测、参考表达接地、OCR、VCR、物体属性检测、多选VQA、语义分割、密集字幕、视觉蕴涵、风格图像字幕、活动识别、面部表情检测。
负指令在两个语义级别上设计：(i) 不存在的元素操作和 (ii) 存在的元素操作。

GPT4-辅助视觉教学评估

我们引入 GPT4 辅助视觉指令评估 (GAVIE) 作为一种更灵活、更强大的方法来测量 LMM 生成的幻觉，而不需要人工注释的真实答案。GPT4 将带有边界框坐标的密集标题作为图像内容，并比较人类指令和模型响应。然后，我们要求 GPT4 充当智能老师，并根据两个标准对学生的答案进行评分（0-10）。

(1)准确性：对于图像内容的响应是否准确。
(2)相关性：响应是否直接遵循指令。

自然语言处理领域已经取得了重大进展，导致了能够理解和遵循给定自然语言输入的指令的模型的开发。36;10;26;5]。这些模型利用大型语言模型 (LLM) 的强大功能并依赖于高质量的指令数据。同样，我们也努力将类似的功能引入多模式模型。GPT4 [27]在与人类的多模式对话中表现出了令人印象深刻的性能，但促成其非凡能力的技术仍然不透明。因此，最近出现了几个大型多模态模型（LMM）[39;23;10;8]，例如 MiniGPT4 [39]和 LLaVA [23]，两者都利用骆马毛[7]作为语言生成器，但具有不同的视觉编码器[28;16]。指导BLIP [8]从预训练的 BLIP-2 初始化[15]而多式联运-GPT (MMGPT) [10]是建立在 Flamingo [1;3]。

最近的一项研究 [14】透露LLM的幻觉问题虽然不是所希望的，但却被这些LMM遗传了[39;23;10;8]。幻觉，与法学硕士相关的一个主要道德问题 [4]，可能会导致有害的后果，特别是当没有足够领域知识的用户过度依赖这些越来越令人信服的语言模型时。在 LMM 幻觉的背景下，该模型可以生成与给定图像相冲突的信息的描述。例如，如图1 （以红色突出显示）所示，现有的 LMM [39;23;8;10]倾向于描述不存在的物体，例如“狗”从事不存在的活动，例如“玩球”。此外，该模型可能会在不遵循人类指令的情况下生成长图像描述（以蓝色突出显示）。

这些幻觉的可能原因是什么？由于当前的 LMM 建立在强大的 LLM 之上，因此它们可能会过度依赖语言先验，并生成更有可能与指令文本结合在一起的单词，而不管图像内容如何。更重要的是，LMM，例如 MiniGPT4 [39]和 LLaVA [23]，采用合成指令数据进行训练，这些数据通常很长并且涉及图像中不存在的对象、活动或关系。

为什么 LMM 不能准确遵循人类指令？我们推测这是由于他们的训练数据缺乏多样性。例如，MiniGPT4 [39]仅使用专为图像字幕任务设计的四个指令模板来指导调整。虽然 MMGPT [10]和指导BLIP [8]结合了几个数据集作为指令调优数据，它们的指令和答案仍然基于几个模板。

为了应对这些挑战，我们推出了LRV-Instruction，这是一个大型且多样化的视觉教学基准。我们的基准测试由 GPT4 生成的 120k 视觉指令组成，其灵感来自于最近 GPT 模型在文本注释任务中的成功 [24]。与之前的研究不同，之前的研究侧重于有限的任务和由人类专家创建的预定义模板 [39;8;10]，LRV-Instruction涵盖了16个视觉语言任务，具有开放式指令和答案，如图 3和表2所示。 1(a) . 正如观察到的[18]，当前的 LMM 倾向于对向模型提供的任何指令回答“是” ，即使正确的答案应该是“否”。有些模型甚至在评估过程中对超过 90% 的负面测试示例回答“是” 。我们的调查表明，大多数 LMM 在仅包含正向指令的不平衡数据集上进行了微调（表1）。为了使 LMM 能够更忠实地响应人类指令，我们设计了LRV-Instruction，以包含负指令和正指令，以实现稳健的指令调整。我们的否定指令是在两个语义级别生成的（图2）：（i）不存在的元素操作和（ii）存在的元素操作以两种不同的格式（声明式和疑问式）。为了提高视觉指令调整评估的稳健性和灵活性，我们提出了GPT4 辅助视觉指令评估（GAVIE），从两个不同的方面评估 LMM 输出：评估指令跟随性能的相关性和测量幻视的准确性在 LMM 输出中。GAVIE不需要人工注释的真实答案[29]并且可以轻松适应不同的指令格式，而不是[中的特定设计18]。

我们根据经验评估了四个公开可用的 LMM [39;23;8;10]在我们的基准上，发现现有的 LMM 在收到我们的负面指令提示时会产生严重的幻觉。我们通过微调 MiniGPT4 进一步验证了LRV-Instruction的有效性[39]关于这个更平衡的数据。与原始 MiniGPT4、LLaVA 相比，我们经过指令调整的 MiniGPT4 受到的幻觉影响要小得多，并且实现了最先进的性能[23] , 指示BLP [8]和 MMGPT [10]我们的评估集和公共基准[18;11]。我们还观察到，对于 LMM，存在的元素操作指令比不存在的元素操作指令更具挑战性。此外，稳健的模型性能需要正负实例之间的平衡比例。总而言之，我们的贡献有三方面：

•

我们构建了LRV-Instruction，这是一个包含 120k 视觉指令的大型且多样化的数据集，其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。
•

我们提出了GAVIE，一种评估视觉指令调整的新颖方法，无需真实答案和预先设计的指令格式。
•

我们进行了全面的实验来研究当前 LMM 的幻觉。实证研究验证了LRV-Instruction对于鲁棒视觉指令调整的有效性。

2相关作品

早期探索[35;16;17 号;32]视觉和语言预训练模型倾向于使用基于 Bert 的[25;12]模型作为语言解码器。受到大型语言模型最近成功的启发[33;9;38]和数据集[19;6;13;21;30;31;20]，许多研究[1;15;14]一直致力于通过将强大的法学硕士与上下文或少量学习能力相结合来改进视觉语言预训练模型。最近，一些视觉指令调整的 LMM [39;23;10;8]已经出现，在未见过的 VL 任务中表现出了出色的泛化性能。具体来说，LLaVA [23]将视觉编码器的输出投影为 LLaMA 的输入[33]并在合成数据上训练对齐网络和法学硕士。迷你GPT4 [39]基于 BLIP-2 构建，但使用 Vicuna [7]作为语言解码器。它仅在来自 ChatGPT 的较长图像标题上微调跨模式对齐网络。研究方法[10;8]是在 VL 数据集集合上进行指令调整的，但是 InstructBLIP [8]使用 BLIP2 [15]作为骨干，而[10]从 Flamingo [初始化1]。mPLUG-owl [37]微调 LLaMA [33]使用来自 LLaVA 的文本指令数据和视觉语言指令数据的模型[23]。相比之下，我们提出了一个大型且多样化的视觉指令数据集，其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。这有助于提高当前 LMM 的鲁棒性。

尽管 LMM 在解决 VL 任务方面很强大，但它们也遭受着 LLM 继承的幻觉。流行的图像字幕指标，例如 CIDEr [34]香料[2]不对幻觉进行适当的惩罚。椅子，[29]，不稳定，需要复杂的人为解析规则才能精确匹配。或者，[18]将幻觉转化为二元分类问题。然而，它要求输入问题遵循特定的模板，例如“图像中是否有<object>？” 。相比之下，我们提出的 GAVIE 可以以开放式的方式评估模型幻觉，而不需要人工注释的真实答案。