[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力

[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
- 目录
- 论文简介
- 0. 摘要
- 2. 相关工作
- - 2.1 视觉-语言领域的推理研究
  - 2.2 用于视觉-语言分析的大型语言模型
- 3 方法
- - 3.1 上下文感知图像描述
  - 3.2 复杂视觉推理ICL
- 4. 实验
- - 实验结论
- 后记

论文简介

https://arxiv.org/pdf/2409.13980
在这里插入图片描述

这篇论文的标题是《Enhancing Advanced Visual Reasoning Ability of Large Language Models》，由悉尼大学计算机学院的Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai撰写，投稿ACL ARR2024。这篇论文提出了一种新的方法，名为复杂视觉推理大型语言模型（CVR-LLM），旨在提升模型在复杂视觉推理任务中的表现。该方法结合了视觉-语言模型（VLMs）的视觉感知能力和大型语言模型（LLMs）的文本推理能力。CVR-LLM通过将图像转换成详细的、上下文感知的描述，并利用LLMs的文本知识进行准确预测，无需额外训练。此外，论文还引入了一种新颖的多模态上下文学习（ICL）方法和链式比较（CoC）技术，以增强模型的推理能力。实验结果显示，CVR-LLM在多个复杂视觉推理任务中达到了最先进的性能。

0. 摘要

近期视觉-语言（Vision-Language，简称VL）研究的进展引发了对复杂视觉推理能力的新基准挑战，这些挑战考验着模型的高级推理能力。传统的视觉-语言模型（VLMs）在视觉感知任务上表现良好，但在复杂的推理场景中却表现挣扎。相反，大型语言模型（LLMs）展现出了强大的文本推理能力，但它们缺乏视觉敏锐性。为了弥合这一差距，我们提出了复杂视觉推理大型语言模型（CVR-LLM），它利用VLMs在视觉感知方面的专长和LLMs广泛的推理能力。与最近需要投影层的多模态大型语言模型（MLLMs）不同，我们的方法通过迭代自优化循环将图像转换为详细的、上下文感知的描述，并利用LLMs的文本知识进行准确预测，无需额外训练。我们同样引入了一种新颖的多模态上下文学习（ICL）方法来增强LLMs的上下文理解和推理能力。此外，我们还引入了链式比较（Chain-of-Comparison，简称CoC），这是一种逐步比较技术，能够对比预测的不同方面。我们的CVR-LLM首次在广泛的复杂视觉推理任务中进行了全面研究，并在所有任务中实现了最先进的性能。

1 引言：
复杂视觉推理的概念是在2019年随着视觉常识推理（Visual Commonsense Reasoning，简称VCR）数据集的引入而提出的，该数据集测试了模型理解视觉内容以及常识认知的能力。然而，这一领域的进展一直相对缓慢，主要是因为视觉-语言模型（VLMs）在结合常识知识方面的局限性。近年来，由于GPT3、LLaMA和Vicuna等大型语言模型的出现，复杂语言推理任务取得了重大进展。这一进步重新激发了人们对复杂视觉推理领域的兴趣，探索了如何通过视觉感知来增强语言推理，并可能克服以前的障碍。这导致了创新的基准测试，专注于各个方面：常识推理WinoGAViL、组合性Winoground、怪异图像解释Whoops和幽默理解NYCCC。这些任务要求模型不仅要准确解释图像内容，还要整合日常经验、普遍常识、文化背景和幽默感的知识。例如，Whoops示例中的合成图像“《蒙娜丽莎的肖像描绘了一个严肃的男性面孔》”与文化背景相矛盾，因为著名的画作《蒙娜丽莎》描绘的是一个女性面孔。

在本文中，我们介绍了一种名为复杂视觉推理大型语言模型（CVR-LLM）的新方法，基于"VLMs + LLMs"的概念。最近的多模态大型语言模型（MLLMs），如LLaVA和MiniGPT4，已经在许多VL任务中证明是有效的。然而，这些模型对资源要求很高，依赖于数百万图像-文本对进行投影层学习。为了克服这一限制，我们的方法利用VLMs在视觉感知方面的优势，通过一个仅用于推理的双循环自优化过程将图像转换为上下文感知的图像描述（CaID），并结合LLMs的反馈。这些详细的描述增强了LLMs的推理过程，将多模态任务转化为更简单的单模态挑战，并简化了整个过程。此外，我们开发了一种独特的多模态上下文学习（ICL）方法，称为复杂视觉推理ICL（CVR-ICL），它通过CVR-ICL模块增强了LLMs在一系列复杂多模态环境中的推理能力。图2提供了我们的CVR-LLM应用于Winoground任务的示例。它通过CaID将图像描述为适当的句子，并利用LLMs通过CVR-ICL进行复杂推理和ICL，以获得更准确的预测。

我们的研究是首次探索这样一个广泛的基准测试（WinoGAViL、Winoground、Whoops、VCR和NYCCC），提出了一个以"VLM+LLM"概念为中心的范式来解决复杂视觉推理任务。实验结果表明，CVR-LLM在所有五个任务中都取得了最先进的性能。进一步的消融研究和比较分析揭示了每个模块的有效性以及我们方法比以前的方法的优越性。特别是在比较分析中，我们引入了链式比较（CoC）技术，受到"思维链"的启发，并利用GPT4，以解决传统指标在评估抽象概念时的局限性。CoC通过系统地分析和定量对比结果的不同方面，提供了细致的分析。

我们的贡献总结如下：
（1）我们首次在所有复杂视觉推理任务中进行了全面研究，包括WinoGAViL、Winoground、Whoops、VCR和NYCCC。
（2）我们设计了一种上下文感知图像描述生成方法和特定的上下文学习策略，以增强LLMs在多模态复杂视觉推理任务中的高级视觉推理能力。
（3）我们进一步引入了链式比较，这是一种基于"思维链"的新型GPT4比较技术，填补了传统指标在抽象概念评估中的空白。
（4）实验结果表明，我们的方法在一系列复杂视觉推理场景中超过了当前最先进的模型。

在这里插入图片描述

2. 相关工作

2.1 视觉-语言领域的推理研究

近年来，多模态推理研究取得了显著进展。除了第1节讨论的复杂视觉推理基准测试之外，许多研究专注于推理过程本身，例如思维链（chain-of-thought）或推理模块，这些对于增强AI模型的分析能力和性能至关重要。例如，Liu等人（2023b）引入了一个模态对齐的思维链推理框架，将显式推理纳入面向任务的对话生成，提高了上下文理解和有效性。Lv等人（2023）提出了一种反事实交叉模态推理方法，用于更好地定位视频时刻。Zhou等人（2023a）开发了一种多步推理概率转移机制，以改进多标签交互分类。Yu等人（2023）提出了一种层次化推理网络，以从粗粒度到细粒度细节整合多级交互线索，增强了人-物交互（HOI）表示。

2.2 用于视觉-语言分析的大型语言模型

过去两年中，大型语言模型（LLMs）的发展和应用在各个领域都取得了前所未有的增长。LLMs因其强大的能力而受到赞誉，包括高级分析能力、广泛的文本级知识和卓越的理解能力。此外，它们还配备了两种强大的机制：思维链（chain-of-thought）和上下文学习（in-context learning），这显著增强了它们在专业任务中的有效性和性能。例如，Muraoka等人（2023）开发了一个与跨语言LLM一起训练的跨语言模型，利用LLMs在跨语言方面的能力。Lan等人（2023）为视觉问答（VQA）任务提出了推理问题提示，解锁了LLMs在零样本学习中的潜力。此外，Yang等人（2023）引入了SODA，这是一个将LLMs与可解释AI集成的系统，协助营销人员进行数据解释，增强了人与AI的协作。Zhong等人（2023）使用知识蒸馏将SUR-adapter赋予了LLMs的语义理解和推理能力。

这篇论文的 “Methods” 部分介绍了CVR-LLM框架，包括其创新的过程用于生成上下文感知图像描述（CaID）以及其复杂视觉推理上下文学习（CVR-ICL）策略。以下是对该部分的翻译：

3 方法

在本节中，我们介绍了CVR-LLM框架，重点介绍了其创新的生成上下文感知图像描述（CaID）的过程以及其复杂视觉推理上下文学习（CVR-ICL）策略。首先，我们解释了CaID生成过程，它与传统的图像字幕生成不同，使用来自大型语言模型（LLMs）的反馈进行自优化循环，以产生准确且上下文相关的描述（第3.1节）。其次，我们介绍了CVR-ICL方法（第3.2节），通过评估相关案例并选择适合的复杂多模态示例来增强LLMs的上下文理解和推理。

3.1 上下文感知图像描述

预训练的VLMs在生成详细图像字幕方面表现出了它们的熟练程度，例如在MSCOCO等基准测试上。然而，这些字幕虽然可能准确反映了视觉内容，但它们并不是为复杂的视觉推理场景定制的。最近，像miniGPT4和LLaVA这样的多模态指令遵循代理的趋势变得非常流行，它们将开源的LLMs与预训练的视觉编码器结合起来，创建了一个MLLM。这些模型的有效性在很大程度上依赖于使用强大的LLMs（如ChatGPT和GPT4）生成的大量VL指令数据进行调整。虽然前景广阔，但它们依赖于大量的VL指令数据进行调整，需要大量的资源和时间投资。在这项工作中，我们介绍了一种更有效的方法来生成上下文感知图像描述，该方法依赖于推理过程，并利用任务特定信息和来自LLMs的反馈来更好地制作提示，更有效地指导字幕生成过程。我们的CaID框架通过双循环自优化方法优化创建上下文感知图像描述的过程，如图3所示。最初，它利用任务特定细节和LLM洞察力来制作精确的图像提示。这些初始提示旨在提炼与任务相关的重要信息，指导字幕生成器生成不仅涵盖图像内容而且与任务要求深度对齐的描述。具体来说，给定一个与任务相关的文本描述t和图像i（对于涉及多个图像的过程，我们依次处理每个图像），生成初始上下文感知图像描述可以描述如下：
$d ini t = C (i, L (t)),$
其中dinit是初始生成的上下文感知图像描述。C是图像到文本字幕生成器，将图像转换为描述。L是LLM，将关键任务相关文本信息t（例如要求、问题、提示词）封装成特征提示。在第二个循环中，我们的方法旨在封装与任务相关的重要细节以及LLMs的反馈，通过LLMs的广泛知识增强描述生成。具体来说，它将初始描述与任务细节和CVR-ICL示例合并成一个任务专注的提示，指导LLMs做出更精确的预测。
这些预测然后被视为伪标签，要求LLMs设计进一步的查询以获得更深入的洞察。通过这种方式，我们在LLM预测和上下文感知字幕之间建立了反馈反射，增强了产生内容的丰富性和准确性。文本反馈然后用于优化图像提示，提供深入的洞察，通知并指导生成细腻的图像描述。修正后的上下文感知图像描述可以描述如下：

$d re v i se d = C (i, L (t, Q (p))),$

其中drevised是修正后的生成的上下文感知图像描述。Q是LLM的进一步查询。p是LLM根据生成的任务提示做出的预测。Q§是用于更新图像提示的文本反馈。
在这里插入图片描述

3.2 复杂视觉推理ICL

LLMs以其出色的上下文学习能力而闻名，尤其是与任务特定示例一起使用时。最优的上下文示例使LLMs能够利用其背景知识来获得更精确的结果。然而，大多数研究工作（Liu等人，2021a；Sorensen等人，2022）主要关注文本中心领域，很少有工作（Alayrac等人，2022；Zhao等人，2023）探索了VL任务的多模态上下文学习。我们的方法与以前仅关注NLP中文本相似性的方法不同，例如kNN增强的上下文示例选择（KATE），它整合了多模态因素，从而为学科带来了新的视角。此外，它也不同于多模态领域中的MMICL（Zhao等人，2023），后者使用视觉提示生成器将图像转换为视觉嵌入，并将其与文本嵌入合并作为联合测量因素。复杂视觉推理任务要求模型能够从多模态领域中选择上下文示例，利用广泛的背景知识和其中的信息（Zhao等人，2023）。然而，我们的CVR-LLM基于LLMs，它们本质上是基于文本的，导致文本和多模态领域之间存在差距。直接应用基于文本的kNN聚类方法可能会导致丢失重要的多模态信息。另一方面，使用多模态信息进行检索可能会忽略我们生成的图像描述中的重要上下文感知信息。为了解决这个问题，我们提出了复杂视觉推理ICL，旨在通过有效整合文本和多模态组件来选择LLMs的上下文示例。这种双重分析使我们的LLM能够更有效地选择上下文相关的示例，确保文本和多模态洞察的平衡整合，从而增强上下文学习。图4说明了我们CVR-ICL策略的框架。具体来说，给定一个带有图像i的任务t，我们最初将图像转换为描述d，这使得任务不仅适用于多模态领域，还适用于仅限文本的场景。然后，我们使用多模态编码器fm和文本编码器ft将来自多模态领域和文本领域的输入转换为向量表示，如下所示：
$x m = f m (t, i),$
$x t = f t (t, d),$
其中xm是多模态领域的向量表示。xt是文本领域的向量表示。在将每个示例转换为两种不同的向量形式之后，我们计算余弦相似度分数以识别和选择最相关的例子。考虑测试集中的目标样本和训练集中的第i个示例，相似度计算过程可以表示如下：
$sm = fc(xm, xith_m),$
$st = fc(xt, xith_t),$
$s = s m + s t,$
其中sm是目标样本与数据集中第i个示例在多模态领域上的相似度分数，st是目标样本与数据集中第i个示例在文本领域上的相似度分数。s是最终的相似度分数。fc是余弦相似度函数。最后，选择具有最高s的前k个案例作为上下文示例，旨在提高LLMs的上下文理解和预测准确性。
在这里插入图片描述

4. 实验

在这篇论文的实验部分，作者对CVR-LLM模型进行了全面的性能评估，实验覆盖了多个复杂视觉推理任务，并与现有的最先进模型进行了比较。以下是核心的实验发现：

数据集和评估指标：
- 实验涉及的数据集包括WinoGAViL、Winoground、Whoops、VCR和NYCCC，这些数据集从不同角度考验模型的复杂视觉推理能力。
- 使用了这些数据集提供的标准评估方法，以确保对模型性能的公平评价。
实现细节：
- 作为基线的图像描述模型选择了BLIP2flant5xxl。
- 对于CVR-ICL阶段，使用了BM25和BLIP2多嵌入来编码文本和多模态输入。
- 实验中使用的LLMs包括Llama3-8B、GPT3.5和GPT4，所有测试均在没有微调的情况下直接在测试集上进行。
与最先进模型的比较：
- CVR-LLM在所有测试任务中的表现均超过了传统的视觉-语言模型（VLMs）和多模态大型语言模型（MLLMs）。
- 例如，在WinoGAViL的SWOW设置中，CVR-LLMLlama3的准确率达到了88.7%，比之前的最佳模型BLIP2提高了17.1%。
- 在Whoops任务的GPT4率中，CVR-LLM也显著超越了之前的SOTA模型MiniGPT4。
消融研究：
- 通过消融研究验证了CVR-LLM框架中每个组件的独立贡献。
- 结果表明，CVR-ICL模块显著提高了LLMs的推理性能，尤其是在除了NYCCC数据集之外的所有任务中（NYCCC可能由于其对幽默的专注，需要更精确的描述）。
分析：
- 通过定性分析，作者展示了上下文感知图像描述（CaID）与传统图像字幕相比，在回答任务相关问题时提供了更多的上下文相关性。
- 引入了链式比较（CoC）技术，通过GPT4进行逐步分析，验证了CaID在特定场景下回答问题时的有效性。
定性结果：
- 展示了LLMs如何利用上下文信息提出更相关和深入的问题，以适应特定任务。
- 例如，在处理国际象棋棋子的图像时，LLMs可能会询问“这个棋子是什么样子的？”，随后生成的描述“一个看起来像独角兽的棋子”增强了LLMs的决策过程。