探索多模态大语言模型（MLLMs）的推理能力

Multimodal Large Language Models (MLLMs)

flyfish

原文：Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning

论文地址

多模态大语言模型（Multimodal Large Language Models, MLLMs）是指那些可以处理和生成多种类型数据的大型机器学习模型，而不仅仅局限于文本。传统的语言模型主要专注于理解和生成自然语言文本，但多模态模型能够结合文本与其他形式的数据，如图像、音频、视频等。
什么是多模态？

“多模态”这个术语指的是信息的不同表达形式或渠道。在人工智能领域，它通常指模型能够处理来自不同来源或具有不同性质的数据。例如：

文本：句子、段落、文档等。
图像：照片、插图、图表等。
音频：语音、音乐、环境声音等。
视频：电影、演示文稿、监控录像等。

探索多模态大语言模型（MLLMs）的推理能力：多模态推理新兴趋势的全面综述。
展示了多模态大语言模型的发展历程，通过不同的路径和节点展示了模型之间的继承关系和技术演进。每条路径代表了一种特定的技术方向，而节点则代表了在这个方向上的具体模型请添加图片描述
大型语言模型（LLMs）的最新进展，以及新兴的多模态大语言模型（MLLMs）领域，在广泛的多模态任务和应用中展现出了令人瞩目的能力。特别是，各种具有不同模型架构、训练数据和训练阶段的多模态大语言模型已经在众多多模态基准测试中得到了评估。这些研究在不同程度上揭示了多模态大语言模型当前能力的不同方面。然而，多模态大语言模型的推理能力尚未得到系统的研究。在本次综述中，我们全面回顾了现有的多模态推理评估协议，对多模态大语言模型的前沿成果进行了分类和阐述，介绍了多模态大语言模型在推理密集型任务中的应用新趋势，最后讨论了当前的实践情况和未来的发展方向。

引言

在过去的十年中，借助不断增长的计算能力和扩展的数据，多模态大语言模型在许多领域和应用中取得了显著进展。它们被认为是最有可能实现强人工智能或通用人工智能终极目标的模型家族。强人工智能通常被认为具有思维，但多模态大语言模型是否具有思维，或者如何确定其思维的存在，仍然是一个开放且复杂的问题。

人们不需要拥有夏洛克·福尔摩斯那样的头脑，就能对来自现实世界的多种模态（如视觉、音频、文本、嗅觉等）的观察结果进行自然推理，然后采取行动。在双系统理论（一种广泛应用的认知科学理论）中，人类认知系统的第二种类型——能够进行抽象推理的系统，被认为是“在进化上较新且为人类所特有”。这一特征引发了一个有趣的问题：多模态大语言模型能够进行推理吗？

具体而言，我们对需要理解和整合来自视觉、文本、音频等多种模态信息的推理任务感兴趣。多模态大语言模型在多种多模态推理任务中已经展示了有效性。显著的例子包括视觉问答（VQA）、多模态对话等。最近，也有大量研究专注于特别提升多模态大语言模型的推理能力，例如多模态指令调优和通过提示进行多模态推理。多模态大语言模型的强大能力也引发了将其作为代理应用于现实环境或使其能够使用工具的研究。尽管在现有基准数据集上表现出色，但现在就断言当前的多模态大语言模型能够真正对多种输入模态进行推理还为时尚早。

即使在仅文本的场景中，大型语言模型在某些方面（如数学和多步推理）仍然缺乏恰当的推理能力。此外，大型语言模型和多模态大语言模型都存在幻觉问题，这会阻碍模型进行正确推理。基于推理能力在多模态大语言模型中的重要性以及相关研究的快速发展，我们认为有必要全面回顾多模态大语言模型推理能力的现状，并提供有见地的讨论来启发未来的研究。在接下来的章节中，我们将首先定义我们所关注的推理能力并阐述现有的评估协议（第2节）；随后，我们将总结多模态大语言模型的现状（第3节）；接着深入探讨多模态推理的一个关键训练阶段，即多模态指令调优（第4节）；然后我们将讨论多模态大语言模型在推理密集型应用中的情况，包括具身人工智能（第5.1节）和工具使用（第5.2节）；之后，我们将分析多模态推理基准测试的结果（第6节）；最后，我们将对多模态大语言模型的现状和未来发展方向提供集中的见解和讨论（第7节）。

推理：定义和评估协议

什么是推理？

推理是人类基本的智能行为之一，它需要理解和分析给定条件和背景知识，以合乎逻辑和理性地得出新结论。推理在逻辑学领域已经得到了广泛研究。为了清晰地理解推理，我们参考逻辑学领域中基于前提、结论和推理概念所建立的定义。推理通常被视为这些概念的整合。具体来说，前提和结论是关于某个案例的真假陈述。推理是从给定前提中选择和解释信息、建立联系、验证并最终基于所提供和解释的数据得出结论的中间推理步骤。

逻辑学领域中的推理高度依赖数学，数学用于构建一套基本逻辑规则。因此，只有遵循这些逻辑规则的推理才被认为是有效的。除了逻辑规则，进行实际推理任务还需要领域知识。例如，算术推理需要数学知识，而常识知识对于日常生活任务中的推理至关重要。领域知识作为给定输入之外的额外前提，对于在特定领域中得出有效结论是必不可少的。

根据参考文献，推理可分为形式推理和非正式推理，其中只要前提为真，形式推理的结论就保证为真，而非正式推理在可用信息不完整或模糊时不能保证结论的真实性。通常，非正式推理使用自然语言进行，对日常生活任务至关重要。此外，根据推理方向，推理可分为演绎推理、归纳推理、溯因推理和类比推理：

演绎推理：它代表了最经典的推理形式。给定一组已知知识（前提），它逐步推导出新知识以得到结论。例如，给定前提“猫是哺乳动物”和“所有哺乳动物都有四只脚”，演绎推理可以推导出新结论“猫有四只脚”。需要注意的是，演绎推理只关注推理步骤是否遵循逻辑规则，对前提的真实性没有任何限制。因此，错误的前提即使推理步骤符合逻辑，也可能导致错误的结论。
归纳推理：专注于从具体观察中推断出一般规则。例如，给定前提（观察）“到目前为止我见过的任何哺乳动物都有四只脚”，归纳推理可以推断出“所有哺乳动物都有四只脚”。归纳推理是科学领域发现新原理和定律的有效工具。需要注意的是，由于很难收集到完整的观察结果，归纳推理的结论对于某些未见过的观察可能是不正确的。
溯因推理：是为给定观察推断出最佳解释。它被视为演绎推理的逆向方向，即多个原因可能导致结果（观察），应推断出最可能的原因。考虑这样一个场景：一辆汽车在高速公路上停着，危险警示灯闪烁。溯因推理可能得出更合理的结论：汽车出故障了，而不是不太可能的解释——有人在恶作剧。由于可能的原因数量通常很多，溯因推理需要大量常识和领域知识来推断出可信的原因。
类比推理涉及基于相似性将知识从一个或几个实例转移到另一个实例。有两种形式的类比推理在现实生活活动中得到了研究和应用。第一种形式是以一个或多个相似案例作为输入，得出一个隐含命题，最后将该命题应用于一个新案例。例如，考虑 “铁能导电” 和 “铜能导电” 这两个案例，由此可以推断出一个命题 “任何金属都能导电”，进而推断出 “银作为一种金属，也能导电”。第二种形式的类比推理是考虑两个实体的相似性，根据一个实体的属性来推断另一个实体的属性。例如，给定前提 “让植物充分接受阳光照射能促进其生长和健康” 以及 “人类和植物都需要某些环境因素（如水、空气和养分）才能茁壮成长”，人们可以使用类比推理假设 “人类经常晒太阳可能也对其健康有益”。通过类比推理，可以低成本快速推断新对象的属性。然而，类比推理的前提只能支持可能正确而非绝对正确的结论。

在本文中，我们关注多模态大语言模型的推理能力。这些模型所采用的推理方法属于非正式推理范畴。这主要是因为它们利用自然语言来阐述推理过程中的步骤和结论，并且在推理机制中允许存在一定程度的不准确性。本文主要关注三种推理类型：演绎推理、溯因推理和类比推理。之所以强调这些类型，是因为它们在现实世界的推理任务中普遍应用，特别是在当前多模态大语言模型的应用范围内。

纯语言推理任务

为了更深入地了解多模态大语言模型的推理能力，了解相关的推理任务至关重要。这些任务被广泛认为需要模型具备推理能力才能有效解决。基于输入数据，我们可以将推理任务分为两类：纯语言推理任务和多模态推理任务，前者不需要图像，后者则涉及图像和文本。纯语言任务的研究历史更为悠久，用于任务分类的方法以及从这些研究中获得的见解为多模态推理任务的发展提供了有价值的指导

解决数学问题

解决数学问题通常需要一步或多步的算术推理。解题者需要基于对输入问题、隐含算术运算以及概念知识的理解，推导出一系列能够得出最终答案的运算步骤。隐含运算和概念知识的范围可依据不同的学校年级水平进行分类。例如，GSM8K这些基准测试所要求的数学知识通常是小学阶段所学的内容，包括加法、减法、乘法、除法等基本运算。MathQA 基准测试和 AQuA基准测试涵盖了源自诸如 GMAT（研究生管理入学考试）和 GRE（美国研究生入学考试）等标准化考试的数学问题。MATH基准测试则包含极具挑战性的数学问题，涉及排列组合问题、等比数列问题、高阶方程求解等领域。该基准测试要求解题者具备大量高级数学知识和数学推理技巧，以及遵循多步解题程序的能力，因此仍是一项极具挑战性的任务。

进行常识推理

常识是一个涵盖范围广泛但定义略显宽松的概念。虽然缺乏确切边界，但它通常指的是那些超出专业知识范畴、完成基础教育的人理应熟知的知识。常识知识涵盖了多个领域，包括社会常识（例如，明白如果在公众场合被指责，人们会感到尴尬）、物理常识（例如，知道汽车比自行车速度快）、生物常识（例如，了解企鹅和考拉在自然环境中不会相遇）以及众多其他方面。人们普遍认为，常识知识在日常决策和现实生活场景中起着重要作用，这使得常识推理成为语言模型的一项基本前提条件。

处理符号推理

符号推理可以被描述为一种依据精确定义的规则（如逻辑推导规则）对抽象对象进行的认知过程。除了编程和数学解题之外，还有各种各样的任务需要运用符号推理。其中一项任务是逻辑推理，例如 PrOntoQA 、SimpleLogic、FOLIO 和 ProofWriter 等数据集所体现的那样。在这些任务中，给定一组事实和逻辑规则，要求模型基于逻辑运算来证明一个公式。其他任务涉及对虚拟对象的理解。例如，在 BIG - Bench Hard 中的 Penguins、Date 和 Colored Objects 等数据集中，需要对与虚拟对象相关的属性进行统计分析和操作。一个示例问题可能是 “哪只企鹅是以一位著名爵士音乐家的名字命名的？”。尽管语言模型展现出了理解简单符号操作的能力，但在复杂符号推理任务方面，它们的能力被认为相对较弱。

开源多模态大语言模型

1. BLIP (Bootstrap Language-Image Pre-training)

简介: BLIP 是一个用于视觉和语言任务的预训练模型，它能够在图像字幕生成、视觉问答等任务中表现出色。

2. CLIP (Contrastive Language–Image Pre-training)

简介: CLIP 是由OpenAI开发的模型，旨在学习文本和图像之间的关系。它可以通过对比学习的方法来理解图片内容，并与描述性文本关联起来。

3. M6 (Multi-Modality to Multi-Modality Multitask Mega-transformer)

简介: 构建了目前规模最大的中文多模态预训练数据集，它包含超过 1.9TB 的图像以及 292GB 的文本，涵盖了广泛的领域。提出了一种跨模态预训练方法，名为 M6（即多模态到多模态多任务大型 Transformer），用于对单模态和多模态数据进行统一的预训练。将模型规模扩展至 100 亿和 1000 亿参数，打造出了中文领域最大的预训练模型。将该模型应用于一系列下游应用中，并通过与强大的基准模型对比，展示了其卓越的性能。此外，专门设计了一个文本引导图像生成的下游任务，结果表明经过微调的 M6 能够生成高分辨率且细节丰富的高质量图像。