多模态多智能体，在实现系统2（深思熟虑）方面的探索

多模态和多智能体，在系统2（深思熟虑）方面的探索

提出背景
理性的定义
为什么理性定义是四大基本原则，而不是其他数量，又为何是这四个，而不是其他？
理性不等于推理

通过多模态多智能体系统增强理性
推动基础与不变性
幻觉问题，知识检索和工具使用
引入符号逻辑，做可信推理
未来研究方向
通过外部手段来增强系统的内在理性
选择正确的评估指标非常关键
多模态多智能体系统中的研究潜力巨大

最喜欢的路：在Transformer的基础上结合知识图谱、神经符号计算等

论文：https://arxiv.org/pdf/2406.00252

代码：https://github.com/bowen-upenn/MMMA_Rationality

提出背景

大模型在许多任务中展示了令人瞩目的成绩，特别是在模仿人类类似的推理能力方面表现出色。

这些模型利用人类语言的丰富性，来抽象概念、深化思考过程、解读复杂的用户查询，并在决策场景中制定计划和方案。

尽管取得了这些进展，最新研究显示，即使是最先进的LLMs也存在各种非理性行为，如框架效应、确定性效应、过重视偏见和联合谬误。

这种非理性行为削弱了LLMs在医疗、金融和法律等关键领域的实际部署，这些领域极需可靠性和一致性。

对LLMs的事实准确性和可信度的日益关注，突显了迫切需要开发出具有合理推理过程的更优秀的代理或系统。

单一的LLM代理可能会陷入非理性行为，因为它无法超越语言模型内部对文本知识的参数化表示，缺少发展理性所需的现实世界基础和反馈机制。

而在现实生活中，重要的决策很少由个人独立做出，复杂的问题通常需要不同领域专家的合作以确保理性。

类似地，近期在多模态和多智能体框架方面的进步，通过不同代理的共同努力实现集体目标，增强了推理能力。

多模态基础模型通过在更广泛的感官背景下做出决策来增强推理，这与人脑如何整合丰富的感官输入以形成更全面的知识基础相似。

同时，多智能体系统引入了共识、辩论和自我一致性等机制，通过协作交互实现精细和可靠的输出。

这些系统还可以查询外部知识源或工具来增强其推理能力，从而做出理性决策。

本次调查通过汲取认知科学的见解，为重新解释当前多模态及/或多智能体系统背后的动机提供了独特的视角。

我们概述了合理决策的四个基本要求，并探讨了多模态和多主体文献中的各研究领域是如何基于这些标准朝着理性方向发展的。

我们认为这些进展超越了单一语言模型代理的局限，并缩小了代理系统行为与合理决策预期之间的差距。

最后，我们强调现有文献中缺乏足够的评估指标和基准，无法充分衡量LLMs或代理系统的理性。

我们希望这项调查能激发在代理系统和认知科学交叉领域进一步的研究。

理性的定义

理性代理应该真实地看待其所处的世界，并避免在做决策时产生自相矛盾的结论。

基于理性决策制定的一些基础理论，本节采用了一种公理化的方法来定义理性，提出了我们期待理性代理或系统应该遵循的四大基本原则：

基础性：理性代理的决策应建立在现实的物理和事实基础之上。例如，一个视频生成代理应该符合世界模型中的物理规律，而一个预测助理则应按照概率法则来估算可能性。
偏好的排序性：在决策场景中，理性代理能够根据当前情况对不同选项进行排序，并基于预期的结果选择最合适的选项。这种排序性包括可比性、传递性闭包、可解性等几个关键原则，这些原则在附录A中有详细定义。
独立于无关环境：代理在做决策时的偏好，不应受到与决策问题无关信息的影响。
不变性：在面对决策问题的不同表述时，理性代理的偏好应保持一致，不受具体措辞或表现形式的影响。

为什么理性定义是四大基本原则，而不是其他数量，又为何是这四个，而不是其他？

Q1: 为什么理性是四大基本原则，而不是其他数量？
A1: 四大基本原则（基础性、偏好的排序性、独立于无关环境、不变性）被界定为理性的核心，因为它们共同涵盖了理性决策的基础需求：现实基础、偏好的明确性、环境影响的排除以及决策的一致性。这四个原则足以构成一个完整的逻辑框架，确保决策的全面合理性。

Q2: 这四个原则为什么能确保决策的全面合理性？
A2: 每个原则解决决策过程中的一类常见偏误或缺陷。

基础性确保决策与客观事实相符，偏好的排序性帮助明确最优选择，独立于无关环境防止无关因素干扰决策，不变性保证在不同表述或情境下偏好的一致性。

这些原则相互作用，提升决策的理性和效果。

Q3: 为什么需要这样的原则来解决决策中的偏误或缺陷？
A3: 在复杂的决策环境中，人类或机器易受限于知识、情绪、环境等因素的影响，导致非理性的决策。

设定明确的原则帮助系统化地识别和剔除这些非理性因素，从而提高决策的准确性和可靠性。

Q4: 这些原则背后的更深层次原因是什么？
A4: 这些原则基于认知科学、决策理论和逻辑学的深入研究。

它们不仅是理论上的抽象，而是经过长期观察、实验和验证得出的，能有效应对实际决策中的复杂性和不确定性。

Q5: 最根本的原因是什么？
A5: 最根本的原因是追求决策的最大合理性和效率。

在资源有限和信息不完全的现实世界中，制定和遵循这些原则能最大限度地提高决策质量，减少错误和资源浪费。

理性不等于推理

需要强调的是，理性并非等同于推理，尽管两者密切相关。

理性关乎做出符合现实且逻辑连贯的决策；而推理则是指基于可获得的信息进行逻辑推断和得出结论的认知过程。

设想一个输入和输出决策空间都是有限的环境，一个将输入与输出进行一致性映射的查找表本质上是理性的，但这种映射并不必然涉及推理。

虽然这个例子说明了理性可以独立于推理，但在实际应用中，特别是面对复杂多变的真实世界问题时，简单的查找表通常不足以应对，推理在确保决策理性中起着关键作用。

代理需要具备在新情境中进行推理、适应变化环境、制定计划，并在信息不全或不确定的情况下作出理性决策的能力。

通过多模态多智能体系统增强理性

每个领域，例如知识检索或神经符号推理，都关注于满足理性思维的一个或多个基本需求。

这些理性需求通常是相互关联的：强化一个方面的理性通常会同时提升其他方面。

此外，目前多主体系统实现理性的整体机制主要涉及两个核心概念：深思熟虑和抽象化。

深思熟虑倡导一种较慢的、迭代的推理过程，而抽象化则指将问题归纳为其逻辑本质。

深思熟虑鼓励深入的思考过程，如集思广益和反思，而抽象化则是将问题简化到其逻辑本质，比如调用工具的API或整合神经符号推理智能体。

大多数现有研究并未在其原始文献中明确以理性为基础构建其框架。

我们的分析旨在通过四大理性公理的视角重新解读这些研究，提供一种新的视角，将现有的方法与理性原则相结合。

推动基础与不变性

多模态方法旨在通过语言、视觉等多个渠道改善信息的基础。

通过融入多模态代理，多智能体系统的能力得到极大拓展，能够更丰富、更精确且更具上下文意识地解读环境。

多模态基础模型如CLIP、VLBERT和ViLBERT、BLIP-2、Flamingo、LLaVA、CogVLM、MiniGPT-4、GPT-4 Vision和GPT-4o及Gemini 1.5 Pro等，成为多模态代理系统在视觉及其他领域基础知识的基石。

幻觉问题，知识检索和工具使用

有限理性是为认知有限的代理量身定制的概念，指出决策受到手头资源的限制，偏离最优主要因计算能力和有限工作记忆受限。

LLMs的参数性质根本限制了它们能持有的信息量。

因此，在面对不确定性时，LLMs常产生幻觉，生成的输出并不支持环境的实际现实。

检索增强生成（RAG）标志着解决LLMs这一固有局限性的重要里程碑，广义上指的是任何向LLM的输入上下文提供外部知识以帮助其提供最新、事实和基础的信息的机制，尤其是在科学和医疗领域。

此外，大型世界模型是一种先进的人工智能技术，旨在通过模拟现实世界的复杂动态来减少多模态幻觉，即误解或错误地解释多种感官输入（如视觉和语音）。

这种世界模型扮演了核心角色。在这一框架下，AI代理的行为是由实现具体目标所驱动的，代理需要理解世界的运作方式，并能在此基础上作出反应。

这超越了基本的前馈推理（系统1的下意识计算）并进入到更复杂的推理和规划阶段（系统2的活动），以实现设定的目标。

例如，JEPA通过创建一个循环世界模型，在一个抽象的表示空间中模拟世界的动态，以此来培养AI的这种复杂的推理能力。

大型世界模型通过分析视频序列和文本信息，从中提取关于世界如何运作的见解，进而发展成为一种通用的世界模拟器。

然而，尽管这些模型在模拟世界方面取得了一定的进展，它们仍然面临着一些挑战，特别是缺乏一个可靠的物理引擎来确保在模拟现实世界动态时的准确性和可靠性。

这意味着，尽管技术前景广阔，但在完全实现这些高级功能之前，还需要进一步的研究和开发。

还有，许多研究通过构建大规模的知识图谱来扩展LLMs的记忆能力，这些图谱从真实世界的数据源中提取信息，提供一个丰富的知识基础。例如：

MAVEx：通过整合ConceptNet和Wikipedia的知识，提高了系统的得分，并通过跨模态验证进一步提升性能。
ReAct：利用外部知识库显著降低了由幻觉引起的误报率。
MineDojo：使用互联网规模的多模态知识，在创造性任务上显著超越所有基线。
DoraemonGPT 和 SIRI：这些系统通过支持知识工具和构建多视角知识库来增强内容的理解和回答的可解释性。

引入符号逻辑，做可信推理

偏好的连贯有序性是指在决策过程中，智能系统能够根据一致的标准和规则做出选择，保持决策的逻辑一致性和偏好的稳定性。

这对于确保智能系统的输出既可靠又可预测至关重要。

融合符号模块的多代理系统：

这类系统通过整合符号逻辑和规则，提供一个明确和透明的推理框架，使得智能系统不仅能理解语言查询，还能在保持逻辑一致性的基础上做出推理和决策。这是单个大模型所无法达到的，因为LLMs通常缺乏处理复杂逻辑关系和维持长期一致性的能力。

实际应用案例：

Logic-LM：该系统结合了问题构建、符号推理和结果解读代理。它利用符号推理器，为LLMs提供确定性的符号求解器，确保选择始终正确。
此外，它的多代理框架还鼓励自我完善，能够通过接收来自符号推理器的错误反馈来修正逻辑构建错误。
Binder 和 Parsel：这些系统将任务分解为规划、解析和执行阶段，其中符号推理代理帮助系统维持输出中符号选项的连贯偏好顺序。
Parsel的研究发现，绕过符号模块会导致性能显著下降，证明了符号逻辑在保持决策连贯性中的重要性。

提升决策一致性的方法：

通过深思熟虑、辩论和记忆，多智能体系统能够提升偏好的有序性和不变性。
这些系统通过缓慢且审慎的思考过程，使得智能体在做出决策前能够充分考虑各种信息和选项，从而提高决策的理性和一致性。
多轮自我反思和辩论帮助智能体从不同视角审视问题，进一步精炼和优化其决策过程。

偏好的连贯有序性不仅强化了智能系统在面对复杂决策时的逻辑性和一致性，还提高了系统输出的可信度和实用性。

通过融合符号模块和多代理协作，智能系统能够更有效地处理和整合复杂信息，实现高质量的决策输出。

这种方法的发展为智能系统的设计和应用带来了新的可能性，使其在实际操作中更加精确和可靠。

未来研究方向

通过外部手段来增强系统的内在理性

目前将多智能体或多模态系统与大模型结合，并不能自动提升模型的理性。

现有的方法更多地像是一种桥梁，帮助填补LLMs输出与理性思考之间的差距，让多智能体系统在给出回应时表现得更加合理，像是在进行合理的思考。

然而，即使这些系统能产生更合理的回应，如何将这些提升的输出有效地重新整合到LLMs中，使得LLMs在最初的回应中就显示出更高的理性，依然是一个待解决的问题。

选择正确的评估指标非常关键

目前的评估主要关注于最终性能的准确性，而忽略了中间推理步骤和理性的重要性。

尽管已经有一些尝试去评估智能体系统的理性，但这一领域仍缺乏全面和严格的评估指标。

此外，现有的关于理性的基准测试在比较多智能体框架和单智能体基线时，往往未能充分展示多智能体框架的优势。

多模态多智能体系统中的研究潜力巨大

目前在多智能体辩论、协作和神经符号推理等领域，多模态感官输入的潜力还没有得到充分的利用。

通过扩展多模态的角色，不仅限于视觉、听觉和结构化数据，我们可以显著提升多智能体系统的能力和决策的合理性。

这些研究方向为未来的发展开辟了新的视野，强调了理性思考在智能系统中的重要性，并指出了现有方法的局限性和未来研究的重要方向。

最喜欢的路：在Transformer的基础上结合知识图谱、神经符号计算等

https://mp.weixin.qq.com/s/nJwWORorKPwXfuUj6CSQnA

OpenA 也在搞这个，下一代 GPT5 就是实现系统2（深思熟虑）。

多模态多智能体，在实现系统2（深思熟虑）方面的探索

多模态和多智能体，在系统2（深思熟虑）方面的探索