多模态多智能体,在实现系统2(深思熟虑)方面的探索

news2025/4/21 19:35:17

多模态和多智能体,在系统2(深思熟虑)方面的探索

    • 提出背景
      • 理性的定义
      • 为什么理性定义是四大基本原则,而不是其他数量,又为何是这四个,而不是其他?
      • 理性 不等于 推理
    • 通过多模态多智能体系统增强理性
      • 推动基础与不变性
      • 幻觉问题,知识检索和工具使用
      • 引入符号逻辑,做可信推理
      • 未来研究方向
        • 通过外部手段来增强系统的内在理性
        • 选择正确的评估指标非常关键
        • 多模态多智能体系统中的研究潜力巨大
      • 最喜欢的路:在Transformer的基础上结合知识图谱、神经符号计算等

 


论文:https://arxiv.org/pdf/2406.00252

代码:https://github.com/bowen-upenn/MMMA_Rationality

提出背景

大模型在许多任务中展示了令人瞩目的成绩,特别是在模仿人类类似的推理能力方面表现出色。

这些模型利用人类语言的丰富性,来抽象概念、深化思考过程、解读复杂的用户查询,并在决策场景中制定计划和方案。

尽管取得了这些进展,最新研究显示,即使是最先进的LLMs也存在各种非理性行为,如框架效应、确定性效应、过重视偏见和联合谬误。

这种非理性行为削弱了LLMs在医疗、金融和法律等关键领域的实际部署,这些领域极需可靠性和一致性。

对LLMs的事实准确性和可信度的日益关注,突显了迫切需要开发出具有合理推理过程的更优秀的代理或系统。

单一的LLM代理可能会陷入非理性行为,因为它无法超越语言模型内部对文本知识的参数化表示,缺少发展理性所需的现实世界基础和反馈机制。

而在现实生活中,重要的决策很少由个人独立做出,复杂的问题通常需要不同领域专家的合作以确保理性。

类似地,近期在多模态和多智能体框架方面的进步,通过不同代理的共同努力实现集体目标,增强了推理能力。

多模态基础模型通过在更广泛的感官背景下做出决策来增强推理,这与人脑如何整合丰富的感官输入以形成更全面的知识基础相似。

同时,多智能体系统引入了共识、辩论和自我一致性等机制,通过协作交互实现精细和可靠的输出。

这些系统还可以查询外部知识源或工具来增强其推理能力,从而做出理性决策。

本次调查通过汲取认知科学的见解,为重新解释当前多模态及/或多智能体系统背后的动机提供了独特的视角。

我们概述了合理决策的四个基本要求,并探讨了多模态和多主体文献中的各研究领域是如何基于这些标准朝着理性方向发展的。

我们认为这些进展超越了单一语言模型代理的局限,并缩小了代理系统行为与合理决策预期之间的差距。

最后,我们强调现有文献中缺乏足够的评估指标和基准,无法充分衡量LLMs或代理系统的理性。

我们希望这项调查能激发在代理系统和认知科学交叉领域进一步的研究。

理性的定义

理性代理应该真实地看待其所处的世界,并避免在做决策时产生自相矛盾的结论。

基于理性决策制定的一些基础理论,本节采用了一种公理化的方法来定义理性,提出了我们期待理性代理或系统应该遵循的四大基本原则:

  • 基础性:理性代理的决策应建立在现实的物理和事实基础之上。例如,一个视频生成代理应该符合世界模型中的物理规律,而一个预测助理则应按照概率法则来估算可能性。
  • 偏好的排序性:在决策场景中,理性代理能够根据当前情况对不同选项进行排序,并基于预期的结果选择最合适的选项。这种排序性包括可比性、传递性闭包、可解性等几个关键原则,这些原则在附录A中有详细定义。
  • 独立于无关环境:代理在做决策时的偏好,不应受到与决策问题无关信息的影响。
  • 不变性:在面对决策问题的不同表述时,理性代理的偏好应保持一致,不受具体措辞或表现形式的影响。

为什么理性定义是四大基本原则,而不是其他数量,又为何是这四个,而不是其他?

Q1: 为什么理性是四大基本原则,而不是其他数量?
A1: 四大基本原则(基础性、偏好的排序性、独立于无关环境、不变性)被界定为理性的核心,因为它们共同涵盖了理性决策的基础需求:现实基础、偏好的明确性、环境影响的排除以及决策的一致性。这四个原则足以构成一个完整的逻辑框架,确保决策的全面合理性。

Q2: 这四个原则为什么能确保决策的全面合理性?
A2: 每个原则解决决策过程中的一类常见偏误或缺陷。

基础性确保决策与客观事实相符,偏好的排序性帮助明确最优选择,独立于无关环境防止无关因素干扰决策,不变性保证在不同表述或情境下偏好的一致性。

这些原则相互作用,提升决策的理性和效果。

Q3: 为什么需要这样的原则来解决决策中的偏误或缺陷?
A3: 在复杂的决策环境中,人类或机器易受限于知识、情绪、环境等因素的影响,导致非理性的决策。

设定明确的原则帮助系统化地识别和剔除这些非理性因素,从而提高决策的准确性和可靠性。

Q4: 这些原则背后的更深层次原因是什么?
A4: 这些原则基于认知科学、决策理论和逻辑学的深入研究。

它们不仅是理论上的抽象,而是经过长期观察、实验和验证得出的,能有效应对实际决策中的复杂性和不确定性。

Q5: 最根本的原因是什么?
A5: 最根本的原因是追求决策的最大合理性和效率。

在资源有限和信息不完全的现实世界中,制定和遵循这些原则能最大限度地提高决策质量,减少错误和资源浪费。

 

理性 不等于 推理

需要强调的是,理性并非等同于推理,尽管两者密切相关。

理性关乎做出符合现实且逻辑连贯的决策;而推理则是指基于可获得的信息进行逻辑推断和得出结论的认知过程。

设想一个输入和输出决策空间都是有限的环境,一个将输入与输出进行一致性映射的查找表本质上是理性的,但这种映射并不必然涉及推理。

虽然这个例子说明了理性可以独立于推理,但在实际应用中,特别是面对复杂多变的真实世界问题时,简单的查找表通常不足以应对,推理在确保决策理性中起着关键作用。

代理需要具备在新情境中进行推理、适应变化环境、制定计划,并在信息不全或不确定的情况下作出理性决策的能力。

通过多模态多智能体系统增强理性

每个领域,例如知识检索或神经符号推理,都关注于满足理性思维的一个或多个基本需求。

这些理性需求通常是相互关联的:强化一个方面的理性通常会同时提升其他方面。

此外,目前多主体系统实现理性的整体机制主要涉及两个核心概念:深思熟虑和抽象化。

深思熟虑倡导一种较慢的、迭代的推理过程,而抽象化则指将问题归纳为其逻辑本质。

深思熟虑鼓励深入的思考过程,如集思广益和反思,而抽象化则是将问题简化到其逻辑本质,比如调用工具的API或整合神经符号推理智能体。

大多数现有研究并未在其原始文献中明确以理性为基础构建其框架。

我们的分析旨在通过四大理性公理的视角重新解读这些研究,提供一种新的视角,将现有的方法与理性原则相结合。

推动基础与不变性

多模态方法旨在通过语言、视觉等多个渠道改善信息的基础。

通过融入多模态代理,多智能体系统的能力得到极大拓展,能够更丰富、更精确且更具上下文意识地解读环境。

多模态基础模型如CLIP、VLBERT和ViLBERT、BLIP-2、Flamingo、LLaVA、CogVLM、MiniGPT-4、GPT-4 Vision和GPT-4o及Gemini 1.5 Pro等,成为多模态代理系统在视觉及其他领域基础知识的基石。

幻觉问题,知识检索和工具使用

有限理性是为认知有限的代理量身定制的概念,指出决策受到手头资源的限制,偏离最优主要因计算能力和有限工作记忆受限。

LLMs的参数性质根本限制了它们能持有的信息量。

因此,在面对不确定性时,LLMs常产生幻觉,生成的输出并不支持环境的实际现实。

检索增强生成(RAG)标志着解决LLMs这一固有局限性的重要里程碑,广义上指的是任何向LLM的输入上下文提供外部知识以帮助其提供最新、事实和基础的信息的机制,尤其是在科学和医疗领域。

此外,大型世界模型是一种先进的人工智能技术,旨在通过模拟现实世界的复杂动态来减少多模态幻觉,即误解或错误地解释多种感官输入(如视觉和语音)。

这种世界模型扮演了核心角色。在这一框架下,AI代理的行为是由实现具体目标所驱动的,代理需要理解世界的运作方式,并能在此基础上作出反应。

这超越了基本的前馈推理(系统1的下意识计算)并进入到更复杂的推理和规划阶段(系统2的活动),以实现设定的目标。

例如,JEPA通过创建一个循环世界模型,在一个抽象的表示空间中模拟世界的动态,以此来培养AI的这种复杂的推理能力。

大型世界模型通过分析视频序列和文本信息,从中提取关于世界如何运作的见解,进而发展成为一种通用的世界模拟器。

然而,尽管这些模型在模拟世界方面取得了一定的进展,它们仍然面临着一些挑战,特别是缺乏一个可靠的物理引擎来确保在模拟现实世界动态时的准确性和可靠性。

这意味着,尽管技术前景广阔,但在完全实现这些高级功能之前,还需要进一步的研究和开发。

 
还有,许多研究通过构建大规模的知识图谱来扩展LLMs的记忆能力,这些图谱从真实世界的数据源中提取信息,提供一个丰富的知识基础。例如:

  • MAVEx:通过整合ConceptNet和Wikipedia的知识,提高了系统的得分,并通过跨模态验证进一步提升性能。
  • ReAct:利用外部知识库显著降低了由幻觉引起的误报率。
  • MineDojo:使用互联网规模的多模态知识,在创造性任务上显著超越所有基线。
  • DoraemonGPTSIRI:这些系统通过支持知识工具和构建多视角知识库来增强内容的理解和回答的可解释性。

引入符号逻辑,做可信推理

偏好的连贯有序性是指在决策过程中,智能系统能够根据一致的标准和规则做出选择,保持决策的逻辑一致性和偏好的稳定性。

这对于确保智能系统的输出既可靠又可预测至关重要。

融合符号模块的多代理系统

  • 这类系统通过整合符号逻辑和规则,提供一个明确和透明的推理框架,使得智能系统不仅能理解语言查询,还能在保持逻辑一致性的基础上做出推理和决策。这是单个大模型所无法达到的,因为LLMs通常缺乏处理复杂逻辑关系和维持长期一致性的能力。

实际应用案例

  • Logic-LM:该系统结合了问题构建、符号推理和结果解读代理。它利用符号推理器,为LLMs提供确定性的符号求解器,确保选择始终正确。
  • 此外,它的多代理框架还鼓励自我完善,能够通过接收来自符号推理器的错误反馈来修正逻辑构建错误。
  • BinderParsel:这些系统将任务分解为规划、解析和执行阶段,其中符号推理代理帮助系统维持输出中符号选项的连贯偏好顺序。
  • Parsel的研究发现,绕过符号模块会导致性能显著下降,证明了符号逻辑在保持决策连贯性中的重要性。

提升决策一致性的方法

  • 通过深思熟虑、辩论和记忆,多智能体系统能够提升偏好的有序性和不变性。
  • 这些系统通过缓慢且审慎的思考过程,使得智能体在做出决策前能够充分考虑各种信息和选项,从而提高决策的理性和一致性。
  • 多轮自我反思和辩论帮助智能体从不同视角审视问题,进一步精炼和优化其决策过程。

偏好的连贯有序性不仅强化了智能系统在面对复杂决策时的逻辑性和一致性,还提高了系统输出的可信度和实用性。

通过融合符号模块和多代理协作,智能系统能够更有效地处理和整合复杂信息,实现高质量的决策输出。

这种方法的发展为智能系统的设计和应用带来了新的可能性,使其在实际操作中更加精确和可靠。

未来研究方向

通过外部手段来增强系统的内在理性

目前将多智能体或多模态系统与大模型结合,并不能自动提升模型的理性。

现有的方法更多地像是一种桥梁,帮助填补LLMs输出与理性思考之间的差距,让多智能体系统在给出回应时表现得更加合理,像是在进行合理的思考。

然而,即使这些系统能产生更合理的回应,如何将这些提升的输出有效地重新整合到LLMs中,使得LLMs在最初的回应中就显示出更高的理性,依然是一个待解决的问题。

选择正确的评估指标非常关键

目前的评估主要关注于最终性能的准确性,而忽略了中间推理步骤和理性的重要性。

尽管已经有一些尝试去评估智能体系统的理性,但这一领域仍缺乏全面和严格的评估指标。

此外,现有的关于理性的基准测试在比较多智能体框架和单智能体基线时,往往未能充分展示多智能体框架的优势。

多模态多智能体系统中的研究潜力巨大

目前在多智能体辩论、协作和神经符号推理等领域,多模态感官输入的潜力还没有得到充分的利用。

通过扩展多模态的角色,不仅限于视觉、听觉和结构化数据,我们可以显著提升多智能体系统的能力和决策的合理性。

这些研究方向为未来的发展开辟了新的视野,强调了理性思考在智能系统中的重要性,并指出了现有方法的局限性和未来研究的重要方向。

最喜欢的路:在Transformer的基础上结合知识图谱、神经符号计算等

https://mp.weixin.qq.com/s/nJwWORorKPwXfuUj6CSQnA

OpenA 也在搞这个,下一代 GPT5 就是实现系统2(深思熟虑)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

el-table 表格序号列前端实现递增,切换分页不从头开始

<el-table-column type"index" width"55" label"序号" :index"hIndex"> </el-table-column> 分页 <el-pagination size-change"handleSizeChange" current-change"handleCurrentChange"> <…

【Linux】动态库|静态库|创建使用|动态库加载过程

目录 ​编辑 前言 静态库 为什么要使用库(形成原理 ) 生成一个静态库 静态库的使用 动态库 生成一个动态库 动态库的使用 解决方法 动态库加载过程 ​编辑 前言 库&#xff08;Library&#xff09;是一种方式&#xff0c;可以将代码打包成可重用的格式&#xff08;站…

OrionX:革新GPU资源管理,助力AI开发团队高效运作

您的AI开发团队是否经常陷入这样的窘境&#xff1a; 人多卡少&#xff0c;GPU资源难以满足每个成员的需求&#xff1f; 当开发环境中需要变更GPU卡配置时&#xff0c;流程繁琐不堪&#xff0c;不得不关闭容器、重新配置再重启&#xff1f; 是否曾因GPU卡分配后未被充分利用而…

简单好用的DX修复工具下载|修复丢失损坏的DLL文件

DirectX是被广泛运用于游戏和多媒体应用程序的一种重要组件&#xff0c;它可以提供优良的视觉效果和音频体验。很多用户在使用计算机时或多或少会遇到因为DirectX缺失而导致相关问题。例如&#xff1a;系统故障、图形渲染错误、音频失真等问题。 今天小编将深入浅出地为大家讲…

在循环语句里面element重复提示最后一条的解决办法

做项目时遇到了个问题&#xff0c;要求把时间重叠的每个阶段都提示出来 但是发现$message的提示框不仅都重合在一起 并且数据内容只是最后一次循环出来的信息如下图 首先解决样式重合问题 这里我就用的是简单粗暴的方法加个定时器 这样重合问题就可以解决其次是提示内容只是最后…

删除分区 全局索引 drop partition global index Statistics变化

1.不一定unusable&#xff0c;可以先删除data (index 再删除过程中会更新结构)再drop/truncate. ---------------------- CREATE TABLE interval_sale ( prod_id NUMBER(6) , cust_id NUMBER , time_id DATE ) PARTITION BY RANGE (time_i…

前端面试宝典【HTML篇】【4】

欢迎来到《前端面试宝典》,这里是你通往互联网大厂的专属通道,专为渴望在前端领域大放异彩的你量身定制。通过本专栏的学习,无论是一线大厂还是初创企业的面试,都能自信满满地展现你的实力。 核心特色: 独家实战案例:每一期专栏都将深入剖析真实的前端面试案例,从基础知…

C++回顾——虚析构

一、示例代码 #include<iostream> using namespace std;class Weapon { public:virtual void getWeapon() 0;//virtual ~Weapon() default; };class bow :public Weapon { public:void getWeapon() override{cout << "弓箭 " << ends;}~bow(){c…

支持对接OpenAI、Ollama和本地向量模型,MaxKB开源知识库问答系统发布v1.4.0版本

2024年8月1日&#xff0c;MaxKB开源知识库问答系统正式发布v1.4.0版本。在这一版本中&#xff0c;MaxKB的社区版支持对接OpenAI、Ollama和本地的向量模型&#xff0c;并且支持设置模型的使用权限&#xff0c;同时MaxKB还支持知识库自定义向量模型。 自v1.4.0版本开始&#xff…

坐牢第二十一天 20240801(IO)

一.作业 1、使用两个线程完成两个文件的拷贝&#xff0c;分支线程1拷贝前一半&#xff0c;分支线程2拷贝后一半&#xff0c;主线程回收两个分支线程的资源 #include <myhead.h> struct Node {char *src;char *dest;int start;int len; }; //定义求源文件大小的函数 int…

python爬虫初识

一、什么互联网 互联网&#xff08;Internet&#xff09;是全球范围内最大的计算机网络&#xff0c;它将数以百万计的私人、公共、学术、商业和政府网络通过一系列标准通信协议&#xff08;如TCP/IP&#xff09;连接起来形成的一个庞大的国际网络。 互联网的起源可以追溯到196…

【C++】1.C++入门(1)

文章目录 1.C关键字2.命名空间2.1 命名空间定义2.2 命名空间使用 3.C输入&输出4.缺省参数4.1 缺省参数概念4.2 缺省参数分类 5.函数重载5.1 函数重载概念5.2 C支持函数重载的原理--名字修饰(name Mangling) 1.C关键字 C总计63个关键字&#xff0c;C语言32个关键字 2.命名空…

0206创建场景状态的基础接口

一、创建一个类 二、写一个类&#xff0c;作为接口类的作用&#xff08;不一定是interface&#xff09;

ctfshow 大赛原题 web689--web695

web689 <?php error_reporting(0); if(isset($_GET) && !empty($_GET)){$url $_GET[file];$path "upload/".$_GET[path];}else{show_source(__FILE__);exit(); }if(strpos($path,..) > -1){ //检查 $path 是否包含 ..&#xff0c;以防止路径注…

Podman 发布 v5.2.0-RC3

这是 v5.2.0 的最终候选版本。以下是初步的发布说明。 功能 Podman 现在支持使用 libkrun 作为在 MacOS 上创建虚拟机的后端。libkrun 后端的优势在于允许将 GPU 挂载到虚拟机中以加速任务。默认后端仍然是 applehv。Quadlet 现在支持.build 文件&#xff0c;这使得可以由 Quad…

2024PDF编辑工具新趋势:从基础到高级的全方位方案

随着数字化办公的发展&#xff0c;我们对PDF编辑的需求也日益增长。从最开始对文字的修改到现在可以插入音频、视频文件。这些都离不开PDF编辑软件的功劳&#xff0c;那有什么好用的PDF编辑工具呢&#xff0c;听我娓娓道来。 1.福昕PDF编辑器 直达链接&#xff1a;https://e…

【轨物方案】分布式光伏电站运维智能化升级方案

分布式光伏电站从2010年开始在国内推广&#xff0c;到2022年底&#xff0c;全国工商业分布式光伏电站装机容量为157.62GW&#xff0c;并且新增装机量逐年递增。以1MW/电站计算&#xff0c;保守估计全国至少已有十几万个工商业分布式光伏电站。 这些电站的运维工作是往往交给专业…

百度松果菁英班作业整理(第一期)

本期的题目比较简单&#xff0c;最后两题稍微复杂&#xff0c;但是主题思路也不难&#xff0c;大家可以一起练习。 孪生质数 在质数中&#xff0c;若两个质数之差为2,我们称之为孪生质数,例如(3、5)(5、7)&#xff0c;输入2个正整数&#xff0c;判断他是不是孪生质数,输出YE…

大数据技术原理-MapReduce的应用

摘要 本实验报告详细阐述了在“大数据技术原理”课程中进行的MapReduce编程实验。实验环境基于Hadoop平台和Ubuntu操作系统。实验的核心内容包括使用MapReduce编程模型实现文件的合并去重、排序以及对给定表格信息的挖掘。实验过程中&#xff0c;我们首先在Hadoop分布式文件系…