多智能体新进展||斯坦福大学提出新模型‘Hypothetical Minds‘,让AI更懂人类思维

news2024/9/21 20:35:39

a34030e883e7f7bfa0f0eaeb4d69fe60.jpeg

5106d564317a0052d76177f5566c926a.jpeg

AI论文解读轻松掌握AI前沿技术进展,实时追踪AI动态,互动交流,共同成长进步

标题:Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models

作者:Logan Cross, Violet Xiang, Agam Bhatia, Daniel L.K. Yamins, Nick Haber

机构:Stanford University

论文链接:https://arxiv.org/pdf/2407.07086

本文提出了一种名为“Hypothetical Minds”的模型,该模型结合了大语言模型和多智能体强化学习,通过在自然语言处理的框架下生成、评估和细化关于其他智能体策略的假设,来提高智能体在多智能体环境中的表现。该模型在多种竞争性、合作性和混合动机的多智能体环境中均显示出优越的性能,特别是在处理隐藏信息和策略推理方面。

Hypothetical Minds模型简介

1. 模型架构与组件

Hypothetical Minds模型是一个基于大型语言模型(LLM)的自主智能体,它通过整合感知、记忆和两级抽象层次的层次化规划的模块化组件,来应对MARL中的挑战。该模型的架构包括多个认知模块,如感知模块、记忆系统以及理论心智(Theory of Mind, ToM)和子目标(Subgoal)模块,后两者分别负责输出高层次的目标和行动计划

2064f4c8128a7fe0cbdd49e956b08e35.jpeg

2. 理论心智(Theory of Mind, ToM)模块的作用

ToM模块在Hypothetical Minds模型中扮演着核心角色,它通过生成关于其他智能体策略、目标和能力的假设来促进有效的协调或对策。这些假设是以自然语言形式表达的,并嵌入到高层次的规划过程中,以指导智能体的决策。ToM模块不仅生成假设,还负责评估和迭代细化这些假设,通过强化那些能够正确预测其他智能体行为的假设来优化决策过程。此外,ToM模块还能够根据生成的假设动态调整智能体的策略,以适应推断出的其他智能体的策略,从而在多智能体环境中实现更高的奖励和更好的适应性。

模型实现:从假设生成到高级规划

1. 生成假设

在多智能体环境中,理解其他智能体的行为是至关重要的。Hypothetical Minds模型通过其理论心智(Theory of Mind, ToM)模块来生成关于其他智能体策略、目标和能力的假设。这些假设是基于自然语言生成的,使得智能体能够在不直接观察到这些变量的情况下,通过语言的抽象层面进行推理。

79270ea317bbf40fe132b4bed5d0c082.jpeg

2. 假设评估与细化

生成的假设需要通过实际的环境反馈来评估其有效性。ToM模块会对每个假设进行评分,这一过程涉及到预测其他智能体的行为并将预测结果与实际行为进行对比。有效的假设会在模型的记忆中得到强化,而不准确的假设则会被调整或舍弃。这一过程是迭代的,随着更多的交互数据被积累,假设的准确性逐渐提高。

3. 高级规划与执行

在假设验证通过后,ToM模块会利用这些验证过的假设来指导高级规划。这些高级规划不仅包括策略的制定,还涉及到具体行动的序列化,即如何将策略转化为一系列具体的、可执行的行动。这一过程中,智能体需要考虑如何在保持对当前目标的追求的同时,适应环境的变化和其他智能体的策略变动。

实验设计与基准测试

1. Melting Pot基准的多场景测试

Hypothetical Minds模型在Melting Pot多智能体强化学习基准中进行了广泛的测试。这一基准包括多种不同的社会动态和挑战,如合作烹饪、剪刀石头布游戏等。通过这些多样化的测试场景,模型的适应性、策略生成能力以及与其他智能体的交互效果得到了全面的评估。

2. 与基线模型的比较

Hypothetical Minds模型的性能与几个基线模型进行了比较,包括传统的强化学习模型和其他基于LLM的智能体模型。通过这些比较,研究人员能够评估ToM模块在假设生成、评估和细化方面的效果,以及这些功能如何帮助Hypothetical Minds模型在复杂多智能体环境中取得优异的表现。这些比较结果不仅证明了模型的有效性,也突出了理论心智模块在处理复杂社会交互中的重要性。

2a0e05f12737eca48c098c7b5fc5a1a5.jpeg

实验结果与分析

1. 竞争环境中的表现

在“Running With Scissors”(剪刀石头布)的竞争环境中,Hypothetical Minds(HM)模型展现出了显著的优势。该环境要求两名玩家在地图上移动并收集代表剪刀、石头、布的资源。通过与对手进行“交互”,一方将获得正向奖励,而另一方则获得相应的负向奖励。HM模型能够有效地推断对手的策略,并根据这些信息调整自己的策略,从而在多数情况下获得高于基线模型的奖励。特别是在面对多变策略的对手时,HM通过其理论心智模块生成假设,并不断调整策略以适应对手的变化,显示出较强的适应性和策略洞察力。

1c8b8dccd11b0bc35481ecb00244ab4f.jpeg

4b34368d40b9ff0a206aa91944538571.jpeg

2. 协作与混合动机环境的适应性

在“Collaborative Cooking Asymmetric”环境中,两名玩家需要在厨房的两侧合作制作番茄汤。HM模型在所有测试场景中均表现优异,尤其是在与功能性合作伙伴互动时。这表明HM能够根据合作伙伴的能力和行为有效地调整自己的行动策略,优化协作效率。此外,在“Prisoner's Dilemma”(囚徒困境)的混合动机环境中,HM在动态合作伙伴场景中表现尤为突出,能够通过更一致的合作行为和适时的宽恕策略,有效地打破恶性报复循环,实现更高的总体福利。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2042354.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[数据集][图像分类]超声波肾脏结石分类数据集9416张2类别

数据集类型:图像分类用,不可用于目标检测无标注文件 数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):9416 分类类别数:2 类别名称:["normal","stone&…

链表(哈希表,有序表)环形链表确定节点的方式

UnOrderedMap UnSortedMap --> C 哈希表(无序组织) 哈希表如果只有key 没有 value 是HashSet 哈希表如果有key 有 value 是HashMap 哈希表在使用的过程中所有的增删改查都是常数时间(比较大) 如果存放的是基础类型&#xf…

【网络】套接字(socket)编程——TCP版

接着上一篇文章:http://t.csdnimg.cn/GZDlI 在上一篇文章中,我们实现的是UDP协议的,今天我们就要来实现一下TCP版本的 接下来接下来实现一批基于 TCP 协议的网络程序,本节只介绍基于IPv4的socket网络编程 基于 TCP 的网络编程开…

Java基础入门15:算法、正则表达式、异常

算法(选择排序、冒泡排序、二分查找) 选择排序 每轮选择当前位置,开始找出后面的较小值与该位置交换。 选择排序的关键: 确定总共需要选择几轮:数组的长度-1。 控制每轮从以前位置为基准,与后面元素选择…

一招搞定异构联邦学习难题:FedKTL的超高效策略!

【联邦学习】在近年来的深度学习领域中备受关注,它通过在保证数据隐私的前提下,协同多个分散的设备或服务器进行模型训练。联邦学习技术能够在不集中数据的情况下,实现数据共享和模型优化,在医疗、金融和智能设备等领域取得了显著…

Linux|centos7|奇怪的知识|perf命令,系统运行瓶颈分析工具

前言: Linux perf 是 Linux 2.6 后内置于内核源码树中的性能剖析(profiling)工具,它基于事件采样,以性能事件为基础,针对 CPU 相关性能指标与操作系统相关性能指标进行性能剖析,可用于性能瓶颈查找与热点代…

http/sse/websocket 三大协议演化历史以及 sse协议下 node.js express 服务实现打字机案例 负载均衡下的广播实现机制

背景 自从2022年底chatgpt上线后,sse就进入了大众的视野,之前是谁知道这玩意是什么?但是打字机的效果看起来是真的很不错,一度吸引了很多人的趋之若鹜,当然了这个东西的确挺好用,而且实现很简单&#xff0…

Linux环境本地搭建开发工具箱It-Tools并实现公网环境远程使用

文章目录 前言1. 安装Docker2.本地安装部署it-tools3. it-tools工具箱功能—生成docker-compose文件4. 安装cpolar内网穿透5. 固定it-tools公网地址 前言 本篇文章,我们将以Docker方式将IT-Tools部署至本地Linux系统个人服务器,并且结合cpolar内网穿透工…

【无标题】mysql读写分离架构+MyCAT实现读写分离

1、读写分离的目的 数据库负载均衡: 当数据库请求增多时,单例数据库不能够满足业务 需求。需要进行数据库实例的扩容。多台数据库同时相 应请求。也就是说需要对数据库的请求,进行负载均衡 但是由于数据库服务特殊原因,数据库…

安卓用户专属福利:OfficeSuite中文高级版,让你的工作更轻松!

OfficeSuite – 世界顶级移动办公软件!Google Play商店下载最多的办公软件应用,迄今为止,智能手机平台上,功能最强大、兼容性最好的移动Office办公套件。创建,查看和编辑Word,Excel和PowerPoint文档&#x…

mysql主从数据库(5.7版本)与python的交互及mycat

mysql数据库基本操作: [rootm ~]# tar -xf mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 解压压缩包 [rootm ~]# ls anaconda-ks.cfg mysql-5.7.44-linux-glibc2.12-x86_64 mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz [rootm ~]# cp -r mysql-5.7.44-linu…

Ubuntu 批量杀死进程

ps -ef|grep python|grep server|grep -v grep|cut -c 9-16|xargs kill -9这个命令序列是一个在Linux或类Unix系统中使用的脚本片段,用于批量终止(强制杀死)所有与特定条件(这里是包含"python"和"wanghao"的&…

推荐浏览器爬虫插件:Instant Data Scraper 无需写一行代码

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

云计算29-------mysql主从数据库(5.7版本)与python的交互及mycat

mysql数据库基本操作: [rootm ~]# tar -xf mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 解压压缩包 [rootm ~]# ls anaconda-ks.cfg mysql-5.7.44-linux-glibc2.12-x86_64 mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz [rootm ~]# cp -r mysql-5.7.44-lin…

如何判断树上一个点是否在直径上

# 旅游规划 ## 题目描述 W市的交通规划出现了重大问题,市政府下定决心在全市各大交通路口安排疏导员来疏导密集的车流。但由于人员不足,W市市长决定只在最需要安排人员的路口安排人员。 具体来说,W市的交通网络十分简单,由n个…

【Android Git】Mac配置支持 Gitlab、Gitee和阿里云效多平台

前言 在开发过程中,会遇到多平台项目管理问题,需要进行配置支持,常用的平台有Gitlab、Gitee、阿里云效等,本篇文章记录下使用同一邮箱配置支持的过程。 说明 首先认识下id_ras,一个用于SSH(安全外壳协议)…

java判断字符串某字符是否为大写/小写/数字?

Character类提供了很多静态方法,用于处理Unicode字符,如下: 也可以将字符转化成小写字母或大写字母。运用如下: 1是数字返回true a不是大写返回false a是小写返回true a转化成大写字母后为A A转化成小写字母后为a

备战金三银四、金九银十、软件测试面试问答

1、问:你在测试中发现了一个bug,但是开发经理认为这不是一个bug,你应该怎样解决? 首先,将问题提交到缺陷管理库里面进行备案。 然后,要获取判断的依据和标准: 根据需求说明书、产品说明、设计…

压缩软件里的文件名编码

由于默认编码环境不同,打包时正常的文件和目录,在解包时就是乱码了。就拿winrar来说,windows中文版下,默认的编码是GBK 你将一堆文件打包给mac用户或者linux用户,那边的默认编码是UTF8,解压出来文件内容没有…

前端进阶——浏览器篇

浏览器如何工作(一)进程架构 浏览器的工作过程复杂而高效,其核心在于其进程架构的设计。以下是对浏览器进程架构的详细解析: 一、浏览器的主要进程 现代浏览器大多采用多进程多线程的架构,以Chrome浏览器为例&…