MindAgent:基于大型语言模型的多智能体协作基础设施

news2025/1/19 13:01:07

2023-09-18 ,加州大学洛杉矶分校(UCLA)、微软研究院、斯坦福大学等机构共同创建的新型基础设施,目的在评估大型语言模型在游戏互动中的规划和协调能力。MindAgent通过CuisineWorld这一新的游戏场景和相关基准,调度多智能体协作效率,并监督多个智能体同时玩游戏。

一、研究背景

大型语言模型(LLMs)在处理复杂任务方面展现出巨大潜力,从数学推理到专业领域的问答,LLMs的应用范围不断扩大。然而,对于LLMs在多智能体系统中的规划能力,尤其是与人类玩家协作完成任务的能力,研究仍相对不足。

目前遇到困难和挑战:

1、计算成本高:多智能体规划需要同时控制多个智能体,避免冲突并协调完成共享目标,这对计算资源要求极高。

2、上下文长度限制:LLMs在处理多智能体任务时,受限于上下文长度,难以处理复杂的任务序列。

3、非最优计划:尽管LLMs可以通过上下文学习来改进计划,但生成的计划可能并非最优,需要进一步优化。

数据集地址: CuisineWorld

二、让我们一起来看一下CuisineWorld

CuisineWorld是一个虚拟厨房环境中的多智能体调度和协调游戏,用于测试LLMs的多智能体规划能力。

CuisineWorld构建:

1、从社区贡献的维基百科中爬取规则和食谱,简化并修改后形成CuisineWorld的基本版本。

2、包含10种地点(服务台、存储和8种不同的烹饪工具)、27种食材和33种独特的菜品。

CuisineWorld特点:

  • 多任务:包含多种不同的任务,从简单的生鱼片制作到复杂的意大利面烹饪,任务难度逐渐增加。

  • 多智能体:支持多达4个智能体同时协作。需要协调完成尽可能多的菜品订单。

  • 动态任务生成:任务会根据游戏进度动态生成,增加了游戏的挑战性和多样性。

CuisineWorld通过文本界面与LLMs交互,提供游戏状态描述和可能的行动命令。LLMs根据这些信息做出决策,调度智能体完成任务。

基准测试:

  • 引入了新的自动评估指标——协作得分(CoS),用于计算协作效率。

  • 在不同的任务间隔条件下,评估智能体完成任务的能力,CoS得分越高,表示协作效率越高。

MINDAGENT 能够在多智能体系统和人机协作的基础设施中,实现跨越不同领域的复杂任务规划。

CUISINEWORLD 与其他相关基准之间的比较。

CUISINEWORLD 中的行动空间

关于所涉及工具和食材数量、烹饪步骤以及食谱中最大混合量的菜肴分布情况

MINDAGENT 架构的概述:

1、规划技能与工具使用:游戏环境需要多样化的规划技能和工具运用来完成任务。它会发出相关的游戏信息。此模块还会将相关游戏数据转换为结构化文本格式,以便大语言模型(LLMs)进行处理。

2、大语言模型(LLM):我们基础设施的核心组件,负责做出决策,它是多智能体系统的调度器。

3、记忆历史:一种存储实用工具,用于存储相关信息。

4、行动模块:从文本输入中提取行动,并将其转换为特定领域语言。验证特定领域语言(DSLs),确保其在执行时不会引发错误。

展示CuisineWorld中的一个多智能体协作示例,三个智能体正在一起准备混合果汁。

三、让我们一起来看一下CuisineWorld应用场景

比如:有一所职业学校,开设了一门烹饪技能与团队协作的培训课程,旨在帮助学生掌握烹饪技巧的同时,提升他们在团队中的协作能力。学校引入了CuisineWorld这一虚拟厨房游戏作为教学工具。

课程设置

课程时长:共12周,每周2次课,每次课2小时。

学生分组:将学生分成4人一组,每组配备一台电脑,用于运行CuisineWorld游戏。

教学目标:学生能够在团队中高效协作,完成各种烹饪任务,同时掌握基本的烹饪技巧和食谱知识。

课程内容

1、前3周:基础烹饪知识学习

教师通过AR课程引导,向学生介绍厨房的基本设备、工具和食材。

学生在PC端进行实训教学,学习简单的烹饪技巧,如切菜、煮沸等。

在CuisineWorld游戏中,学生独自完成简单的烹饪任务,如制作生鱼片,熟悉游戏界面和操作方式。

2、中间6周:团队协作与任务规划

每组学生开始在CuisineWorld中协作完成更复杂的烹饪任务,如制作意大利面。

教师引导学生讨论如何分配任务,例如谁负责切菜,谁负责烹饪,谁负责摆盘。

学生需要根据游戏中的任务订单,合理安排烹饪步骤和时间,确保在规定时间内完成菜品制作。

教师在旁观察,记录学生在团队协作中的表现,如沟通能力、任务分配合理性等。

3、最后3周:综合实践与评估

学生在CuisineWorld中挑战高级烹饪任务,如制作多道菜的套餐。

教师组织学生进行小组间的烹饪比赛,鼓励学生在比赛中发挥团队协作精神,提高烹饪效率和菜品质量。

通过CuisineWorld的自动评估系统,计算每个小组的协作得分(CoS),并结合教师的观察记录,对学生的团队协作能力和烹饪技能进行综合评估。

CuisineWorld作为一个教育工具不仅提供了一个虚拟的实践平台,还能够通过自动评估系统为教师提供教学反馈,帮助教师更好地了解学生的学习情况,从而优化教学方法。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2278930.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

近红外简单ROI分析matlab(NIRS_SPM)

本次笔记主要想验证上篇近红外分析是否正确,因为叠加平均有不同的计算方法,一种是直接将每个通道的5分钟实时长单独进行叠加平均,另一种是将通道划分为1分钟的片段,将感兴趣的通道数据进行对应叠加平均,得到一个总平均…

开发神器之cursor

文章目录 cursor简介主要特点 下载cursor页面的简单介绍切换大模型指定ai学习的文件指定特定的代码喂给ai创建项目框架文件 cursor简介 Cursor 是一款专为开发者设计的智能代码编辑器,集成了先进的 AI 技术,旨在提升编程效率。以下是其主要特点和功能&a…

电脑风扇声音大怎么办? 原因及解决方法

电脑风扇是电脑的重要组件之一,它的作用是为电脑的各个部件提供冷却,防止电脑过热。然而,有时候我们会发现电脑风扇的声音特别大,不仅影响我们的使用体验,也可能是电脑出现了一些问题。那么,电脑风扇声音大…

SpringBoot错误码国际化

先看测试效果: 1. 设置中文 2.设置英文 文件结构 1.中文和英文的错误消息配置 package com.ldj.mybatisflex.common;import lombok.Getter;/*** User: ldj* Date: 2025/1/12* Time: 17:50* Description: 异常消息枚举*/ Getter public enum ExceptionEnum {//…

软考高级5个资格、中级常考4个资格简介及难易程度排序

一、软考高级5个资格 01、网络规划设计师 资格简介:网络规划设计师要求考生具备全面的网络规划、设计、部署和管理能力;该资格考试适合那些在网络规划和设计方面具有较好理论基础和较丰富从业经验的人员参加。 02、系统分析师 资格简介:系统分…

如何通过 Apache Airflow 将数据导入 Elasticsearch

作者:来自 Elastic Andre Luiz 了解如何通过 Apache Airflow 将数据导入 Elasticsearch。 Apache Airflow Apache Airflow 是一个旨在创建、安排(schedule)和监控工作流的平台。它用于编排 ETL(Extract-Transform-Load&#xff0…

STM32 学习笔记【补充】(十)硬件I2C读写MPU6050

该系列为笔者在学习STM32过程(主线是江科大的视频)中的记录与发散思考。 初学难免有所纰漏、错误,还望大家不吝指正,感谢~ 一、I2C 外设简介 I2C(Inter-Integrated Circuit)是一种多主多从的串行通信协议…

QT信号槽 笔记

信号与槽就是QT中处理计算机外设响应的一种机制 比如敲击键盘、点击鼠标 // 举例: 代码: connect(ls,SIGNAL(sig_chifanla()),ww,SLOT(slot_quchifan())); connect(ls,SIGNAL(sig_chifanla()),zl,SLOT(slot_quchifan()));connect函数:这是…

【React】插槽渲染机制

目录 通过 children 属性结合条件渲染通过 children 和 slot 属性实现具名插槽通过 props 实现具名插槽 在 React 中,并没有直接类似于 Vue 中的“插槽”机制(slot)。但是,React 可以通过 props和 children 来实现类似插槽的功能…

openharmony电源管理子系统

电源管理子系统 简介目录使用说明相关仓 简介 电源管理子系统提供如下功能: 重启服务:系统重启和下电。系统电源管理服务:系统电源状态管理和休眠运行锁管理。显示相关的能耗调节:包括根据环境光调节背光亮度,和根…

数据库(中)11讲

用颜色、有否下划线对应! E-R图

图像去雾数据集的下载和预处理操作

前言 目前,因为要做对比实验,收集了一下去雾数据集,并且建立了一个数据集的预处理工程。 这是以前我写的一个小仓库,我决定还是把它用起来,下面将展示下载的路径和数据处理的方法。 下面的代码均可以在此找到。Auo…

STM32入门教程-示例程序(按键控制LED光敏传感器控制蜂鸣器)

1. LED Blink(闪烁) 代码主体包含:LED.c key.c main.c delay.c(延时防按键抖动) 程序代码如下(涉及RCC与GPIO两个外设): 1.使用RCC使能GPIO时钟 RCC_APB2PeriphClockC…

一本书揭秘程序员如何培养架构思维!

在程序员的职业规划中,成为软件架构师是一个非常有吸引力的选择。但是对于如何才能成为一名架构师,不少同学认为只要代码写得好,就能得到公司提拔,晋升为架构师。 还真不是这样的,如果不具备架构思维,即使…

Flink(十):DataStream API (七) 状态

1. 状态的定义 在 Apache Flink 中,状态(State) 是指在数据流处理过程中需要持久化和追踪的中间数据,它允许 Flink 在处理事件时保持上下文信息,从而支持复杂的流式计算任务,如聚合、窗口计算、联接等。状…

Vue2+OpenLayers实现点位拖拽功能(提供Gitee源码)

目录 一、案例截图 二、安装OpenLayers库 三、代码实现 3.1、初始化变量 3.2、创建一个点 3.3、将点添加到地图上 3.4、实现点位拖拽 3.5、完整代码 四、Gitee源码 一、案例截图 可以随意拖拽点位到你想要的位置 二、安装OpenLayers库 npm install ol 三、代码实现…

2024年博客之星年度评选—创作影响力评审入围名单公布

2024年博客之星活动地址https://www.csdn.net/blogstar2024 TOP 300 榜单排名 用户昵称博客主页 身份 认证 评分 原创 博文 评分 平均 质量分评分 互动数据评分 总分排名三掌柜666三掌柜666-CSDN博客1001002001005001wkd_007wkd_007-CSDN博客1001002001005002栗筝ihttps:/…

NVIDIA发布个人超算利器project digital,标志着ai元年的开启

上图NVIDIA公司创始人兼首席执行官 黄仁勋(Jensen Huang) 这些年被大家熟知的赛博朋克风格一直都是未来的代言词,可以承载人类记忆的芯片,甚至能独立思考的仿生人,现在,随着NVIDIA的project digital发布之后…

(一)afsim第三方库编译

注意:防止奇怪的问题,源码编译的路径最好不要有中文,请先检查各文件夹名 AFSIM版本 Version: 2.9 Plugin API Version: 11 软件环境 操作系统: Kylin V10 SP1 项目构建工具: cmake-3.26.0-linux-aarch6…

2025.1.17——三、SQLi regexp正则表达式|

题目来源:buuctf [NCTF2019]SQLi1 目录 一、打开靶机,整理信息 二、解题思路 step 1:正常注入 step 2:弄清关键字黑名单 1.目录扫描 2.bp爆破 step 3:根据过滤名单构造payload step 4:regexp正则注…