清华新突破||新研究揭示多智能体协作的秘密武器

news2025/3/16 0:44:45

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读

点击订阅:人工智能论文解读合集

8578585ab5efe437c69dda69f69d02fe.jpeg

18d8110ab9f84fe961adae7bbf62255b.jpeg

引言:多智能体协作中的挑战与机遇

在多智能体系统中,智能体需要通过协作来完成复杂的任务,这种协作涉及到通信、协调和决策制定等多个方面。尽管多智能体系统的研究已经取得了一定的进展,但在实际应用中,如何有效地实现智能体之间的协作仍然是一个重大挑战。

一方面,多智能体协作提供了处理复杂问题的新机遇。例如,在灾难响应、自动驾驶、智能制造等领域,多智能体协作能够有效地分配和优化资源,提高系统的整体效率和响应速度。此外,通过集体智慧,多智能体系统能够完成单个智能体难以独立完成的任务,如复杂的搜索和救援任务。

另一方面,多智能体协作也面临着众多挑战。首先,智能体之间的通信可能受到限制,如信号干扰、传输延迟等问题,这些因素都可能影响协作的效率和效果。其次,如何设计有效的协作策略以适应动态变化的环境和任务需求,是另一个需要解决的问题。此外,智能体的自主性和个体差异也可能导致协作中出现冲突和协调困难。

为了克服这些挑战,研究人员提出了多种方法和技术。例如,通过增强智能体的学习和适应能力,使其能够在没有中央控制的情况下自我组织和协调;利用机器学习和优化算法来设计高效的协作策略;以及开发新的通信协议和算法来改善智能体之间的信息交换。

总之,多智能体协作是一个充满挑战和机遇的研究领域。通过不断的技术创新和方法改进,有望在未来实现更加智能和高效的多智能体协作系统,为解决复杂的实际问题提供强有力的支持。

论文标题: Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration

机构: Tsinghua University, Northwestern Polytechnical University, Shanghai AI Laboratory, Zhejiang University, Institute of Artificial Intelligence (TeleAI), China Telecom

论文链接:https://arxiv.org/pdf/2405.14314.pdf

项目地址:https://read-llm.github.io/

理论基础:多智能体系统中的优势函数学习

1. 联合优势函数的定义与估计

在多智能体系统中,联合优势函数是基于联合价值函数和状态价值函数的差异来定义的。具体来说,如果我们考虑一个状态 ( s ) 和一个联合动作 ( a ),联合优势函数 ( A^\pi(s, a) ) 可以表示为 ( Q^\pi(s, a) - V^\pi(s) )。这里,( Q^\pi(s, a) ) 是在给定状态和联合动作下的期望回报,而 ( V^\pi(s) ) 是在给定状态下的期望回报。通过这种方式,优势函数能够衡量采取特定联合动作相对于平均情况的额外价值。

2. 局部优势函数与优势分解

局部优势函数考虑的是在多智能体环境中,单个智能体或一组智能体的动作对整体性能的贡献。通过优势分解,我们可以将联合优势函数分解为各个智能体的局部优势函数之和。这种分解有助于在复杂的多智能体环境中,明确每个智能体动作的独立贡献,从而优化整体策略。局部优势函数的估计通常依赖于蒙特卡洛方法,通过对局部价值函数的采样和回归分析来实现。

Reinforced Advantage (ReAd) 框架介绍

1. ReAd-S 与 ReAd-J 的策略细节

ReAd框架提供了两种策略:ReAd-S和ReAd-J。ReAd-S针对每个智能体单独优化其动作,通过评估每个智能体动作的局部优势函数来进行。而ReAd-J则是在所有智能体之间进行联合计划,优化整体的联合动作,通过评估联合优势函数来实现。这两种策略都利用了一个批评网络来回归估计从大规模语言模型(LLM)计划的数据中学到的优势函数,并将LLM规划器作为优化器,通过提示生成最大化优势值的动作。

2. 理论动机与约束策略搜索问题

ReAd框架的理论基础是在多智能体设置中扩展了加权优势回归。通过这种方法,我们可以将LLM作为基本策略,并搜索比它更强的策略。具体来说,我们的目标是找到一个策略 (\pi),它在期望改进 (\eta(\pi) = J(\pi) - J(\mu)) 方面最大化超过基本策略 (\mu)。通过引入一个替代目标 (\hat{\eta}(\pi)) 来近似 (\eta(\pi)),并形成一个约束策略搜索问题,其中约束确保新策略接近基本策略,从而使得 (\hat{\eta}(\pi)) 成为 (\eta(\pi)) 的一个精确近似。这种方法允许系统在保持策略改进的同时,减少与环境的交互,提高了多智能体协作任务中的效率和效果。

6e414c20e66f0168ddbc6ef5920290a4.jpeg

实验设置与环境介绍

1. DV-RoCoBench 和 Overcooked-AI 环境

DV-RoCoBench 是从 RoCoBench 演变而来的一个更具挑战性的多机器人协作环境。它包括三个任务:扫地、制作三明治和分类立方体,每个任务都有不同的难度级别。例如,在扫地任务中,机器人需要协作将指定颜色的立方体扫入垃圾桶。任务的难度通过增加立方体的数量和目标颜色的立方体数量来逐级增加。

Overcooked-AI 是一个基于流行视频游戏 Overcooked 的全合作多代理基准环境。在这个环境中,代理需要尽快交付汤。每份汤需要放置多达三种成分在锅中,等待一定的时间让汤煮熟,然后由一个代理取出汤并交付。我们选择了两个代表性场景:狭窄的房间和强制协调,这些场景从低级的运动协调挑战到高级的策略协调挑战不等。

2. 实验设计与基线方法

在 DV-RoCoBench 和 Overcooked-AI 的实验中,我们使用 GPT-4-Turbo 作为所有实验的基础 LLM 策略。我们将 ReAd-J 与三个强大的闭环基线方法进行比较:ReAct、Reflexion 和 MindAgent,这些方法都是并行生成代理计划的。在 DV-RoCoBench 中,我们还添加了一个名为 RoCo 的基线,该基线在原始 RoCoBench 中表现出色,用于与 ReAd-S 进行比较。这些方法的输出都是以并行方式生成的。

实验结果与分析

1. 在 DV-RoCoBench 的表现

ReAd-S 和 ReAd-J 在所有指标上均优于对应的强基线,并实现了更有效的 LLM 接地。随着 DV-RoCoBench 中任务难度级别的提高,我们的方法在成功率 (SR) 上的表现逐渐显著优于基线方法。在更难的设置中(例如任务的第4或第5级别),我们的方法获得了更高的成功率,而基线方法未能取得进展。此外,ReAd-S 和 ReAd-J 在 DV-RoCoBench 的大多数任务中展示了较低的环境交互步数 (ES) 和可比或更低的查询次数 (NQ)。

2. 在 Overcooked-AI 的表现

由于 Overcooked-AI 内在的重协调挑战,除非 LLM 规划器生成高度协作的计划,否则基于 LLM 的代理无法推进任务完成。通过用优势函数替换物理验证反馈,我们的方法在 Overcooked-AI 的表现显著优于依赖物理验证反馈的方法。在多代理协作的更具挑战性的场景中,我们的方法展示了卓越的规划能力和更好的 LLM 接地结果。

f43a64f147131acbb3753b230ed60443.jpeg

e4d31609e5b99ca93059542081569e7d.jpeg

策略改进与反馈机制

1. 优势反馈的作用与实现

在多智能体合作任务中,优势反馈(ReAd)通过评估行动的优势函数来优化计划,从而提高了计划的有效性和效率。ReAd方法包括两种方案:ReAd-S和ReAd-J。ReAd-S针对每个智能体的单独行动进行优化,而ReAd-J则对所有智能体的联合行动进行评估。这种反馈机制通过预训练的批评网络来估计生成行动的优势分数,并在分数低于阈值时提示智能体重新计划,从而确保所采取的行动能有效推进任务目标。

2. 策略细化与单步与多步版本的比较

策略细化是ReAd方法中的一个关键环节,它通过多轮优化来提高行动的优势分数,从而提升整体策略的效果。在实验中,对比单步版本(无细化)和多步版本(有细化),多步版本在复杂任务中表现出更高的成功率和效率。单步版本虽然在某些情况下能够达到相对较高的成功率,但通常需要更多的环境交互和查询,而多步版本通过在执行前优化行动计划,显著减少了这些需求。

讨论与未来工作方向

1. ReAd 方法的优势与局限

ReAd方法通过优势反馈机制有效地提升了智能体的计划质量和执行效率,尤其是在多智能体协作任务中。然而,ReAd的实现依赖于准确的优势函数估计,这可能受到数据质量和分布的限制。此外,ReAd在处理突发环境变化时表现出了优越的适应性,但其在更广泛的任务类型和更复杂的环境中的表现仍需进一步验证。

2. 多目标与安全规划的应用展望

未来的工作可以探索将ReAd方法扩展到多目标和安全关键的规划任务中。在多目标规划中,优势反馈可以帮助智能体在满足多种目标的同时优化其行动策略。在安全规划中,通过引入安全约束到优势函数中,ReAd可以在确保任务执行的安全性的同时,提高任务的成功率。此外,结合最新的强化学习理论和技术,如安全强化学习,可能会进一步提升ReAd方法在复杂环境中的应用效果和鲁棒性。

总结:ReAd 在多智能体协作中的应用与影响

Reinforced Advantage (ReAd) 是一种新颖的反馈机制,专为多智能体协作任务中的大型语言模型(LLM)设计。通过在多智能体系统中引入优势函数,ReAd 改进了传统的物理验证反馈方法,提高了任务规划的效率和成功率。

1. ReAd 的工作原理

ReAd 通过两种方案进行计划的优化和细化:顺序个体计划优化(ReAd-S)和联合计划优化(ReAd-J)。ReAd-S 针对每个智能体的动作单独评估优势,而 ReAd-J 则评估所有智能体的联合动作的优势。这些优势函数通过批评网络回归LLM规划的数据来估算。利用这些优势函数,LLM规划器被用作优化器,通过提示生成最大化优势值的动作。

2. ReAd 的理论基础

ReAd 的理论基础扩展了单智能体强化学习中的优势加权回归到多智能体设置。通过优势分解,可以将联合优势函数分解为每个智能体的局部优势,从而在保持策略改进的同时简化了优化过程。

3. ReAd 的实验验证

在 DV-RoCoBench 和 Overcooked-AI 环境中的实验表明,ReAd 在成功率、智能体交互步数和LLM查询轮数方面均优于基线方法。特别是在多智能体协作的复杂场景中,ReAd 通过优势函数反馈,有效地指导了LLM生成更合理的协作计划。

4. ReAd 的优势

与传统的物理验证反馈相比,ReAd 减少了智能体与环境的交互次数,降低了计算成本,并提高了响应速度。此外,ReAd 通过优势反馈机制,能够在遇到突发干扰时迅速调整计划,显示出更强的鲁棒性。

5. ReAd 的未来应用

ReAd 的成功应用展示了其在多智能体协作任务中的潜力,未来可以扩展到多目标和安全规划场景,进一步提高智能体系统的智能化和自动化水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1694907.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二叉树链式结构补充

1.二叉树k层结点个数 2.二叉树查找值为x的结点 3.二叉树基础oj练习 1.二叉树k层结点个数 设置k值,k层到1结点的值是k-1,所以1结点到k层的结点也是k-1的距离(高度),这样就可以每下一层就把k值减少一个单位&#xff0…

MySQL的数据库和表

查看数据库 命令行的方式: cd /mysql/bin mysql.exe -uroot -p IP(不是连接自己) 端口(不是3306) show databases; 直接使用图形化界面点击: 查看库里的表 使用命令行查看: 进入mysql数据库 u…

C++ AVLTree

目录 介绍 节点的定义 AVLTree结构 Insert 插入节点 调节平衡因子 void rotateR(node* parent) void rotateL(node* parent) void rotateRL(node* parent) void rotateLR(node* parent) void InOrder() int height() int size() bool isBalance() 介绍 如果是有序插…

python web自动化(Allure报告)

Allure详细安装请看之前的博客 1.Allure配置与⼊⻔ 运⾏⽤例,⽣成allure报告 pip install allure-pytest -i https://mirrors.aliyun.com/pypi/simple/ 运⾏⽤例,⽣成allure报告 # main.py import os import pytest if __name__ __m…

【排序算法】——归并排序(递归与非递归)含动图

制作不易,三连支持一下吧!!! 文章目录 前言一.归并排序递归方法实现二.归并排序非递归方法实现 前言 这篇博客我们将介绍归并排序的原理和实现过程。 一、归并排序递归方法实现 基本思想: 归并排序(MERGE-…

四元数学习总结(1)

导语:相比矩阵,用四元数处理3D旋转的优势是毋庸置疑的,但由于概念复杂,难于理解,一直令我摸不着头脑。最近学习更是发现在机器人、无人机、SLAM等先进领域,四元数被当成实数、整数这样的基础,所…

jmeter安装SSH插件

安装SSH插件 下载jar包: ApacheJMeter-ssh-1.2.0.jar jsch-0.1.55.jar jar包放在jmeter安装路径 lib下和lib/ext文件夹下: 重启jmeter即可:

BGP选路实验

BGP 选路实验 一、实验拓扑 二、实验要求及分析 实验要求: 1、使用preva1策略,确保R4通过R2到达192.168.10.0/24 2、使用AS_Path策略,确保R4通过R3到达192.168.11.0/24 3、配置MED策略,确保R4通过R3到达192.168.12.0/24 4、…

软考-必须要背的内容

一、设计模式 1、创建型 抽象工厂:提供一个接口,创建一系列的相关相互依赖的对象,无需指定具体的类; eg:系统软件,支持多种数据库 生成器:将一个复杂类的表示与构造相分离,使得相…

PX4使用yolo仿真环境搭建

文章目录 前言一、修改机架sdf文件二、安装yolo三、运行 前言 ubuntu20.04 PX4 1.13.3 已配置好PX4 ROS gazebo环境 一、修改机架sdf文件 将双目相机加到仿真的iris机架上 修改下图文件 添加如下&#xff1a; <include><uri>model://stereo_camera</uri>…

D - AtCoder Wallpaper(abc)

思路&#xff1a;f(c, d) f(a, b) - f(a, d) - f(c, b) 代码&#xff1a; int f(int x, int y){if(y % 2 0){y y / 2;int ans y * (x / 4) * 8;x % 4;if(x 1){ans y * 3;}else if(x 2){ans y * 6;}else if(x 3){ans y * 7;}return ans;}else{y / 2;int ans y * (x…

从零开始搭建Springboot项目脚手架4:保存操作日志

目的&#xff1a;通过AOP切面&#xff0c;统一记录接口的访问日志 1、加maven依赖 2、 增加日志类RequestLog 3、 配置AOP切面&#xff0c;把请求前的request、返回的response一起记录 package com.template.common.config;import cn.hutool.core.util.ArrayUtil; import cn.hu…

Go语言的内存泄漏如何检测和避免?

文章目录 Go语言内存泄漏的检测与避免一、内存泄漏的检测1. 使用性能分析工具2. 使用内存泄漏检测工具3. 代码审查与测试 二、内存泄漏的避免1. 使用defer关键字2. 使用垃圾回收机制3. 避免循环引用4. 使用缓冲池 Go语言内存泄漏的检测与避免 在Go语言开发中&#xff0c;内存泄…

SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?

尼恩&#xff1a;LLM大模型学习圣经PDF的起源 在40岁老架构师 尼恩的读者交流群(50)中&#xff0c;经常性的指导小伙伴们改造简历。 经过尼恩的改造之后&#xff0c;很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会&#x…

力扣刷题---961. 在长度 2N 的数组中找出重复 N 次的元素【简单】

题目描述&#x1f357; 给你一个整数数组 nums &#xff0c;该数组具有以下属性&#xff1a; nums.length 2 * n. nums 包含 n 1 个 不同的 元素 nums 中恰有一个元素重复 n 次 找出并返回重复了 n 次的那个元素。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3,3] 输…

智能猫眼锁核心解决方案以及芯片简介SSD222

书接上回&#xff0c;前篇文章我们诠释了IP 网络摄像系统的定义以及组成部分的功能&#xff0c;也大概的讲了一下所针对的市场以及举例介绍了一款相关芯片&#xff0c;详情可点击下面卡片浏览高集成IP摄像SOC处理方案简介https://blog.csdn.net/Chipsupply/article/details/139…

XILINX FPGA DDR 学习笔记(一)

DDR 内存的本质是数据的存储器&#xff0c;首先回到数据的存储上&#xff0c;数据在最底层的表现是地址。为了给每个数据进行存放并且在需要的时候读取这个数据&#xff0c;需要对数据在哪这个抽象的概念进行表述&#xff0c;我们科技树发展过程中把数据在哪用地址表示。一个数…

【C++】<知识点> 标准模板库STL(上)

文章目录 一、STL---string类 1. 常用构造函数 2. 常用操作 3. 字符串流处理 二、STL---容器 1. STL及基本概念 2. 顺序容器简介 3. 关联容器简介 4. 容器适配器简介 5. 常用成员函数 三、STL---迭代器 1. 普通迭代器 2. 双向、随机访问迭代器 3. 不同容器的迭代器…

项目思考-编辑器

1、文本生成编辑器 2、图片合成编辑器&#xff08;未完待续&#xff09; 3、文字和图像版本的技术要点&#xff0c;区别&#xff08;未完待续&#xff09; 4、编辑器的人员配置考虑&#xff0c;技术难点分析&#xff08;未完待续&#xff09; 1、文本生成编辑器

AI爆文写作:如何找对标账号的文章?告诉你一个秘密:找低粉爆款的抄!这样风险最小!

一、注册新号来训练推荐爆款的素材 首先第一点:强烈推荐注册一个专用个人微信号,通过阅读,点赞和在看等动作,训练算法为我们推荐爆款素材。 二、为什么要对标低分爆款? 2.1 什么是低粉爆款? 就是粉丝量很少,但却有很高阅读量,甚至10万+阅读的文章。 对标账号的文章…