清华新突破,360°REA重塑多智能体系统:全方位提升复杂任务表现

news2024/11/15 23:52:52

427f0dcb2e9019068901c9a326326ca9.jpeg

引言:多智能体系统的新篇章——360°REA框架

在多智能体系统的研究领域,最新的进展揭示了一种全新的框架——360°REA(Reusable Experience Accumulation with 360° Assessment)。这一框架的提出,不仅是对现有系统的一次重大改进,也为未来的智能体系统设计提供了新的方向。360°REA框架的核心在于通过全方位的评估和经验积累,提升智能体处理复杂任务的能力。它借鉴了现代企业组织中的绩效评估和员工经验积累机制,将其应用于智能体的性能提升中。

标题:360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System

作者:Shen Gao1†, Hao Li2†, Zhengliang Shi2, Chengrui Huang1, Quan Tu3, Zhiliang Tian4*, Minlie Huang5, Shuo Shang1

论文链接:https://arxiv.org/pdf/2404.05569.pdf


360°REA框架概述:灵感来源与框架目标

360°REA框架的灵感来源于企业组织中的360度绩效评估方法。在企业管理中,绩效评估不仅仅是为了打分或者奖惩员工,更重要的是通过评估帮助员工反思工作,从而提升他们履行角色的能力。360度评估是一个全面的过程,涉及从同事、上司甚至外部来源收集对员工行为的评价。越来越多的商业组织将360度评估纳入绩效评价和雇佣决策中,如薪酬和晋升。

受此启发,360°REA框架旨在帮助智能体基于评估结果积累经验,使其在后续任务中表现更佳。这一设计原则强调了帮助智能体提升能力的重要性,而不仅仅是评估或从系统中移除表现不佳的智能体。因此,设计一种智能体评估和能力学习机制,成为多智能体系统设计中的一个挑战。

360°REA框架的目标是通过模仿组织结构、员工绩效评估和公司内部的经验积累,提升智能体处理复杂任务的性能。框架采用了层级结构来组织智能体,领导智能体负责分配任务和角色给执行智能体,而执行智能体协作完成给定任务。为了评估每个执行智能体的表现,360°REA引入了一种新颖的360度性能评估方法,该方法采用多维度评价,从同伴层面和监督层面对智能体进行细粒度的评估。此外,为了实现更好的智能体性能,提出了双层经验池,帮助智能体在处理复杂任务时积累有用的经验。

06e3ac8f457a590c7438c7c0b81eaba5.jpeg


多维度性能评估:360°性能评估法的创新之处

1. 同伴评估与自我评估

在多维度性能评估的实践中,360°性能评估法的创新之处在于它不仅仅依赖于自我评估,而是引入了同伴评估的维度。这种方法允许同一团队中的代理(crew agents)相互评价,从而提供了一个更全面的性能反馈。每个代理在完成其子任务后,会接受来自其他代理的反馈,这些反馈将用于修正其对子任务的响应。通过这种方式,代理能够在多个回合中不断完善其响应,从而提高其输出的质量。例如,在一个旅行规划任务中,一个代理可能会评估另一个代理提出的旅行计划,并给出建议,如何使计划更符合特定的评估标准,如个性化、新颖性和正确性。

2. 领导者评估的重要性

除了同伴评估,360°性能评估法还强调了领导者评估的重要性。在这个框架中,领导者代理(leader agent)负责对团队成员的表现进行评估,并提供从全局视角出发的反馈。这种监督层面的评估有助于代理从更宏观的角度理解问题,从而在解决复杂任务时提供更有价值的指导。例如,领导者代理可能会评估一个代理在处理子任务时的表现,并根据任务指令提供反馈,帮助代理更好地理解其在整个任务中的角色和贡献。


双层经验池的设计:本地与全局经验的积累

1. 本地经验池的构建与作用

本地经验池是为每个代理个体设计的,它汇集了代理在完成当前子任务过程中的经验。这些经验是基于360°性能评估的多轮反馈总结而来的,旨在帮助代理在下一个回合中取得更好的结果。例如,一个代理在接收到同伴的反馈后,会反思并总结出本地经验,这些经验可能包括如何改进其旅行计划的个性化或如何确保计划的可行性。

2. 全局经验池的构建与作用

全局经验池则是为整个多代理系统设计的,它从每个代理的最终响应和评估者的反馈中构建可复用的经验。这些经验涵盖了整个任务解决过程中的高层次技能,有助于整个团队在处理类似任务时的性能提升。例如,领导者代理在任务完成后,会从评估者的反馈中学习经验,总结出如何在未来的任务中更好地协调团队,以及如何平衡任务的可行性和活动的多样性。


实验设计与数据集介绍:验证360°REA的有效性

为了验证360°REA框架的有效性,我们在两个广泛使用的复杂任务数据集上进行了广泛的实验。这些数据集包括创意写作和旅行计划制定任务。在创意写作任务中,我们使用了Trivia Creative Writing数据集,该数据集要求生成一个故事来覆盖所需的输入。在旅行计划制定任务中,我们使用了Trip Planning数据集,该数据集包含了50个世界著名景点的旅行计划,这些计划是基于目的地特点生成的具体要求。通过这些实验,我们能够展示360°REA在多个复杂任务上相较于现有基准的优势,同时也证实了综合评估和经验积累对于提升多代理系统性能的重要性。


综合评估指标:如何衡量任务完成的质量

在多代理系统中,衡量任务完成的质量是一个复杂的过程,需要从多个维度进行考量。360°REA框架通过引入360°绩效评估方法,提供了一种全面的评价机制。这种评估方法不仅仅局限于自我反思,而是包括来自同伴和上级的评价,从而提供了更有价值的反馈。具体来说,评估指标包括以下几个方面:

1. 自我评估(Self-level Assessment):代理根据自己的响应进行自我反思,以此来评估自己的表现。

2. 同伴评估(Peer-level Assessment):在基于LLM的多代理系统中,代理之间的合作是常见的。通过同伴评估,代理可以从其他任务的角度评价智能代理的表现,从而获得更全面的评价。

3. 上级评估(Supervisory-level Assessment):领导代理可以从更全局的角度评估每个代理完成子任务的表现,并协助他们更好地解决问题。

通过这三种评估方式,代理能够从不同的角度获得反馈,并据此改进自己的表现。此外,360°REA还引入了双层经验池(dual-level experience pool),帮助代理基于评估结果收集有用的经验,从而在处理类似任务时表现得更好。


基线模型与对比实验:360°REA与现有方法的比较

在进行实验对比时,我们选择了几种基线模型进行比较,以验证360°REA的有效性。这些基线模型包括:

GPT-4:OpenAI的封闭源LLM,使用单一指令进行上下文学习。

Mistral:开源LLM,使用专家混合版本Mistral-medium。

OKR:一个层次化的多代理协作框架,通过分解目标到多个子目标,并基于关键结果和代理责任分配新代理。

SPP:Solo Performance Prompting,将单一LLM转化为通过多个角色进行多轮自我协作的认知协同者。

在对比实验中,360°REA展示了在处理复杂任务时的优势。通过在两个广泛使用的复杂任务数据集上进行的实验,360°REA在多个评估指标上均优于这些基线模型。

52131dbe5e750bb3029382611376d3ed.jpeg


人类评估与消融研究:360°REA的实际效果分析

为了进一步验证360°REA生成答案的有效性,我们还进行了人类评估。在创意写作任务中,我们评估了故事的连贯性和创造性;在旅行计划制作任务中,我们评估了计划的正确性和定制性。通过雇佣具有学士学位的受过教育的注释者进行双盲注释,我们发现360°REA在所有方面都优于强大的多代理基线SPP和GPT-4。

此外,我们还进行了消融研究,以验证360°REA中每个模块的有效性。通过移除双层经验池或不进行所有层次的评估,我们发现这些变体模型的性能下降,这表明使用双层经验池和进行全层次评估的必要性。

通过这些实验,我们可以看到360°REA不仅在自动评估指标上表现出色,而且在人类评估中也得到了验证,证明了其在处理复杂任务时的实际效果。

0c22346c46b5d5f79788c6c26ead5eae.jpeg


案例研究:360°REA在创意写作任务中的应用

在探索360°REA(Reusable Experience Accumulation with 360° Assessment)的实际应用中,我们选择了创意写作任务作为案例研究的对象。创意写作任务的复杂性在于它不仅需要语言模型生成连贯和吸引人的故事,还要求故事内容能够与特定的问题或要求相匹配。

10303ca4909601d19f4a605b1243e126.jpeg

在这个案例中,我们使用了Trivia Creative Writing数据集,该数据集包含100个样本,每个样本都要求生成一个故事来覆盖所需的输入。360°REA的应用展示了其在处理此类任务时的有效性。通过360°性能评估和双层经验池的结合,360°REA能够帮助语言模型代理(agents)从评估反馈中积累经验,并在类似任务中表现出更好的性能。

在一个具体的创意写作任务中,360°REA框架的应用涉及到了多个代理的协作。首先,领导代理(leader agent)根据用户输入的查询分配任务和角色给执行代理(crew agents)。执行代理根据指令生成响应,然后通过360°性能评估进行多轮迭代,以此改进他们的输出。在这个过程中,执行代理不仅接受来自同伴的评价,还会从领导代理那里获得全局视角的反馈。

通过这种方式,每个代理都能够在完成子任务时获得更细致的反馈,并将这些反馈转化为本地经验(local experience),同时领导代理也会从最终结果中总结出全局经验(global experience)。这些经验被存储在双层经验池中,供未来类似任务的解决方案使用。

案例中的一个具体故事生成任务要求代理围绕《塞尔达传说》编写一个短小精悍的故事,并且要融合对以下五个问题的回答:哪位英国君主著名地说过“我不希望打开人们灵魂的窗户”?哪位英国歌手在1986年电影《迷宫》中扮演了Jareth the Goblin King?1987年的电影《自由之声》是关于哪位南非民权领袖的传记剧?哪位英国女演员在1997年电影《无言以对》中扮演了Valerie?1959年、1960年和1964年在温布尔登女子单打决赛中获胜的巴西选手叫什么名字?

通过360°REA框架,代理能够生成一个包含了所有必要元素的连贯故事,同时也展示了它在提高故事情节丰富性、逻辑性和流畅性方面的优势。这个案例不仅证明了360°REA在创意写作任务中的有效性,也展示了其在提升语言模型处理复杂任务能力方面的潜力。


结论与未来展望:360°REA的意义与发展方向

360°REA代表了一个重要的步骤,它通过引入全面的代理性能评估策略和双层经验池,显著提升了基于大型语言模型(LLM)代理在处理复杂任务方面的能力。与仅侧重于团队优化或自我反思的现有方法不同,360°REA提供了多视角和细粒度的反馈,使代理能够从自我、同伴和监督级别获得宝贵的见解。

通过在复杂任务数据集上的实验,360°REA展示了其在与最先进基准相比时的卓越性能。通过强调全面评估和经验积累的重要性,360°REA为基于LLM的多代理系统的发展提供了一个实用且有影响力的框架,为解决复杂任务提供了一种新的方向。

尽管360°REA已经取得了显著的成果,但我们认识到未来的发展方向还包括将多模态信息(如图像和视频)融入到框架中。考虑到现有的多模态LLM能够理解文本和多模态信息,我们的多代理框架可以适应许多复杂任务中的多模态输入。因此,我们计划在未来的工作中将多模态信息纳入我们的框架。


安全性与伦理考量:人工审核与多模态数据的融合展望

在构建基于LLM的多代理协作框架时,我们必须考虑到安全性和伦理问题。尽管LLM在通过人类反馈进行强化学习(RLHF)阶段已经与人类价值观和偏好对齐,从而降低了生成不道德内容的可能性,但现有的LLM仍然无法完全防止生成有害内容。因此,多代理协作框架生成的答案在使用前仍需要进一步的人类专家验证。

展望未来,我们认识到在多模态数据日益普及的今天,人工审核与多模态数据的融合将成为一个重要的研究方向。我们将探索如何结合人工智能和人类智慧,以确保生成的内容不仅在技术上先进,而且在伦理上负责任。这将涉及到开发新的工具和方法,以便更好地理解和管理多模态数据中的复杂性,同时确保我们的技术创新能够为社会带来积极的影响。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1615714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

模块三——二分:704.二分查找

文章目录 前言二分查找算法简介特点学习中的侧重点算法原理模板 题目描述算法原理解法一:暴力解法解法二:二分查找算法算法流程细节问题循环结束的条件为什么是正确的?时间复杂度 代码实现 前言 本系列博客是逐渐深入的过程,建议…

函数的内容

一,概念 封装一份可以被重复执行的代码块,让大量代码重复使用 二,函数使用 大体分两步:声明函数,调用函数 声明函数有关键字:function 函数名(){ 函数体 } 为基本格式&#xf…

代码随想录算法训练营第四十八天| 198.打家劫舍,213.打家劫舍II,337.打家劫舍III

题目与题解 198.打家劫舍 题目链接:198.打家劫舍 代码随想录题解:​​​​​​​198.打家劫舍 视频讲解:动态规划,偷不偷这个房间呢?| LeetCode:198.打家劫舍_哔哩哔哩_bilibili 解题思路: 这道…

阿里巴巴Java开发规范——编程规约(3)

# 阿里巴巴Java开发规范——编程规约(3) 编程规约 (四) OOP规约 1.【强制】构造方法里面禁止加入任何业务逻辑,如果有初始化逻辑,请放在 init 方法中 这条编程规范的目的是为了保持代码的清晰性、可读性…

非计算机专业考软考高项有必要吗?

我认为这非常重要。 看了你的介绍,如果你已经考取了会计证书,而且想要考取计算机专业的证书,或者你的职业规划涉及到计算机岗位,又或者你对计算机感兴趣,我建议你优先考虑软考,因为这个证书的含金量是有保…

问题带来多少成长,看你挖得有多深多痛

原文: 一次Redis访问超时的“捉虫”之旅 力是相互的,成长与痛苦也是相互的。 01-引言 最近在对一个老项目使用的docker镜像版本升级过程中碰到一个奇怪的问题,发现项目升级到高版本镜像后,访问Redis会出现很多超时错误,而降回之…

【数学建模】虫子追击问题(仿真)

已知 有四个虫子,分别是 A , B , C , D A,B,C,D A,B,C,D A , B , C , D A,B,C,D A,B,C,D分别在 ( 0 , 0 ) , ( 0 , 1 ) , ( 1 , 1 ) , ( 1 , 0 ) (0,0),(0,1),(1,1),(1,0) (0,0),(0,1),(1,1),(1,0)四个虫子A追B,B追C,C追D,D追A四个速度相同 …

XTuner 微调 LLM:1.8B、多模态、Agent——笔记

XTuner 微调 LLM:1.8B、多模态、Agent——笔记 一、Finetune 简介1.1、两种 Finetune 范式1.2、一条数据的一生1.2.1、标准格式数据1.2.2、添加对话模板1.2.3、LoRA & QLoRA 二、XTuner2.1、XTuner 简介2.2、LLaMA-Factory vs XTuner2.3、XTuner 数据引擎2.3.1、…

【InternLM 实战营第二期笔记04】XTuner微调LLM:1.8B、多模态、Agent

一、微调的原因 大模型微调(Fine-tuning)的原因主要有以下几点: 适应特定任务:预训练的大模型往往是在大量通用数据上训练的,虽然具有强大的表示学习能力,但可能并不直接适用于特定的下游任务。通过微调&…

低代码新时代:6款免费开发平台助你畅行编码之路

本篇文章为您介绍的六款免费又好用的低代码开发平台有:Zoho creator、Baserow、OS.bee、nuBuilder、JHipster、Appian。 一、Zoho creator Zoho Creator是一款国际化的低代码开发平台,有超17年低代码经验。近些年,Zoho Creator以其成本低、国…

一键还原精灵 V12.1.405.701 装机版

网盘下载 个人版:不划分分区不修改分区表及MBR,安装非常安全,备份文件自动隐藏,不适用于WIN98系统。 装机版:需用PQMAGIC划分分区作隐藏的备份分区,安装过程中有一定的风险,安装后就非常安全。…

基于SpringBoot的宠物领养网站管理系统

基于SpringBootVue的宠物领养网站管理系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringBootMyBatis工具:IDEA/Ecilpse、Navicat、Maven 系统展示 主页 宠物领养 宠物救助站 宠物论坛 登录界面 管理员界面 摘要 基于Spr…

[RTOS 学习记录] 复杂工程项目的管理

[RTOS 学习记录] 复杂工程项目的管理 这篇文章是我阅读《嵌入式实时操作系统μCOS-II原理及应用》后的读书笔记,记录目的是为了个人后续回顾复习使用。 前置内容: 工程管理工具make及makefile 文章目录 1 批处理文件与makefile的综合使用1.1 批处理文件…

[第一届 帕鲁杯 CTF挑战赛 2024] Crypto/PWN/Reverse

被一个小题整坏了,后边就没认真打。赛后把没作的复盘一下。 比赛有52个应急响应,猜是取证,都是队友在干,我也不大关心。前边大多题是比赛的原题。这是后来听说的,可都没见过,看来打的比赛还是少了。 Cryp…

基于RT-Thread摄像头车牌图像采集系统

一、项目简介 使用基于RT-thread操作系统的AB32VG1开发板作为主控,对ov7670摄像头进行图像采集,并使用串口发送图片RGB565格式到PC供opencv进行图像识别。 原项目设想在开发板上进行采集的同时并通过简单的二值算法和插值算法实现车牌号识别&#xff0c…

Obsidian 快速安装

看网上Obsidian 很好用,但自己下载总是中断,烦的要死,一度以为要开魔法…… 直到我找到了这个网站Thoughts (teambition.com) yeah~ 亲测有效,大概不到2min吧. 快速开始~,成功水了一片

(二)Servlet教程——我的第一个Java程序

首先打开记事本,输入如下的代码,请注意字母的大小写 public class MyFirst{ public static void main(String[] args){ System.out.println("This is My first Java..."); } } 将该txt文件命名为MyFirst.java 打开cmd命令行窗口&#xff0…

【STM32】嵌入式实验二 GPIO 实验:数码管

实验内容: 编写程序,在数码管上显示自己的学号。 数码管相关电路: PA7对应的应该是段码,上面的图写错了。 注意:选中数码管是低电平选中;并且用74HC595模块驱动输出的段码, 这个模块的学习可以…

面向对象设计与分析(42)工厂方法模式

文章目录 定义示例实际应用 定义 工厂方法模式,定义一个用于创建对象的接口(工厂方法),返回对象基类,让子类去实现该接口,从而返回具体的子类对象。 结构 工厂方法模式包含以下主要角色: 抽象…

干货:40个数据统计和分析的术语,让你的可视化大屏有理有据

1. 总体(Population):指研究对象的全体,即研究问题所涉及的所有个体或事物的集合。 2. 样本(Sample):从总体中选取的一部分个体或事物,用于代表总体进行研究。 3. 参数&#xff08…