清华新突破，360°REA重塑多智能体系统：全方位提升复杂任务表现

引言：多智能体系统的新篇章——360°REA框架

在多智能体系统的研究领域，最新的进展揭示了一种全新的框架——360°REA（Reusable Experience Accumulation with 360° Assessment）。这一框架的提出，不仅是对现有系统的一次重大改进，也为未来的智能体系统设计提供了新的方向。360°REA框架的核心在于通过全方位的评估和经验积累，提升智能体处理复杂任务的能力。它借鉴了现代企业组织中的绩效评估和员工经验积累机制，将其应用于智能体的性能提升中。

标题：360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System

作者：Shen Gao1†, Hao Li2†, Zhengliang Shi2, Chengrui Huang1, Quan Tu3, Zhiliang Tian4*, Minlie Huang5, Shuo Shang1

论文链接：https://arxiv.org/pdf/2404.05569.pdf

360°REA框架概述：灵感来源与框架目标

360°REA框架的灵感来源于企业组织中的360度绩效评估方法。在企业管理中，绩效评估不仅仅是为了打分或者奖惩员工，更重要的是通过评估帮助员工反思工作，从而提升他们履行角色的能力。360度评估是一个全面的过程，涉及从同事、上司甚至外部来源收集对员工行为的评价。越来越多的商业组织将360度评估纳入绩效评价和雇佣决策中，如薪酬和晋升。

受此启发，360°REA框架旨在帮助智能体基于评估结果积累经验，使其在后续任务中表现更佳。这一设计原则强调了帮助智能体提升能力的重要性，而不仅仅是评估或从系统中移除表现不佳的智能体。因此，设计一种智能体评估和能力学习机制，成为多智能体系统设计中的一个挑战。

360°REA框架的目标是通过模仿组织结构、员工绩效评估和公司内部的经验积累，提升智能体处理复杂任务的性能。框架采用了层级结构来组织智能体，领导智能体负责分配任务和角色给执行智能体，而执行智能体协作完成给定任务。为了评估每个执行智能体的表现，360°REA引入了一种新颖的360度性能评估方法，该方法采用多维度评价，从同伴层面和监督层面对智能体进行细粒度的评估。此外，为了实现更好的智能体性能，提出了双层经验池，帮助智能体在处理复杂任务时积累有用的经验。

多维度性能评估：360°性能评估法的创新之处

1. 同伴评估与自我评估

在多维度性能评估的实践中，360°性能评估法的创新之处在于它不仅仅依赖于自我评估，而是引入了同伴评估的维度。这种方法允许同一团队中的代理（crew agents）相互评价，从而提供了一个更全面的性能反馈。每个代理在完成其子任务后，会接受来自其他代理的反馈，这些反馈将用于修正其对子任务的响应。通过这种方式，代理能够在多个回合中不断完善其响应，从而提高其输出的质量。例如，在一个旅行规划任务中，一个代理可能会评估另一个代理提出的旅行计划，并给出建议，如何使计划更符合特定的评估标准，如个性化、新颖性和正确性。

2. 领导者评估的重要性

除了同伴评估，360°性能评估法还强调了领导者评估的重要性。在这个框架中，领导者代理（leader agent）负责对团队成员的表现进行评估，并提供从全局视角出发的反馈。这种监督层面的评估有助于代理从更宏观的角度理解问题，从而在解决复杂任务时提供更有价值的指导。例如，领导者代理可能会评估一个代理在处理子任务时的表现，并根据任务指令提供反馈，帮助代理更好地理解其在整个任务中的角色和贡献。

双层经验池的设计：本地与全局经验的积累

1. 本地经验池的构建与作用

本地经验池是为每个代理个体设计的，它汇集了代理在完成当前子任务过程中的经验。这些经验是基于360°性能评估的多轮反馈总结而来的，旨在帮助代理在下一个回合中取得更好的结果。例如，一个代理在接收到同伴的反馈后，会反思并总结出本地经验，这些经验可能包括如何改进其旅行计划的个性化或如何确保计划的可行性。

2. 全局经验池的构建与作用

全局经验池则是为整个多代理系统设计的，它从每个代理的最终响应和评估者的反馈中构建可复用的经验。这些经验涵盖了整个任务解决过程中的高层次技能，有助于整个团队在处理类似任务时的性能提升。例如，领导者代理在任务完成后，会从评估者的反馈中学习经验，总结出如何在未来的任务中更好地协调团队，以及如何平衡任务的可行性和活动的多样性。

实验设计与数据集介绍：验证360°REA的有效性

为了验证360°REA框架的有效性，我们在两个广泛使用的复杂任务数据集上进行了广泛的实验。这些数据集包括创意写作和旅行计划制定任务。在创意写作任务中，我们使用了Trivia Creative Writing数据集，该数据集要求生成一个故事来覆盖所需的输入。在旅行计划制定任务中，我们使用了Trip Planning数据集，该数据集包含了50个世界著名景点的旅行计划，这些计划是基于目的地特点生成的具体要求。通过这些实验，我们能够展示360°REA在多个复杂任务上相较于现有基准的优势，同时也证实了综合评估和经验积累对于提升多代理系统性能的重要性。

综合评估指标：如何衡量任务完成的质量

在多代理系统中，衡量任务完成的质量是一个复杂的过程，需要从多个维度进行考量。360°REA框架通过引入360°绩效评估方法，提供了一种全面的评价机制。这种评估方法不仅仅局限于自我反思，而是包括来自同伴和上级的评价，从而提供了更有价值的反馈。具体来说，评估指标包括以下几个方面：

1. 自我评估（Self-level Assessment）：代理根据自己的响应进行自我反思，以此来评估自己的表现。

2. 同伴评估（Peer-level Assessment）：在基于LLM的多代理系统中，代理之间的合作是常见的。通过同伴评估，代理可以从其他任务的角度评价智能代理的表现，从而获得更全面的评价。

3. 上级评估（Supervisory-level Assessment）：领导代理可以从更全局的角度评估每个代理完成子任务的表现，并协助他们更好地解决问题。

通过这三种评估方式，代理能够从不同的角度获得反馈，并据此改进自己的表现。此外，360°REA还引入了双层经验池（dual-level experience pool），帮助代理基于评估结果收集有用的经验，从而在处理类似任务时表现得更好。

基线模型与对比实验：360°REA与现有方法的比较

在进行实验对比时，我们选择了几种基线模型进行比较，以验证360°REA的有效性。这些基线模型包括：

GPT-4：OpenAI的封闭源LLM，使用单一指令进行上下文学习。

Mistral：开源LLM，使用专家混合版本Mistral-medium。

OKR：一个层次化的多代理协作框架，通过分解目标到多个子目标，并基于关键结果和代理责任分配新代理。

SPP：Solo Performance Prompting，将单一LLM转化为通过多个角色进行多轮自我协作的认知协同者。

在对比实验中，360°REA展示了在处理复杂任务时的优势。通过在两个广泛使用的复杂任务数据集上进行的实验，360°REA在多个评估指标上均优于这些基线模型。

人类评估与消融研究：360°REA的实际效果分析

为了进一步验证360°REA生成答案的有效性，我们还进行了人类评估。在创意写作任务中，我们评估了故事的连贯性和创造性；在旅行计划制作任务中，我们评估了计划的正确性和定制性。通过雇佣具有学士学位的受过教育的注释者进行双盲注释，我们发现360°REA在所有方面都优于强大的多代理基线SPP和GPT-4。

此外，我们还进行了消融研究，以验证360°REA中每个模块的有效性。通过移除双层经验池或不进行所有层次的评估，我们发现这些变体模型的性能下降，这表明使用双层经验池和进行全层次评估的必要性。

通过这些实验，我们可以看到360°REA不仅在自动评估指标上表现出色，而且在人类评估中也得到了验证，证明了其在处理复杂任务时的实际效果。

案例研究：360°REA在创意写作任务中的应用

在探索360°REA（Reusable Experience Accumulation with 360° Assessment）的实际应用中，我们选择了创意写作任务作为案例研究的对象。创意写作任务的复杂性在于它不仅需要语言模型生成连贯和吸引人的故事，还要求故事内容能够与特定的问题或要求相匹配。

在这个案例中，我们使用了Trivia Creative Writing数据集，该数据集包含100个样本，每个样本都要求生成一个故事来覆盖所需的输入。360°REA的应用展示了其在处理此类任务时的有效性。通过360°性能评估和双层经验池的结合，360°REA能够帮助语言模型代理（agents）从评估反馈中积累经验，并在类似任务中表现出更好的性能。

在一个具体的创意写作任务中，360°REA框架的应用涉及到了多个代理的协作。首先，领导代理（leader agent）根据用户输入的查询分配任务和角色给执行代理（crew agents）。执行代理根据指令生成响应，然后通过360°性能评估进行多轮迭代，以此改进他们的输出。在这个过程中，执行代理不仅接受来自同伴的评价，还会从领导代理那里获得全局视角的反馈。

通过这种方式，每个代理都能够在完成子任务时获得更细致的反馈，并将这些反馈转化为本地经验（local experience），同时领导代理也会从最终结果中总结出全局经验（global experience）。这些经验被存储在双层经验池中，供未来类似任务的解决方案使用。

案例中的一个具体故事生成任务要求代理围绕《塞尔达传说》编写一个短小精悍的故事，并且要融合对以下五个问题的回答：哪位英国君主著名地说过“我不希望打开人们灵魂的窗户”？哪位英国歌手在1986年电影《迷宫》中扮演了Jareth the Goblin King？1987年的电影《自由之声》是关于哪位南非民权领袖的传记剧？哪位英国女演员在1997年电影《无言以对》中扮演了Valerie？1959年、1960年和1964年在温布尔登女子单打决赛中获胜的巴西选手叫什么名字？

通过360°REA框架，代理能够生成一个包含了所有必要元素的连贯故事，同时也展示了它在提高故事情节丰富性、逻辑性和流畅性方面的优势。这个案例不仅证明了360°REA在创意写作任务中的有效性，也展示了其在提升语言模型处理复杂任务能力方面的潜力。

结论与未来展望：360°REA的意义与发展方向

360°REA代表了一个重要的步骤，它通过引入全面的代理性能评估策略和双层经验池，显著提升了基于大型语言模型（LLM）代理在处理复杂任务方面的能力。与仅侧重于团队优化或自我反思的现有方法不同，360°REA提供了多视角和细粒度的反馈，使代理能够从自我、同伴和监督级别获得宝贵的见解。

通过在复杂任务数据集上的实验，360°REA展示了其在与最先进基准相比时的卓越性能。通过强调全面评估和经验积累的重要性，360°REA为基于LLM的多代理系统的发展提供了一个实用且有影响力的框架，为解决复杂任务提供了一种新的方向。

尽管360°REA已经取得了显著的成果，但我们认识到未来的发展方向还包括将多模态信息（如图像和视频）融入到框架中。考虑到现有的多模态LLM能够理解文本和多模态信息，我们的多代理框架可以适应许多复杂任务中的多模态输入。因此，我们计划在未来的工作中将多模态信息纳入我们的框架。

安全性与伦理考量：人工审核与多模态数据的融合展望

在构建基于LLM的多代理协作框架时，我们必须考虑到安全性和伦理问题。尽管LLM在通过人类反馈进行强化学习（RLHF）阶段已经与人类价值观和偏好对齐，从而降低了生成不道德内容的可能性，但现有的LLM仍然无法完全防止生成有害内容。因此，多代理协作框架生成的答案在使用前仍需要进一步的人类专家验证。

展望未来，我们认识到在多模态数据日益普及的今天，人工审核与多模态数据的融合将成为一个重要的研究方向。我们将探索如何结合人工智能和人类智慧，以确保生成的内容不仅在技术上先进，而且在伦理上负责任。这将涉及到开发新的工具和方法，以便更好地理解和管理多模态数据中的复杂性，同时确保我们的技术创新能够为社会带来积极的影响。