今日arXiv最热大模型论文:港大微软发布AgentGen提高大模型规划能力,8B模型接近GPT-4水平

news2024/9/21 20:35:58

图片

 夕小瑶科技说 原创
 作者 | Richard

在大语言模型(LLM)问世之后,基于 LLM 的 Agent 引起了广泛的关注并且变得越来越流行。规划能力无论对人类还是 Agent 都是一个重要的决策步骤,规划的本质是通过预先设定的行动过程,以期望在未来达到特定的目标或者解决特定的问题。

规划是基于 LLM 的 Agent 一个关键的能力,涉及从初始状态达到预期目标的系统性过程。规划决定了 Agent 如何在复杂环境中自主操作,其中包括与环境交互、执行动作、考虑约束条件和可用资源等。

最近关于 Agent 训练的最新研究表明,通过使用轨迹数据(动作-观察对)序列对大模型进行微调可以增强其规划的能力。但是目前的工作主要集中于手动设计的规划任务和环境中的合成轨迹。

鉴于此,港大联合微软提出 AgentGen 框架,对自动合成多样化环境和从简单到困难的渐进规划任务进行探索。AgentGen 框架利用 LLM 生成多样化环境和规划任务,采用基于启发式规则构建的语料库和 BO-EVOL 方法提升任务难度多样性。

AgentGen 极大提高了 LLM 的规划能力,AgentGen指令微调的 Llama-3 8B 在整体性能上超过了 GPT-3.5,甚至在某些任务上,其还接近 GPT-4 的水平。

图片

论文标题:
AGENTGEN: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation

论文链接:
https://arxiv.org/pdf/2408.00764

什么是规划问题?

目标导向的确定性规划问题被定义为 ,其中 表示 Agent 交互的环境,表示 Agent 需要完成的任务。

环境包括动作空间、状态空间和转移函数。

任务由定义,表示目标条件,为初始状态。

规划问题可用Python或PDDL实现。在PDDL中,域文件定义环境,问题文件定义任务。在Python中(如OpenAI gym),规划问题通常实现为一个类,包含转移函数、奖励函数和初始状态定义。

Agent 训练

得益于 LLMs 的进步,基于 LLM 的 Agent 引起了研究人员的广泛关注。

基于 LLM 的 Agent 是指利用 LLMs 感知环境、作出决策并执行行动,以代替或者帮助人们完成特定任务。

通过指令微调 LLMs 来提升规划能力是一个 Agent 的一个重要研究领域,被称为 Agent 训练。如下图所示,典型的 Agent 训练可以分为三个阶段:

图片

  1. 环境准备和任务规划

  2. 在这些任务上合成轨迹数据(动作-观察对序列)

  3. 使用合成的数据对 LLMs 进行指令微调

目前而言,环境准备和任务规划主要依赖人工进行设计,这样的资源密集型任务就阻碍了大规模轨迹数据的生成。具体而言,设计多样化的环境需要定义一系列丰富和实用的场景,而实现这些环境往往通过需要具备编程技能的人类专家参与。除此之外,制定任务通常需要创建一个难度逐渐递进的任务集。

由于以上的种种限制,目前的 Agent 训练只能使用少量环境进行数据合成。

为解决上述不足,港大联合微软提出 AgentGen框架,利用 LLMs 构建多样化的环境和规划任务用于 Agent 训练,将可用环境从几个扩展到数百个。具体而言,AgentGen 围绕两个阶段构建:环境生成和任务生成。

环境生成

环境生成是 AgentGen 框架的第一个核心组成部分,其生成过程包括三个主要组建:

图片

  1. 环境规范生成模块:这个模块使用大语言模型(LLM)首先生成环境的规范。规范通常包括环境的总体概述、状态空间和动作空间的描述,以及转移函数的定义。

  2. 环境实现模块:基于生成的环境规范,这个模块生成相应的代码。这可以看作是一个典型的代码生成问题。

  3. 环境库:这是一个存储先前生成的高质量环境的库,作为综合环境数据集,并为生成新环境提供上下文示例。

为了增加环境的多样性,AgentGen 引入了一个启发语料库 ,包含足够多样化的文本段落。在生成环境时,首先从  中采样一个文本段落 ,然后提示LLM基于  生成相关环境。

环境库在迭代 t 时刻定义为:

其中  是初始种子库,联合表示直到迭代 t 生成的所有验证过的环境。

任务生成

任务生成是 AgentGen 框架的第二个核心组成部分,基于生成的环境,AgentGen 使用 LLM 生成相应的规划任务。为了创建难度多样的规划任务,AgentGen 采用了 BI-EVOL 两阶段生成方法:

图片

  1. 初始任务生成:首先,AgentGen 以零样本方式提示LLM生成一组初始规划任务。

  2. 双向演化:随后,AgentGen 调整这些任务,使它们变得更简单或更具挑战性,形成一个全面的规划任务集。

BI-EVOL 方法引入了两个方向的演化:easy-evol 和 hard-evol。

  • easy-evol:通常涉及简化目标条件。这种方法的动机是,当智能体表现不佳且无法直接从典型的困难目标中学习时,更简单的任务可以促进学习。

  • hard-evol:通常涉及使目标条件更复杂,增加智能体完成任务所需的步骤数。这可以进一步增强智能体执行规划任务的能力。

通过这种双向演化方法,AgentGen 能够生成一个难度曲线更平滑的任务集,有利于 LLM 更有效地学习规划能力。

实验验证

为评估AGENTGEN框架的有效性,作者进行了一系列实验。这些实验主要分为两个部分:领域内任务评估和领域外任务评估。

  1. 领域内任务:使用PDDL实现的四个广泛应用的规划任务:Blocksworld:要求智能体通过移动块达到目标配置。Gripper:涉及在不同房间之间移动物体。Tyreworld:模拟更换汽车轮胎的过程。Barman:模拟调酒师混合鸡尾酒的任务。

  2. 领域外任务:选择了两个具有挑战性的部分可观察规划任务:Alfworld:测试智能体执行日常家务任务的能力。BabyAI:智能体在网格世界中解释和执行自然语言指令。

研究人员使用两个指标评估规划能力:成功率和进度率。进度率  衡量向目标状态  的进展。成功率只有在进度率达到1时才为1,其他情况为0。

下表展示了 AgentGen 与基准模型在领域内任务上的性能比较。从结果可以看出,AgentGen 在总体成功率上优于 GPT-3.5(11.67 vs 5.0);在 barman 任务中,AgentGen 甚至超过了 GPT-4的表现(15 vs 10);与参数规模相似的其他模型相比,Agentgen 在四个不同任务中始终表现更好;相比 Llama3,AgentGen 的总体成功率和进度率分别提高了10和9.95。

图片

研究人员同样在鲁棒性上进行实验,下表展示了 AgentGen 在不同基础模型上的表现。实验选择了三个广泛使用的7-8B基础模型:Llama3-8B、CodeLLama-7B和Mistral-7B。结果显示所有三个模型在训练后的效果都显著提升。

图片

除了在领域内进行评估之外,研究人员还对 AgentGen 进行领域外任务评估。实验结果显示 AgentGen 相比 Llama3 有显著提升,在Alfworld上成功率增加到29.1,进度率增加36.2;在BabyAI上成功率增加4.4,进度率增加4.2;并且在 Alfworld 上,AgentGen 的表现超过了 GPT-3.5。更进一步,与参数规模相似的通用模型和智能体微调模型相比,AgentGen 在两个任务上都表现更优。

图片

总结与展望

港大和微软联合推出的 AgentGen 框架通过自动生成多样化的环境和任务,显著提升了模型的规划能力。经 AgentGen 训练的8B参数模型在某些任务中接近甚至超越了 GPT-4 的表现。无论是在领域内还是领域外任务中,AgentGen 都展现出令人眼前一亮的效果和良好的泛化能力。特别是在 Alfworld 任务中远超 GPT-3.5 的表现。

未来,这一框架可能被应用到更复杂的规划任务中,如机器人控制或智能家居系统。随着进一步研究,我们或许能看到 AgentGen 在日常生活中的实际应用,比如协助个人日程安排或优化交通路线规划。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2082073.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件设计师全套备考系列文章20 -- UML建模(重点,15分)

软考-- 软件设计师(20)-- UML建模(重点,15分) 文章目录 软考-- 软件设计师(20)-- UML建模(重点,15分)前言一、章节考点二、概述三、类图四、用例图五、顺序图六、活动图七、状态图八、通信图九、构建图 前言…

扫码点餐系统的前景如何?

扫码点餐系统作为一种餐饮业数字化转型的关键工具,其发展前景广阔。随着移动支付和智能手机的普及,该系统在餐厅、咖啡馆、快餐店等场所得到广泛应用,不仅简化了顾客点餐流程,减轻了服务员的工作负担,还提高了翻台率。…

沃尔玛停止在 3 个城市使用无人机送货,将重点转移到达拉斯

沃尔玛,作为全球领先的零售商,一直在探索创新的物流解决方案以提升顾客体验。近年来,该公司与无人机送货服务提供商DroneUp合作,尝试通过无人机技术实现快速配送服务。然而,经过一段时间的试点运营后,沃尔玛…

输电线路分布式故障诊断系统:分布式智慧网络的构建

输电线路分布式故障诊断系统:分布式智慧网络的构建 今天,就让深圳鼎信智慧科技陪大家一起走进输电线路分布式故障定位系统的世界: 1、系统架构:分布式智慧网络的构建 输电线路分布式故障定位系统主要由三大核心部分组成&#x…

微服务|一文带你了解无感知部署方案实战

目录 一、现有部署方案介绍 二、Nacos 介绍 三、影响时间的因素 四、方案目录结构 五、方案脚本实现 六、遇到的问题及优化 七、其他替代方案 一、现有部署方案介绍 在程序开发和运维过程中,会频繁地部署服务,并且每个服务的正常运行都依赖于其他服…

Springboot @RestControllerAdvice全局异常捕获处理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、RestControllerAdvice二、案例1.自定义异常2.自定义相应常量3.自定义响应类4.核心逻辑5.测试 一、RestControllerAdvice RestControllerAdvice是Spring框架提供…

Linux网络:网络基础

Linux网络:网络基础 一、网络诞生背景及产生的诸多问题1. 1 网络诞生背景1.2 网络诞生面临的困境 二、网络协议栈(OSI七层模型、CP/IP五层模型)2.1 TCP/IP五层(或四层)模型 三、网络和系统关系四、网络传输流程4.1 同一个局域网中的两台主机进…

idea调试启动项目控制台日志卡住不动的解决方案

报错 可能是你有debug没有清除,导致的启动卡住,给清楚掉即可

开学季有哪些必备的好物?学生家长请收下这份清单

随着新学期的脚步日益临近,每位学生和家长都在积极准备迎接新的挑战与机遇。为了帮助孩子们更好地适应校园生活,营造一个健康、高效的学习环境,我们精心挑选了一系列实用且能够提升学习体验的产品。从舒适的护眼台灯到高效的智能学习工具&…

mysql面试题(一)

附件:对mysql知识点描述比较全的博客 https://blog.csdn.net/laodanqiu/article/details/131563200 原题 为方便表达,将创建两个表 mysql> select * from customer; ----------------------------------------------------- | customer_id | custo…

用于目标说话人提取的统一视听线索

第二章 目标说话人提取之《Unified Audio Visual Cues for Target Speaker Extraction 》 文章目录 前言一、任务二、动机三、挑战四、方法1.总体架构2.tes网络3. 融合网络4.损失函数 五、实验评价1.数据集2.消融实验3.客观评价4.主观评价 六、结论七、知识小结 前言 语音新手…

航空制造领域中三维工艺技术的应用

飞机制造企业可以通过三维数字化技术的应用有效提升了工艺设计水平,解决了在航空产品数字化工艺设计、制造方面的标准统一和系统整合等问题,保证了业务应用系统基础数据的一致性和规范性。本文是对航空制造领域中三维工艺技术的应用的介绍。 随着信息化技…

冒泡排序详细说明(内含动态演示图)

冒泡排序 冒泡排序的核⼼思想就是:两两相邻的元素进行比较。冒泡排序是⼀种最基础的交换排序。 之所以叫做冒泡排序,因为每⼀个元素都可以像小⽓泡⼀样,根据⾃⾝⼤⼩⼀点⼀点向数组的⼀侧移动。 //⽅法1 void bubble_sort(int arr[], int…

前端开发学习Docker记录01镜像操作

Docker相关命令 Demo安装nginx 先搜索然后拉取,然后查看images列表是不是拉取成功 docker search nginxdocker pull nginx特定某个版本,镜像名:版本号 docker images

这个神奇的网站提供各种图的R代码供您参考!

点击去每一个都有代码和数据 ggplot2高效实用指南 (可视化脚本、工具、套路、配色) 50个ggplot2可视化案例

国产游戏技术能否引领全球

目录 1.概述 1.1.面临的挑战 1.2.机遇 1.3.IT技术创新如何推动行业发展 2.技术解析 2.1.图形渲染技术 2.2.物理引擎 2.3.人工智能 (AI) 3.行业影响 3.1.对国内游戏开发行业的影响 3.2.IT人才需求变化 3.3.技术发展方向 4.未来展望 4.1. 发展前景 4.2. IT技术人员…

根据Scrum 敏捷开发过程开发一个基于 Web 的 Scrum 项目管理系统

目录 案例 【题目】 【问题 1】(10 分) 【问题 2】(6 分) 【问题 3】(9 分) 【答案】 【问题 1】解析 【问题 2】解析 【问题 3】解析 相关推荐 案例 阅读以下关于 Scrum 敏捷开发过程的叙述,在答题纸上回答问题 1 至问题 3。 【题目】 Scrum 是一个增量…

【使用 Python 进行截图】

如何使用 Python 进行截图? Python 是一种广泛使用的通用编程语言。它可以执行各种任务。其中之一就是进行截图。它提供了一个名为“pyautogui”的模块,可以用于截图。“pyautogui”截取的图片是 PIL(Python 图像库)格式&#xf…

2024中国国际大数据博览会:引领数字变革,共创未来辉煌

2024年中国国际大数据产业博览会,作为全球瞩目的数据领域盛事,再次汇聚全球目光于中国贵阳。 在这场以“数智共生:开创数字经济高质量发展新未来”为主题的盛会上,国家数据局与贵阳市政府共同携手,开启了一段旨在深化…

Java Web实战教程:如何一步步开发美容美发管理系统

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…