复旦TravelPlanner让大语言模型挑战旅程规划

news2025/1/23 1:06:48

引言:探索语言智能的新疆界——旅行规划

在人工智能的发展历程中,规划一直是核心追求之一。然而,由于缺乏人类水平规划所需的多种认知基础,早期的AI代理主要集中在受限的环境中。随着大语言模型(LLMs)的出现,新一代的语言代理展现出了使用工具和推理等有趣的能力。这引发了一个问题:这些语言代理是否能够在先前AI代理无法触及的更复杂环境中进行规划?

为了深入探索这一问题,我们提出了一个新的规划基准——TravelPlanner,它专注于常见的现实世界规划场景:旅行规划。这是一个即使对人类来说也具有挑战性的任务,但大多数人在有适当工具和足够时间的情况下都能成功完成。旅行规划不仅涉及多天行程的长期规划,还包括对地点、住宿、交通、餐饮等众多相互依赖的决策。此外,旅行规划还涉及许多约束,从预算和各种用户需求的明确约束到常识性的隐性约束,例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。因此,旅行规划要求强大的主动性,以使用各种工具主动获取必要信息,并在考虑所有明确和隐性约束的同时,对收集到的信息进行深思熟虑以推进规划。

论文标题TravelPlanner: A Benchmark for Real-World Planning with Language Agents

论文链接:

https://arxiv.org/pdf/2402.01622.pdf

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

语言智能与人类规划能力的比较

人类规划能力的特点

人类的规划能力是智能的标志之一,它是基于多种能力的进化成果:使用各种工具迭代收集信息并做出决策,记录中间计划(在工作记忆或物理设备上)以供审议,以及通过运行模拟探索替代计划,这又依赖于世界模型。数十年来,研究人员一直在尝试开发能够模仿人类规划能力的AI代理,但通常是在受限的环境中,因为许多人类级别规划所需的认知基础设施一直缺失。能够在人类操作的大部分不受限制的环境中稳健工作的AI代理仍然是一个遥远的目标。

语言智能在规划任务中的表现

随着大语言模型(LLMs)的出现,新一代的语言代理出现了,它们通过使用语言作为思考和交流的工具而具有特点。这些代理展示了诸如工具使用和各种形式的推理等有趣的能力,可能满足了早期AI代理所缺乏的一些认知基础设施的角色。因此,研究人员开始研究它们在从经典规划设置到体现代理和网络代理等一系列规划任务中的潜力。然而,现有工作中的规划设置仍然主要遵循传统设置,即以固定的基本事实进行单目标优化。

TravelPlanner提出了一个新的规划基准,专注于旅行规划这一常见的现实世界规划场景。这是一个即使对于人类来说也具有挑战性和耗时的任务(但大多数人可以在有正确工具和足够时间的情况下成功完成):规划多天的行程本质上是长期的,涉及大量相互依赖的决策,例如地点、住宿、交通、餐饮等。旅行规划涉及许多约束,从预算和各种用户需求等明确的约束到隐性的常识约束,例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。旅行规划需要强大的能动性,以主动使用各种工具(例如搜索航班和餐馆)从部分可观察的环境中获取必要信息,并在考虑所有明确和隐性的约束的同时,对收集到的信息进行深思熟虑以推进规划。这种复杂性的规划任务超出了以前AI代理的能力范围。

TravelPlanner提供了一个丰富的沙盒环境,可以通过六种工具访问大约四百万条从互联网爬取的数据记录,并精心策划了1,225个不同的用户查询(以及它们的参考计划),每个查询都施加了不同组合的约束。综合评估表明,当前的语言代理尚未能够处理如此复杂的规划任务——即使是GPT-4也只实现了0.6%的成功率。语言代理难以保持任务,使用正确的工具收集信息,或跟踪多个约束。然而,我们注意到,语言代理有可能处理如此复杂的问题本身就是一个了不起的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试床。

TravelPlanner基准的介绍与目的

TravelPlanner基准介绍

TravelPlanner提供了一个丰富的沙盒环境,包含约四百万条从互联网爬取的数据记录,可以通过六种工具访问。我们还精心策划了1,225个多样化的用户查询(以及它们的参考计划),每个查询都施加了不同组合的约束。一个代表性的例子如图1所示。

TravelPlanner的目的

我们对五种LLMs(例如GPT-4)和四种规划策略进行了全面评估,以测试它们提供完整计划的能力。结果表明,即使是最先进的语言代理也无法处理像TravelPlanner这样复杂的规划任务——GPT-4的成功率仅为0.6%。语言代理在保持任务相关、使用正确工具收集信息或跟踪多个约束方面存在困难。然而,值得注意的是,语言代理能够尝试解决如此复杂的问题本身就是一个不小的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试平台,为它们朝着人类水平的复杂规划能力攀登提供了帮助。

一个积极的迹象是,尽管我们训练有素的人类标注者平均需要12分钟手动标注一个计划,但语言代理可以在仅1-2分钟内自动产生一个计划。也许有一天,语言代理将变得足够强大,能够帮助我们自动化处理许多这样的繁琐任务。

TravelPlanner基准的构建

约束的类型与评估方法

为了评估代理是否能够感知、理解并满足各种约束以制定可行的计划,我们在TravelPlanner中包括了三种类型的约束(表1):

  • 环境约束:真实世界是动态的,代理需要适应性强。例如,某些目的地的航班在特定时间可能不可用,代理必须动态寻找替代方案。

  • 常识约束:代理在现实世界中服务于人类时,应当考虑常识。例如,重复访问同一景点通常是不典型的。

  • 硬性约束:评估代理是否能够有效满足个性化用户需求,例如预算限制。

环境设置与数据记录工具

在TravelPlanner中,我们创建了一个静态且封闭的沙盒环境,以确保一致性和无偏见的评估。这样的设置保证了所有代理都能访问到相同的、不变的信息,避免了动态数据引入的变数和潜在偏差。为了提供与现实世界相符的多样化旅行选项,我们确保TravelPlanner中每个工具的数据库都包含丰富的信息。例如,FlightSearch工具的数据库就从Kaggle Flight Status Prediction数据集中提取了2022年3月1日至4月1日的数据,并生成了价格信息(表2)。此外,代理被指示使用“NotebookWrite”工具来记录规划所需的信息,以评估代理的工作记忆管理能力,并防止因上下文累积而导致的最大token限制问题。

旅行查询的设计与分类

为了创建TravelPlanner的多样化查询,我们从基本元素出发,包括出发城市、目的地和特定日期范围,随机选择以形成每个查询的框架。然后,我们调整旅行的持续时间和硬性约束的数量来创造不同复杂性级别的查询。例如,3天的计划专注于一个城市,而5天和7天的计划涉及访问一个随机选择的州,分别包括2个和3个城市的旅行。我们还引入了多样化的用户需求作为硬性约束,以增加进一步的复杂性和现实感。最后,我们使用GPT-4生成自然语言查询。

实验设计与基线模型

实验模式与评估标准

我们从多个维度对代理提供的计划进行综合评估。评估标准包括:

  • 交付率:评估代理是否能在有限步骤内成功交付最终计划。

  • 常识约束通过率:评估代理是否能将常识纳入其计划中。

  • 硬性约束通过率:衡量计划是否满足查询中明确给出的所有硬性约束。

  • 最终通过率:在所有测试计划中,满足所有上述约束的可行计划的比例。

选取的LLMs与规划策略

我们评估了多种LLMs和规划策略在TravelPlanner上的表现。在两阶段模式中,我们使用ReAct框架进行信息收集,同时改变基础LLMs。这种方法允许我们评估在统一工具使用框架下不同LLMs的表现。在单一规划模式中,我们的评估不仅涉及不同的LLMs,还包括不同的规划策略,以评估这些在其他规划基准中被证明有效的策略是否在TravelPlanner中保持其有效性。所有实验都是在零样本设置中进行的。

实验结果与深入分析

LLMs在TravelPlanner中的表现

在TravelPlanner中,最先进的大语言模型(LLMs)面临着巨大的挑战。即使是GPT-4,其成功生成满足所有约束条件的计划的比率也仅为0.6%,而其他LLMs未能完成任何任务(表3)。这些结果表明,尽管LLMs在使用工具和推理方面展现出了一定的能力,但它们在处理复杂的旅行规划任务时仍然存在困难。LLMs在保持任务相关性、使用正确工具收集信息以及跟踪多个约束方面表现不佳。

规划策略的有效性对比

在TravelPlanner中评估的四种规划策略——ReAct和Reflexion等,虽然在简单的规划设置中可能有效,但在TravelPlanner中的多约束任务中表现不足。它们通常无法正确地将推理转化为正确的行动,并跟踪全局或多个约束。这表明,语言智能需要更复杂的规划策略来接近人类级别的规划。

语言智能在工具使用与规划中的错误分析

进一步的分析揭示了现有语言智能的许多常见失败模式,如在工具使用中的参数错误、陷入死循环以及幻觉(图2)。例如,GPT-4-Turbo在使用工具时仍然会出现参数错误和重复动作循环的问题,这表明即使在收到无效操作或空结果的反馈后,智能体仍然持续重复这些操作。这暗示了智能体未能根据环境反馈动态调整其计划。

案例研究:语言智能规划失败的原因

通过对失败案例的研究,我们可以更深入地了解当前智能体在深度规划中的缺陷(图3)。例如,智能体由于无法纠正持续的错误而未能完成计划。在工具使用场景中,智能体通常在所有前置步骤正确执行的情况下仍然无法交付计划。进一步的调查显示,这通常是由于输入日期错误导致的。此外,智能体在单独规划模式下提供幻觉答案,是因为它们在处理大量信息时容易混淆。这表明智能体可能在面对大量信息时迷失方向,这种现象被称为“Lost in the Middle”。

智能体还难以将其行动与推理对齐。例如,在使用Reflexion策略的情况下,尽管智能体认识到需要最小化成本,但它们倾向于随机选择项目,其中一些可能更昂贵。这种行动与分析推理之间的不一致性严重阻碍了智能体的交付率。

总之,TravelPlanner为当前的智能体提供了一个重大挑战。即使是在许多传统任务中表现出与人类相当或更优的SoTA LLMs和规划策略,也仍然远远不足以处理人类能够胜任的复杂规划任务。TravelPlanner为未来更有能力的语言智能体的发展提供了一个具有挑战性但有意义的测试平台。

结论与未来展望:TravelPlanner对语言智能发展的意义

结论

TravelPlanner作为一个新型的旅行规划基准测试,为语言智能的发展提供了新的视角和挑战。通过对多个大语言模型(LLMs)的综合评估,我们发现即使是最先进的语言代理框架,如GPT-4,其在最终通过率上也仅达到了0.6%。这一结果表明,当前的语言代理在处理复杂的多约束规划任务时仍然存在明显的不足。

TravelPlanner的推出,不仅验证了语言代理在工具使用、信息收集和规划制定方面的能力,也揭示了它们在保持任务相关性、正确使用工具收集信息以及跟踪多重约束方面的不足。尽管如此,语言代理能够尝试解决如此复杂的问题本身就是一个不平凡的进步。

未来展望

未来的研究可以在TravelPlanner提供的丰富沙盒环境和挑战性测试床的基础上,进一步推动语言代理的发展。我们期待未来的语言代理能够更好地理解和处理复杂的多约束规划任务,逐步接近人类水平的规划能力。此外,随着语言代理在规划任务中的自动化能力的提升,它们有望在未来帮助人类自动化处理繁琐的任务,从而节省时间和提高效率。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1446569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[ai笔记5] 个人AI资讯助手实战

欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第5篇分享,也是把ai场景化应用的第一篇实操内容! 既然要充分学习和了解ai,自然少不了要时常看看ai相关资讯,所以今天特地用字节的“扣子”做了一个ai的资讯…

ChatGPT高效提问—prompt实践

ChatGPT高效提问—prompt实践 ​ 探索prompt在实际生活中的各种应用,旨在帮助理解和掌握如何将之前学到的prompt基础和技巧应用到具体实践中,从而在各个领域实现人工智能的价值。 ​ 通过生动的案例,发现并挖掘ChatGPT和prompt的无穷潜力。…

亚马逊云科技AI应用 SageMaker 新突破,机器学习优势显著

(声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道) Amazon SageMaker是一种机器学习服务,帮助开发人员快速…

《MySQL 简易速速上手小册》第7章:MySQL监控和日志分析(2024 最新版)

文章目录 7.1 配置和使用 MySQL 监控工具7.1.1 基础知识7.1.2 重点案例:使用 Python 和 Prometheus 监控 MySQL 性能7.1.3 拓展案例 1:自动化 MySQL 慢查询日志分析7.1.4 拓展案例 2:实时警报系统 7.2 解读 MySQL 日志文件7.2.1 基础知识7.2.…

JAVA设计模式之命令模式详解

命令模式 1 命令模式介绍 命令模式(command pattern)的定义: 命令模式将请求(命令)封装为一个对象,这样可以使用不同的请求参数化其他对象(将不同请求依赖注入到其他对象并且能够支持请求(命令)的排队执行…

Java中的IO介绍

本章内容 一 、File概念 File可以代表一个目录或者一个文件,并不能代表文件的内容 文件和流的区别:File关注的是文件本身的特征,如名称、路径、修改时间、大小。 流关注的是文件的内容。 二、File基本的操作 常见构造方法 | File(String p…

Spring Cloud微服务网关Zuul基础入门使用

一、概述 Zuul是从设备和网络到后端应用程序所有请求的后门,为内部服务提供可配置的对外URL到服务的映射关系,基于JVM的后端路由器。具有一下的功能: 认证与授权压力测试金丝雀测试动态路由负载削减静态相应处理主动流量管理 其底层是基于…

屏幕字体种类介绍

[ Script and font support in Windows ] [Windows 中的脚本和字体支持] 在Windows 2000 以前,Windows 的每个主要版本都会添加对新脚本的文本显示支持。本文介绍了每个主要版本中的更改。 Since before Windows 2000, text-display support for new scr…

ARM PAC/BTI/MTE三剑客精讲与实战

一、PAC指针认证精讲与实战 思考 1、什么是栈溢出攻击?什么是代码重用攻击?区别与联系? 2、栈溢出攻击的软&硬件缓解技术有哪些?在TF-A&OPTEE上的应用? 3、什么是ROP攻击?对ROP攻击的缓解技术&…

【医学大模型 知识增强】SMedBERT:结构化语义知识 + 医学大模型 = 显著提升大模型医学文本挖掘性能

SMedBERT:结构化语义知识 医学大模型 显著提升医学文本挖掘任务性能 名词解释结构化语义知识预训练语言模型医学文本挖掘任务 提出背景具体步骤提及-邻居混合注意力机制实体嵌入增强实体描述增强三元组句子增强 提及-邻居上下文建模域内词汇权重学习领域自监督任务…

Swift Combine 有序的异步操作 从入门到精通十二

Combine 系列 Swift Combine 从入门到精通一Swift Combine 发布者订阅者操作者 从入门到精通二Swift Combine 管道 从入门到精通三Swift Combine 发布者publisher的生命周期 从入门到精通四Swift Combine 操作符operations和Subjects发布者的生命周期 从入门到精通五Swift Com…

论文阅读-面向公平性的分布式系统负载均衡机制

摘要 当一组自利的用户在分布式系统中共享多个资源时,我们面临资源分配问题,即所谓的负载均衡问题。特别地,负载均衡被定义为将负载分配到分布式系统的服务器上,以便最小化作业响应时间并提高服务器的利用率。在本文中&#xff0…

【客户端】聊聊卸载安装测试、新安装测试和覆盖安装测试(持续更新中)

程序安装一般会有:全新安装、卸载安装、覆盖安装这几种,那么安装渠道和方式就非常的多样化了。iOS可以商店安装、文件安装,安卓有商店安装、渠道安装、APK安装 等等。 一、不同安装方式 通常来说,大部分用户都会走到覆盖安装&…

微信小程序(四十二)wechat-http拦截器

注释很详细,直接上代码 上一篇 新增内容: 1.wechat-http请求的封装 2.wechat-http请求的拦截器的用法演示 源码: utils/http.js import http from "wechat-http"//设置全局默认请求地址 http.baseURL "https://live-api.ith…

【ES】--Elasticsearch的分词器详解

目录 一、前言二、分词器原理1、常用分词器2、ik分词器模式3、指定索引的某个字段进行分词测试3.1、采用ts_match_analyzer进行分词3.2、采用standard_analyzer进行分词三、如何调整分词器1、已存在的索引调整分词器2、特别的词语不能被拆开一、前言 最近项目需求,针对客户提…

SSM+SpringBoot框架

单例bean是线程安全的吗 AOP Spring事务失效 第四种,在方法内部使用,需要用代理类调用此方法 bean生命周期 bean的循环依赖 SpringMVC执行流程 、 SpringBoot自动配置原理 Spring常见注解 MyBatis执行流程 MyBatis延迟加载 MyBatis缓存

算法刷题:复写零

复写零 .习题链接题目描述算法原理初始值步骤1步骤2我的答案: . 习题链接 复写零 题目描述 给你一个长度固定的整数数组 arr ,请你将该数组中出现的每个零都复写一遍,并将其余的元素向右平移。 注意:请不要在超过该数组长度的位置写入元素…

C++,stl,set/mutiset详解

目录 1.set容器的构造和赋值 2.set的大小和交换 3.set的插入和删除 4.set的查找和统计 5.set和mutiset区别 6.pair对组的创建 7.set排序 1.set的内置类型指定排序规则 2.set的自定义数据类型指定排序 1.set容器的构造和赋值 #include<bits/stdc.h> using name…

Ps:统计

Ps菜单&#xff1a;文件/脚本/统计 Scripts/Statistics 统计 Statistics脚本命令提供了一种高效的方法来处理和分析大量图像&#xff0c;使用户能够自动执行复杂的图像分析任务&#xff0c;并在多个图像间应用统计学方法。这个功能极大地扩展了 Photoshop 在科学研究、图像编辑…