复旦TravelPlanner让大语言模型挑战旅程规划

引言：探索语言智能的新疆界——旅行规划

在人工智能的发展历程中，规划一直是核心追求之一。然而，由于缺乏人类水平规划所需的多种认知基础，早期的AI代理主要集中在受限的环境中。随着大语言模型（LLMs）的出现，新一代的语言代理展现出了使用工具和推理等有趣的能力。这引发了一个问题：这些语言代理是否能够在先前AI代理无法触及的更复杂环境中进行规划？

为了深入探索这一问题，我们提出了一个新的规划基准——TravelPlanner，它专注于常见的现实世界规划场景：旅行规划。这是一个即使对人类来说也具有挑战性的任务，但大多数人在有适当工具和足够时间的情况下都能成功完成。旅行规划不仅涉及多天行程的长期规划，还包括对地点、住宿、交通、餐饮等众多相互依赖的决策。此外，旅行规划还涉及许多约束，从预算和各种用户需求的明确约束到常识性的隐性约束，例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。因此，旅行规划要求强大的主动性，以使用各种工具主动获取必要信息，并在考虑所有明确和隐性约束的同时，对收集到的信息进行深思熟虑以推进规划。

论文标题: TravelPlanner: A Benchmark for Real-World Planning with Language Agents

论文链接:

https://arxiv.org/pdf/2402.01622.pdf

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

语言智能与人类规划能力的比较

人类规划能力的特点

人类的规划能力是智能的标志之一，它是基于多种能力的进化成果：使用各种工具迭代收集信息并做出决策，记录中间计划（在工作记忆或物理设备上）以供审议，以及通过运行模拟探索替代计划，这又依赖于世界模型。数十年来，研究人员一直在尝试开发能够模仿人类规划能力的AI代理，但通常是在受限的环境中，因为许多人类级别规划所需的认知基础设施一直缺失。能够在人类操作的大部分不受限制的环境中稳健工作的AI代理仍然是一个遥远的目标。

语言智能在规划任务中的表现

随着大语言模型（LLMs）的出现，新一代的语言代理出现了，它们通过使用语言作为思考和交流的工具而具有特点。这些代理展示了诸如工具使用和各种形式的推理等有趣的能力，可能满足了早期AI代理所缺乏的一些认知基础设施的角色。因此，研究人员开始研究它们在从经典规划设置到体现代理和网络代理等一系列规划任务中的潜力。然而，现有工作中的规划设置仍然主要遵循传统设置，即以固定的基本事实进行单目标优化。

TravelPlanner提出了一个新的规划基准，专注于旅行规划这一常见的现实世界规划场景。这是一个即使对于人类来说也具有挑战性和耗时的任务（但大多数人可以在有正确工具和足够时间的情况下成功完成）：规划多天的行程本质上是长期的，涉及大量相互依赖的决策，例如地点、住宿、交通、餐饮等。旅行规划涉及许多约束，从预算和各种用户需求等明确的约束到隐性的常识约束，例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。旅行规划需要强大的能动性，以主动使用各种工具（例如搜索航班和餐馆）从部分可观察的环境中获取必要信息，并在考虑所有明确和隐性的约束的同时，对收集到的信息进行深思熟虑以推进规划。这种复杂性的规划任务超出了以前AI代理的能力范围。

TravelPlanner提供了一个丰富的沙盒环境，可以通过六种工具访问大约四百万条从互联网爬取的数据记录，并精心策划了1,225个不同的用户查询（以及它们的参考计划），每个查询都施加了不同组合的约束。综合评估表明，当前的语言代理尚未能够处理如此复杂的规划任务——即使是GPT-4也只实现了0.6%的成功率。语言代理难以保持任务，使用正确的工具收集信息，或跟踪多个约束。然而，我们注意到，语言代理有可能处理如此复杂的问题本身就是一个了不起的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试床。

TravelPlanner基准的介绍与目的

TravelPlanner基准介绍

TravelPlanner提供了一个丰富的沙盒环境，包含约四百万条从互联网爬取的数据记录，可以通过六种工具访问。我们还精心策划了1,225个多样化的用户查询（以及它们的参考计划），每个查询都施加了不同组合的约束。一个代表性的例子如图1所示。

TravelPlanner的目的

我们对五种LLMs（例如GPT-4）和四种规划策略进行了全面评估，以测试它们提供完整计划的能力。结果表明，即使是最先进的语言代理也无法处理像TravelPlanner这样复杂的规划任务——GPT-4的成功率仅为0.6%。语言代理在保持任务相关、使用正确工具收集信息或跟踪多个约束方面存在困难。然而，值得注意的是，语言代理能够尝试解决如此复杂的问题本身就是一个不小的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试平台，为它们朝着人类水平的复杂规划能力攀登提供了帮助。

一个积极的迹象是，尽管我们训练有素的人类标注者平均需要12分钟手动标注一个计划，但语言代理可以在仅1-2分钟内自动产生一个计划。也许有一天，语言代理将变得足够强大，能够帮助我们自动化处理许多这样的繁琐任务。

TravelPlanner基准的构建

约束的类型与评估方法

为了评估代理是否能够感知、理解并满足各种约束以制定可行的计划，我们在TravelPlanner中包括了三种类型的约束（表1）：

环境约束：真实世界是动态的，代理需要适应性强。例如，某些目的地的航班在特定时间可能不可用，代理必须动态寻找替代方案。
常识约束：代理在现实世界中服务于人类时，应当考虑常识。例如，重复访问同一景点通常是不典型的。
硬性约束：评估代理是否能够有效满足个性化用户需求，例如预算限制。

环境设置与数据记录工具

在TravelPlanner中，我们创建了一个静态且封闭的沙盒环境，以确保一致性和无偏见的评估。这样的设置保证了所有代理都能访问到相同的、不变的信息，避免了动态数据引入的变数和潜在偏差。为了提供与现实世界相符的多样化旅行选项，我们确保TravelPlanner中每个工具的数据库都包含丰富的信息。例如，FlightSearch工具的数据库就从Kaggle Flight Status Prediction数据集中提取了2022年3月1日至4月1日的数据，并生成了价格信息（表2）。此外，代理被指示使用“NotebookWrite”工具来记录规划所需的信息，以评估代理的工作记忆管理能力，并防止因上下文累积而导致的最大token限制问题。

旅行查询的设计与分类

为了创建TravelPlanner的多样化查询，我们从基本元素出发，包括出发城市、目的地和特定日期范围，随机选择以形成每个查询的框架。然后，我们调整旅行的持续时间和硬性约束的数量来创造不同复杂性级别的查询。例如，3天的计划专注于一个城市，而5天和7天的计划涉及访问一个随机选择的州，分别包括2个和3个城市的旅行。我们还引入了多样化的用户需求作为硬性约束，以增加进一步的复杂性和现实感。最后，我们使用GPT-4生成自然语言查询。

实验设计与基线模型

实验模式与评估标准

我们从多个维度对代理提供的计划进行综合评估。评估标准包括：

交付率：评估代理是否能在有限步骤内成功交付最终计划。
常识约束通过率：评估代理是否能将常识纳入其计划中。
硬性约束通过率：衡量计划是否满足查询中明确给出的所有硬性约束。
最终通过率：在所有测试计划中，满足所有上述约束的可行计划的比例。

选取的LLMs与规划策略

我们评估了多种LLMs和规划策略在TravelPlanner上的表现。在两阶段模式中，我们使用ReAct框架进行信息收集，同时改变基础LLMs。这种方法允许我们评估在统一工具使用框架下不同LLMs的表现。在单一规划模式中，我们的评估不仅涉及不同的LLMs，还包括不同的规划策略，以评估这些在其他规划基准中被证明有效的策略是否在TravelPlanner中保持其有效性。所有实验都是在零样本设置中进行的。

实验结果与深入分析

LLMs在TravelPlanner中的表现

在TravelPlanner中，最先进的大语言模型（LLMs）面临着巨大的挑战。即使是GPT-4，其成功生成满足所有约束条件的计划的比率也仅为0.6%，而其他LLMs未能完成任何任务（表3）。这些结果表明，尽管LLMs在使用工具和推理方面展现出了一定的能力，但它们在处理复杂的旅行规划任务时仍然存在困难。LLMs在保持任务相关性、使用正确工具收集信息以及跟踪多个约束方面表现不佳。

规划策略的有效性对比

在TravelPlanner中评估的四种规划策略——ReAct和Reflexion等，虽然在简单的规划设置中可能有效，但在TravelPlanner中的多约束任务中表现不足。它们通常无法正确地将推理转化为正确的行动，并跟踪全局或多个约束。这表明，语言智能需要更复杂的规划策略来接近人类级别的规划。

语言智能在工具使用与规划中的错误分析

进一步的分析揭示了现有语言智能的许多常见失败模式，如在工具使用中的参数错误、陷入死循环以及幻觉（图2）。例如，GPT-4-Turbo在使用工具时仍然会出现参数错误和重复动作循环的问题，这表明即使在收到无效操作或空结果的反馈后，智能体仍然持续重复这些操作。这暗示了智能体未能根据环境反馈动态调整其计划。

案例研究：语言智能规划失败的原因

通过对失败案例的研究，我们可以更深入地了解当前智能体在深度规划中的缺陷（图3）。例如，智能体由于无法纠正持续的错误而未能完成计划。在工具使用场景中，智能体通常在所有前置步骤正确执行的情况下仍然无法交付计划。进一步的调查显示，这通常是由于输入日期错误导致的。此外，智能体在单独规划模式下提供幻觉答案，是因为它们在处理大量信息时容易混淆。这表明智能体可能在面对大量信息时迷失方向，这种现象被称为“Lost in the Middle”。

智能体还难以将其行动与推理对齐。例如，在使用Reflexion策略的情况下，尽管智能体认识到需要最小化成本，但它们倾向于随机选择项目，其中一些可能更昂贵。这种行动与分析推理之间的不一致性严重阻碍了智能体的交付率。

总之，TravelPlanner为当前的智能体提供了一个重大挑战。即使是在许多传统任务中表现出与人类相当或更优的SoTA LLMs和规划策略，也仍然远远不足以处理人类能够胜任的复杂规划任务。TravelPlanner为未来更有能力的语言智能体的发展提供了一个具有挑战性但有意义的测试平台。

结论与未来展望：TravelPlanner对语言智能发展的意义

结论

TravelPlanner作为一个新型的旅行规划基准测试，为语言智能的发展提供了新的视角和挑战。通过对多个大语言模型（LLMs）的综合评估，我们发现即使是最先进的语言代理框架，如GPT-4，其在最终通过率上也仅达到了0.6%。这一结果表明，当前的语言代理在处理复杂的多约束规划任务时仍然存在明显的不足。

TravelPlanner的推出，不仅验证了语言代理在工具使用、信息收集和规划制定方面的能力，也揭示了它们在保持任务相关性、正确使用工具收集信息以及跟踪多重约束方面的不足。尽管如此，语言代理能够尝试解决如此复杂的问题本身就是一个不平凡的进步。

未来展望

未来的研究可以在TravelPlanner提供的丰富沙盒环境和挑战性测试床的基础上，进一步推动语言代理的发展。我们期待未来的语言代理能够更好地理解和处理复杂的多约束规划任务，逐步接近人类水平的规划能力。此外，随着语言代理在规划任务中的自动化能力的提升，它们有望在未来帮助人类自动化处理繁琐的任务，从而节省时间和提高效率。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。