工程技术
在过去的一年里,我们与数十个跨行业的团队合作,构建基于大型语言模型(LLM)的代理。我们发现,最成功的实现并不是使用复杂的框架或专门的库,而是采用简单、可组合的模式。
在本文中,我们将分享我们从与客户合作以及自己构建代理中学到的经验,并为开发人员提供构建有效代理的实用建议。
什么是代理?
“代理”可以有多种定义方式。一些客户将代理定义为完全自主的系统,这些系统可以在较长时间内独立运行,使用各种工具来完成复杂任务。另一些客户则用这个词来描述更规范的实现,即遵循预定义工作流程的系统。我们将所有这些变体都归类为代理系统,但我们在架构上对工作流程和代理进行了重要的区分:
- 工作流是通过预定义代码路径协调
LLM
和工具的系统。 - Agent代理则是
LLM
动态指导自身流程和工具使用,控制完成任务方式的系统。
下面,我们将详细探讨这两种类型的代理系统。在附录1(“实践中的代理”)中,我们描述了客户在使用这些系统时发现特别有价值的两个领域。
何时(以及何时不)使用代理
在使用LLM构建应用程序时,我们建议寻找尽可能简单的解决方案,只有在需要时才增加复杂性。这可能意味着根本不需要构建代理系统。代理系统通常会以延迟和成本为代价来换取更好的任务性能,你应该考虑这种权衡何时是合理的。
当需要更多复杂性时,工作流程为明确定义的任务提供了可预测性和一致性,而代理则是当需要大规模的灵活性和模型驱动的决策时的更好选择。然而,对于许多应用程序来说,优化单个LLM调用,结合检索和上下文示例通常就足够了。
何时以及如何使用框架
有许多框架使得代理系统的实现更加容易,包括:
- LangChain的
LangGraph
; - Amazon Bedrock的AI代理框架;
Rivet
,一个拖放式GUI LLM工作流构建器;Vellum
,另一个用于构建和测试复杂工作流的GUI工具。
这些框架通过简化标准低级任务(如调用LLM、定义和解析工具以及链接调用)使入门变得容易。然而,它们通常会创建额外的抽象层,可能会掩盖底层的提示和响应,使它们更难调试。它们也可能诱使人们增加复杂性,而实际上更简单的设置就足够了。
我们建议开发人员首先直接使用LLM API:许多模式可以用几行代码实现。如果你确实使用了框架,请确保你理解底层代码。对底层代码的错误假设是客户错误的常见来源。
请查看我们的烹饪书以获取一些示例实现。
构建块、工作流和代理
在本节中,我们将探讨我们在生产中看到的代理系统的常见模式。我们将从我们的基础构建块——增强型LLM开始,并逐步增加复杂性,从简单的工作流到自主代理。
构建块:增强型LLM
代理系统的基石是通过检索、工具和记忆等增强功能增强的LLM。我们的当前模型可以积极使用这些能力——生成自己的搜索查询、选择合适的工具并确定要保留的信息。
我们建议专注于实现的两个关键方面:将这些能力针对特定用例进行定制,并确保它们为LLM提供了一个易于使用且文档齐全的接口。尽管有许多方法可以实现这些增强功能,但一种方法是通过我们最近发布的模型上下文协议,该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统进行集成。
在本文的其余部分中,我们将假设每次LLM调用都可以访问这些增强能力。
工作流:提示链
提示链将任务分解为一系列步骤,每个LLM调用处理前一个的输出。你可以在任何中间步骤添加程序化检查(见下图中的“门”)以确保流程仍在正轨上。
**何时使用此工作流:**此工作流适用于任务可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个LLM调用成为一个更容易的任务来换取更高的准确性,从而牺牲延迟。
提示链适用的示例:
- 生成营销文案,然后将其翻译成其他语言。
- 撰写文档大纲,检查大纲是否符合某些标准,然后根据大纲撰写文档。
工作流:路由
路由对输入进行分类,并将其导向专门的后续任务。此工作流允许分离关注点,并构建更专业的提示。如果没有此工作流,针对一种输入类型的优化可能会损害其他输入类型的性能。
**何时使用此工作流:**路由适用于复杂任务,其中存在可以单独处理的不同类别,并且分类可以由LLM或更传统的分类模型/算法准确处理。
路由适用的示例:
- 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具。
- 将简单/常见问题路由到较小的模型(如Claude 3.5 Haiku),将困难/不常见问题路由到更强大的模型(如Claude 3.5 Sonnet),以优化成本和速度。
工作流:并行化
有时,LLM可以同时处理任务,并将其输出通过程序化方式聚合。这种并行化工作流主要有两种关键变体:
- 分段:将任务分解为独立的子任务并并行运行。
- 投票:多次运行相同任务以获得多样化的输出。
**何时使用此工作流:**当可以并行化的子任务可以提高速度,或者需要多个视角或尝试以获得更有信心的结果时,此工作流效果良好。对于具有多个考虑因素的复杂任务,LLM通常在每个考虑因素由单独的LLM调用处理时表现更好,从而可以专注于每个特定方面。
并行化适用的示例:
- 分段:
- 实现护栏,其中一个模型实例处理用户查询,而另一个对它们进行不当内容或请求的筛查。这通常比让同一个LLM调用同时处理护栏和核心响应表现更好。
- 自动化评估以评估LLM性能,其中每个LLM调用评估模型在给定提示上的不同方面。
- 投票:
- 审查代码是否存在漏洞,多个不同的提示审查并标记代码,如果发现问题则标记。
- 评估给定内容是否不当,多个提示从不同方面进行评估,或需要不同的投票阈值以平衡假阳性和假阴性。
工作流:协调者-工作者
在协调者-工作者工作流中,一个中央LLM动态地分解任务,将其分配给工作者LLM,并综合它们的结果。
何时使用此工作流:
此工作流非常适合那些无法预测所需子任务的复杂任务(例如在编程中,需要更改的文件数量以及每个文件的更改性质可能取决于任务)。尽管它在结构上与并行化类似,但关键区别在于其灵活性——子任务不是预先定义的,而是由协调器根据具体输入来确定。
协调器-工作者工作流适用示例:
- 每次对多个文件进行复杂更改的编码产品。
- 搜索任务涉及从多个来源收集和分析信息,以寻找可能相关的资料。
评估器-优化器工作流
在评估器-优化器工作流中,一个 LLM 调用生成响应,而另一个在循环中提供评估和反馈。
何时使用此工作流:
当有明确的评估标准,并且迭代改进具有可衡量价值时,此工作流特别有效。适合的两个迹象是,首先,当人类表达反馈时,LLM 响应可以明显改进;其次,LLM 能够提供此类反馈。这类似于人类作家在撰写一篇精炼文档时所经历的迭代写作过程。
评估器-优化器工作流适用示例:
- 文学翻译,其中翻译 LLM 最初可能无法捕捉到细微差别,但评估器 LLM 可以提供有用的批评。
- 需要多轮搜索和分析以收集全面信息的复杂搜索任务,其中评估器决定是否需要进一步搜索。
代理(Agents)
随着 LLM 在关键能力(理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复)方面的成熟,代理开始在生产中出现。代理的工作始于人类用户的命令或互动讨论。一旦任务明确,代理就会独立计划和操作,可能会返回向人类寻求进一步信息或判断。在执行过程中,代理在每一步从环境中获得“真实情况”至关重要(例如工具调用结果或代码执行),以评估其进展。代理可以在检查点或遇到阻碍时暂停,等待人类反馈。任务通常在完成后终止,但通常也会包含停止条件(例如最大迭代次数),以保持控制。
代理可以处理复杂的任务,但其实施往往相对简单。它们通常是基于环境反馈在循环中使用工具的 LLM。因此,设计清晰且周到的工具集及其文档至关重要。我们在附录 2(“为工具进行提示工程”)中进一步阐述了工具开发的最佳实践。
何时使用代理:
当任务是开放式的,难以或无法预测所需的步骤数量,并且无法硬编码固定路径时,可以使用代理。LLM 可能会运行许多轮次,你必须对其决策有一定的信任。代理的自主性使其非常适合在受信任的环境中扩展任务。
代理的自主性意味着更高的成本,以及错误累积的可能性。我们建议在沙盒环境中进行广泛的测试,并设置适当的防护栏。
代理适用示例:
以下是我们的实际实施示例:
- 用于解决 SWE-bench 任务的编码代理,这些任务涉及根据任务描述对许多文件进行编辑;
- 我们的“计算机使用”参考实现,其中 Claude 使用计算机来完成任务。
编码代理的高级流程
结合和定制这些模式
这些构建块并不是规定性的。它们是开发者可以塑造和结合以适应不同用例的常见模式。与任何 LLM 功能一样,成功的关键是衡量性能并迭代实现。再次强调:只有在更简单的解决方案不足时,才应考虑增加复杂性。
总结
在 LLM 领域的成功并不是构建最复杂的系统,而是构建适合你需求的系统。从简单的提示开始,通过全面评估进行优化,只有在更简单的解决方案不足时,才添加多步骤的代理系统。
在实施代理时,我们努力遵循三个核心原则:
- 在代理设计中保持简洁性。
- 通过明确显示代理的规划步骤来优先考虑透明度。
- 通过彻底的工具文档和测试精心设计代理-计算机接口(ACI)。
框架可以帮助你快速开始,但在转向生产时,不要犹豫减少抽象层并使用基本组件进行构建。遵循这些原则,你可以创建出不仅强大而且可靠、可维护且受用户信任的代理。
附录 1:代理在实践中
我们与客户的工作揭示了两个特别有前景的 AI 代理应用,这些应用展示了上述模式的实际价值。这两个应用都说明了代理在需要对话和行动的任务中、有明确成功标准的任务中、能够实现反馈循环的任务中以及有有意义的人类监督的任务中,增加了最多的价值。
A. 客户支持
客户支持将熟悉的聊天机器人界面与通过工具集成增强的能力相结合。这很适合更开放式的代理,因为:
- 支持互动自然遵循对话流程,同时需要访问外部信息和行动;
- 可以集成工具来提取客户数据、订单历史和知识库文章;
- 发行退款或更新工单等行动可以以编程方式处理;
- 可以通过用户定义的解决方案清晰地衡量成功。
一些公司通过基于使用量的定价模式展示了这种方法的可行性,该模式仅对成功解决方案收费,显示出对代理有效性的信心。
B. 编码代理
软件开发领域展示了 LLM 功能的显著潜力,其能力从代码补全发展到自主解决问题。代理特别有效,因为:
- 可以通过自动化测试验证代码解决方案;
- 代理可以使用测试结果作为反馈来迭代解决方案;
- 问题空间是明确定义且结构化的;
- 可以客观衡量输出质量。
在我们自己的实现中,代理现在可以根据拉取请求描述单独解决 SWE-bench 验证基准中的真实 GitHub 问题。然而,尽管自动化测试有助于验证功能,但人类审查对于确保解决方案符合更广泛的系统要求仍然至关重要。
附录 2:为工具进行提示工程
无论你构建哪种代理系统,工具很可能是你代理的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定其确切结构和定义来与外部服务和 API 交互。当 Claude 响应时,如果它计划调用工具,它将在 API 响应中包含一个工具使用块。工具定义和规范应像你的整体提示一样受到提示工程的关注。在这个简短的附录中,我们描述了如何为工具进行提示工程。
通常有几种方法可以指定相同的动作。例如,你可以通过编写差异(diff)或重写整个文件来指定文件编辑。对于结构化输出,你可以在 Markdown 中返回代码,也可以在 JSON 中返回代码。在软件工程中,这些差异是微不足道的,可以从一种格式无损地转换为另一种格式。然而,对于 LLM 来说,有些格式比其他格式更难编写。编写差异需要知道在写入新代码之前块头中要更改的行数。与在 Markdown 中编写代码相比,在 JSON 中编写代码需要额外转义换行符和引号。
我们对决定工具格式的建议如下:
- 给模型足够的标记来“思考”,以免它把自己写到死胡同。
- 保持格式接近模型在互联网上自然看到的格式。
- 确保没有格式“开销”,例如需要准确统计数千行代码的行数,或者转义它所编写的任何代码。
一个经验法则是,考虑在人机界面(HCI)上投入了多少努力,并计划在创建良好的代理-计算机界面(ACI)上投入同样多的努力。以下是一些关于如何做到这一点的想法:
- 设身处地为模型着想。根据描述和参数,使用这个工具是否显而易见,还是需要仔细思考?如果是后者,那么对于模型来说很可能也是这样。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
- 你可以如何改变参数名称或描述以使事情更明显?将其视为为团队中的初级开发人员编写一个出色的文档字符串。当使用许多相似工具时,这尤其重要。
- 测试模型如何使用你的工具:在我们的工作台中运行许多示例输入,看看模型犯了什么错误,并进行迭代。
- 防错你的工具。改变参数,使其更难犯错误。
在构建我们的SWE-bench
代理时,我们实际上在优化工具上花费的时间比整体提示还要多。例如,我们发现模型在代理移出根目录后,使用相对文件路径的工具会犯错误。为了解决这个问题,我们将工具改为始终要求绝对文件路径——我们发现模型使用这种方法毫无瑕疵。