如何构建简单有效的AI Agents代理?

news2025/3/22 9:50:43

工程技术

在过去的一年里,我们与数十个跨行业的团队合作,构建基于大型语言模型(LLM)的代理。我们发现,最成功的实现并不是使用复杂的框架或专门的库,而是采用简单、可组合的模式。

在本文中,我们将分享我们从与客户合作以及自己构建代理中学到的经验,并为开发人员提供构建有效代理的实用建议。

什么是代理?

“代理”可以有多种定义方式。一些客户将代理定义为完全自主的系统,这些系统可以在较长时间内独立运行,使用各种工具来完成复杂任务。另一些客户则用这个词来描述更规范的实现,即遵循预定义工作流程的系统。我们将所有这些变体都归类为代理系统,但我们在架构上对工作流程代理进行了重要的区分:

  • 工作流是通过预定义代码路径协调LLM和工具的系统。
  • Agent代理则是LLM动态指导自身流程和工具使用,控制完成任务方式的系统。

下面,我们将详细探讨这两种类型的代理系统。在附录1(“实践中的代理”)中,我们描述了客户在使用这些系统时发现特别有价值的两个领域。

何时(以及何时不)使用代理

在使用LLM构建应用程序时,我们建议寻找尽可能简单的解决方案,只有在需要时才增加复杂性。这可能意味着根本不需要构建代理系统。代理系统通常会以延迟和成本为代价来换取更好的任务性能,你应该考虑这种权衡何时是合理的。

当需要更多复杂性时,工作流程为明确定义的任务提供了可预测性和一致性,而代理则是当需要大规模的灵活性和模型驱动的决策时的更好选择。然而,对于许多应用程序来说,优化单个LLM调用,结合检索和上下文示例通常就足够了。

何时以及如何使用框架

有许多框架使得代理系统的实现更加容易,包括:

  • LangChainLangGraph
  • Amazon Bedrock的AI代理框架;
  • Rivet,一个拖放式GUI LLM工作流构建器;
  • Vellum,另一个用于构建和测试复杂工作流的GUI工具。

这些框架通过简化标准低级任务(如调用LLM、定义和解析工具以及链接调用)使入门变得容易。然而,它们通常会创建额外的抽象层,可能会掩盖底层的提示和响应,使它们更难调试。它们也可能诱使人们增加复杂性,而实际上更简单的设置就足够了。

我们建议开发人员首先直接使用LLM API:许多模式可以用几行代码实现。如果你确实使用了框架,请确保你理解底层代码。对底层代码的错误假设是客户错误的常见来源。

请查看我们的烹饪书以获取一些示例实现。

构建块、工作流和代理

在本节中,我们将探讨我们在生产中看到的代理系统的常见模式。我们将从我们的基础构建块——增强型LLM开始,并逐步增加复杂性,从简单的工作流到自主代理。

构建块:增强型LLM

代理系统的基石是通过检索、工具和记忆等增强功能增强的LLM。我们的当前模型可以积极使用这些能力——生成自己的搜索查询、选择合适的工具并确定要保留的信息。

在这里插入图片描述

我们建议专注于实现的两个关键方面:将这些能力针对特定用例进行定制,并确保它们为LLM提供了一个易于使用且文档齐全的接口。尽管有许多方法可以实现这些增强功能,但一种方法是通过我们最近发布的模型上下文协议,该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统进行集成。

在本文的其余部分中,我们将假设每次LLM调用都可以访问这些增强能力。

工作流:提示链

提示链将任务分解为一系列步骤,每个LLM调用处理前一个的输出。你可以在任何中间步骤添加程序化检查(见下图中的“门”)以确保流程仍在正轨上。
在这里插入图片描述

**何时使用此工作流:**此工作流适用于任务可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个LLM调用成为一个更容易的任务来换取更高的准确性,从而牺牲延迟。

提示链适用的示例:

  • 生成营销文案,然后将其翻译成其他语言。
  • 撰写文档大纲,检查大纲是否符合某些标准,然后根据大纲撰写文档。

工作流:路由

路由对输入进行分类,并将其导向专门的后续任务。此工作流允许分离关注点,并构建更专业的提示。如果没有此工作流,针对一种输入类型的优化可能会损害其他输入类型的性能。

在这里插入图片描述

**何时使用此工作流:**路由适用于复杂任务,其中存在可以单独处理的不同类别,并且分类可以由LLM或更传统的分类模型/算法准确处理。

路由适用的示例:

  • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具。
  • 将简单/常见问题路由到较小的模型(如Claude 3.5 Haiku),将困难/不常见问题路由到更强大的模型(如Claude 3.5 Sonnet),以优化成本和速度。

工作流:并行化

有时,LLM可以同时处理任务,并将其输出通过程序化方式聚合。这种并行化工作流主要有两种关键变体:

  • 分段:将任务分解为独立的子任务并并行运行。
  • 投票:多次运行相同任务以获得多样化的输出。

在这里插入图片描述

**何时使用此工作流:**当可以并行化的子任务可以提高速度,或者需要多个视角或尝试以获得更有信心的结果时,此工作流效果良好。对于具有多个考虑因素的复杂任务,LLM通常在每个考虑因素由单独的LLM调用处理时表现更好,从而可以专注于每个特定方面。

并行化适用的示例:

  • 分段
    • 实现护栏,其中一个模型实例处理用户查询,而另一个对它们进行不当内容或请求的筛查。这通常比让同一个LLM调用同时处理护栏和核心响应表现更好。
    • 自动化评估以评估LLM性能,其中每个LLM调用评估模型在给定提示上的不同方面。
  • 投票
    • 审查代码是否存在漏洞,多个不同的提示审查并标记代码,如果发现问题则标记。
    • 评估给定内容是否不当,多个提示从不同方面进行评估,或需要不同的投票阈值以平衡假阳性和假阴性。

工作流:协调者-工作者

在协调者-工作者工作流中,一个中央LLM动态地分解任务,将其分配给工作者LLM,并综合它们的结果。

在这里插入图片描述

何时使用此工作流:
此工作流非常适合那些无法预测所需子任务的复杂任务(例如在编程中,需要更改的文件数量以及每个文件的更改性质可能取决于任务)。尽管它在结构上与并行化类似,但关键区别在于其灵活性——子任务不是预先定义的,而是由协调器根据具体输入来确定。

协调器-工作者工作流适用示例:

  • 每次对多个文件进行复杂更改的编码产品。
  • 搜索任务涉及从多个来源收集和分析信息,以寻找可能相关的资料。

评估器-优化器工作流

在评估器-优化器工作流中,一个 LLM 调用生成响应,而另一个在循环中提供评估和反馈。
在这里插入图片描述

何时使用此工作流:
当有明确的评估标准,并且迭代改进具有可衡量价值时,此工作流特别有效。适合的两个迹象是,首先,当人类表达反馈时,LLM 响应可以明显改进;其次,LLM 能够提供此类反馈。这类似于人类作家在撰写一篇精炼文档时所经历的迭代写作过程。

评估器-优化器工作流适用示例:

  • 文学翻译,其中翻译 LLM 最初可能无法捕捉到细微差别,但评估器 LLM 可以提供有用的批评。
  • 需要多轮搜索和分析以收集全面信息的复杂搜索任务,其中评估器决定是否需要进一步搜索。

代理(Agents)

随着 LLM 在关键能力(理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复)方面的成熟,代理开始在生产中出现。代理的工作始于人类用户的命令或互动讨论。一旦任务明确,代理就会独立计划和操作,可能会返回向人类寻求进一步信息或判断。在执行过程中,代理在每一步从环境中获得“真实情况”至关重要(例如工具调用结果或代码执行),以评估其进展。代理可以在检查点或遇到阻碍时暂停,等待人类反馈。任务通常在完成后终止,但通常也会包含停止条件(例如最大迭代次数),以保持控制。

代理可以处理复杂的任务,但其实施往往相对简单。它们通常是基于环境反馈在循环中使用工具的 LLM。因此,设计清晰且周到的工具集及其文档至关重要。我们在附录 2(“为工具进行提示工程”)中进一步阐述了工具开发的最佳实践。
在这里插入图片描述

何时使用代理:
当任务是开放式的,难以或无法预测所需的步骤数量,并且无法硬编码固定路径时,可以使用代理。LLM 可能会运行许多轮次,你必须对其决策有一定的信任。代理的自主性使其非常适合在受信任的环境中扩展任务。

代理的自主性意味着更高的成本,以及错误累积的可能性。我们建议在沙盒环境中进行广泛的测试,并设置适当的防护栏。

代理适用示例:
以下是我们的实际实施示例:

  • 用于解决 SWE-bench 任务的编码代理,这些任务涉及根据任务描述对许多文件进行编辑;
  • 我们的“计算机使用”参考实现,其中 Claude 使用计算机来完成任务。

编码代理的高级流程

结合和定制这些模式
这些构建块并不是规定性的。它们是开发者可以塑造和结合以适应不同用例的常见模式。与任何 LLM 功能一样,成功的关键是衡量性能并迭代实现。再次强调:只有在更简单的解决方案不足时,才应考虑增加复杂性。

总结
在 LLM 领域的成功并不是构建最复杂的系统,而是构建适合你需求的系统。从简单的提示开始,通过全面评估进行优化,只有在更简单的解决方案不足时,才添加多步骤的代理系统。

在实施代理时,我们努力遵循三个核心原则:

  • 在代理设计中保持简洁性。
  • 通过明确显示代理的规划步骤来优先考虑透明度。
  • 通过彻底的工具文档和测试精心设计代理-计算机接口(ACI)。

框架可以帮助你快速开始,但在转向生产时,不要犹豫减少抽象层并使用基本组件进行构建。遵循这些原则,你可以创建出不仅强大而且可靠、可维护且受用户信任的代理。

附录 1:代理在实践中
我们与客户的工作揭示了两个特别有前景的 AI 代理应用,这些应用展示了上述模式的实际价值。这两个应用都说明了代理在需要对话和行动的任务中、有明确成功标准的任务中、能够实现反馈循环的任务中以及有有意义的人类监督的任务中,增加了最多的价值。

A. 客户支持
客户支持将熟悉的聊天机器人界面与通过工具集成增强的能力相结合。这很适合更开放式的代理,因为:

  • 支持互动自然遵循对话流程,同时需要访问外部信息和行动;
  • 可以集成工具来提取客户数据、订单历史和知识库文章;
  • 发行退款或更新工单等行动可以以编程方式处理;
  • 可以通过用户定义的解决方案清晰地衡量成功。
    一些公司通过基于使用量的定价模式展示了这种方法的可行性,该模式仅对成功解决方案收费,显示出对代理有效性的信心。

B. 编码代理
软件开发领域展示了 LLM 功能的显著潜力,其能力从代码补全发展到自主解决问题。代理特别有效,因为:

  • 可以通过自动化测试验证代码解决方案;
  • 代理可以使用测试结果作为反馈来迭代解决方案;
  • 问题空间是明确定义且结构化的;
  • 可以客观衡量输出质量。
    在我们自己的实现中,代理现在可以根据拉取请求描述单独解决 SWE-bench 验证基准中的真实 GitHub 问题。然而,尽管自动化测试有助于验证功能,但人类审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录 2:为工具进行提示工程
无论你构建哪种代理系统,工具很可能是你代理的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定其确切结构和定义来与外部服务和 API 交互。当 Claude 响应时,如果它计划调用工具,它将在 API 响应中包含一个工具使用块。工具定义和规范应像你的整体提示一样受到提示工程的关注。在这个简短的附录中,我们描述了如何为工具进行提示工程。

通常有几种方法可以指定相同的动作。例如,你可以通过编写差异(diff)或重写整个文件来指定文件编辑。对于结构化输出,你可以在 Markdown 中返回代码,也可以在 JSON 中返回代码。在软件工程中,这些差异是微不足道的,可以从一种格式无损地转换为另一种格式。然而,对于 LLM 来说,有些格式比其他格式更难编写。编写差异需要知道在写入新代码之前块头中要更改的行数。与在 Markdown 中编写代码相比,在 JSON 中编写代码需要额外转义换行符和引号。

我们对决定工具格式的建议如下:

  • 给模型足够的标记来“思考”,以免它把自己写到死胡同。
  • 保持格式接近模型在互联网上自然看到的格式。
  • 确保没有格式“开销”,例如需要准确统计数千行代码的行数,或者转义它所编写的任何代码。

一个经验法则是,考虑在人机界面(HCI)上投入了多少努力,并计划在创建良好的代理-计算机界面(ACI)上投入同样多的努力。以下是一些关于如何做到这一点的想法:

  • 设身处地为模型着想。根据描述和参数,使用这个工具是否显而易见,还是需要仔细思考?如果是后者,那么对于模型来说很可能也是这样。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
  • 你可以如何改变参数名称或描述以使事情更明显?将其视为为团队中的初级开发人员编写一个出色的文档字符串。当使用许多相似工具时,这尤其重要。
  • 测试模型如何使用你的工具:在我们的工作台中运行许多示例输入,看看模型犯了什么错误,并进行迭代。
  • 防错你的工具。改变参数,使其更难犯错误。
    在构建我们的 SWE-bench 代理时,我们实际上在优化工具上花费的时间比整体提示还要多。例如,我们发现模型在代理移出根目录后,使用相对文件路径的工具会犯错误。为了解决这个问题,我们将工具改为始终要求绝对文件路径——我们发现模型使用这种方法毫无瑕疵。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2319486.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【虚幻引擎UE5】SpawnActor生成Character实例不执行AI Move To,未初始化AIController的原因和解决方法

虚幻引擎版本:5.5.4 问题描述 刚创建的Third Person项目里,定义一个BP_Enemy蓝图,拖拽到场景中产生的实例会追随玩家,但SpawnActor产生的实例会固定不动。BP_Enemy蓝图具体设计如下: BP_Enemy的Event Graph ​​ 又定义…

查看GPU型号、大小;CPU型号、个数、核数、内存

GPU型号、大小 nvidia-smiCPU型号 cat /proc/cpuinfo | grep model name | uniqCPU个数 cat /proc/cpuinfo | grep "physical id" | uniq | wc -lCPU核数 cat /proc/cpuinfo | grep "cpu cores" | uniqCPU内存 cat /proc/meminfo | grep MemTotal参考…

xcode中移除安装的package dependency

有的依赖包安装之后,没有用,所以就需要把这个依赖项去掉,找了好久没有找到在哪里,最后发现在项目详情里面: 选中这一项,然后删除就可以了

星越L_ 雨刷使用功能讲解

目录 1.向下拨动 2,向上拨动 3.调节雨刷的灵敏度 4.再次向上拨动 5.再向上 6.向内侧拨动 7.后雨刷开启 8.向外侧拨动 9.更换雨刷 1.向下拨动 雨刷单次工作 2,向上拨动 自动雨刷开启 3.调节雨刷的灵敏度 转动滚轮调节雨刷的灵敏度

卷积神经网络 - 梯度和反向传播算法

在卷积网络中,参数为卷积核中权重以及偏置。和全连接前馈网络类似,卷积网络也可以通过误差反向传播算法来进行参数学习。本文我们从数学角度,来学习卷积神经网络梯度的推导和其反向传播算法的原理。 一、梯度:损失函数 L 关于第 …

基于 Java 和深度学习的图像分类应用实践

前言 随着人工智能技术的飞速发展,深度学习在图像处理、自然语言处理等领域展现出强大的能力。然而,许多开发者认为深度学习只能依赖 Python 的框架(如 TensorFlow 或 PyTorch)。事实上,Java 生态也有成熟的深度学习库,如 Deeplearning4j(DL4J),适合企业级应用场景。…

如何实现园区零碳管理?安科瑞EMS3.0推动园区低碳转型

当工业园区电费年耗超千万、碳排数据成监管红线,传统“拉闸限电”式管理已无法应对双碳倒计时——如何让光伏、储能、充电桩“听懂指令”,让每一度电创造3倍价值?187*210*98*782 一、零碳园区管理的三大痛点 1. 能源错配严重:风…

Python Django入门(创建其他网页)

在本章中,你将学习如何使用 Django(http://djangoproject.com/ )来开发一个名为“学习笔记”(Learning Log)的项目,这是一个在线日志系统,让你能够记录所学习的有关特定主题的知识。 我们将为这…

Error: The resource name must start with a letter

Error: The resource name must start with a letter 这个错误通常是由于资源名称(如布局文件、字符串资源、ID 等)不符合命名规则导致的。Android 资源名称必须遵循以下规则: 必须以字母开头(不能以数字或下划线开头&#xff09…

2025年- G23-Lc97-104.二叉树的最大深度-java版(递归调用左右子树)

1.题目描述 2.思路 要用到max函数,返回的时候返回左右子树的最大值。其次要递归调用左右子树,寻找最大深度。 在每个递归返回时,我们 必须把当前节点的深度算进去,否则我们只计算了子树的深度,而没有包括当前节点。 …

Powershell WSL Windows系统复制数据到ubuntu子系统系统

从本地D盘下拷贝数据到ubuntu子系统下 Powershell 管理员打开执行 /mnt/d 此处是本地Windows系统的路径表示/opt ubutu 子系统目录 wsl -d Ubuntu-22.04 -u root -- bash -c cp -rf /mnt/d/nginx.conf /opt/从ubuntu子系统中拷贝数据到本地D盘下 Powershell 管理员打开执行…

到底爱不爱我

L2-3 到底爱不爱我 古代少女有了心上人时,会悄悄折一条树枝,揪那枝上的叶子,揪一片叶子念一句“爱我”,再揪一片念一句“不爱我”…… 这样揪落最后一片叶子的时候,看看是停在“爱”还是“不爱”。 但聪明的慧娘一眼洞…

Python 3.13.2安装教程(安装包)Python 3.13.2 快速安装指南

文章目录 前言一 、Python 3.13.2下载二、Python 3.13.2安装教程1.运行安装程序2.选择安装方式3.自定义安装选项4.开始安装5.安装完成6.打开程序7.验证安装 前言 Python 作为一门通用编程语言,在全球拥有庞大的用户群体。其简洁易读的语法和丰富的库,使…

Linux驱动学习笔记(六)

平台总线 1.平台总线模型也叫platform总线模型,平台总线是Linux系统虚拟出来的总线, 引入总线的概念可以对驱动代码和设备信息进行分离。平台总线模型将一个驱动分成了两个部分:platform_device和platform_driver,例如可使用文件device.c和d…

w264民族婚纱预定系统

🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…

Compose 实践与探索十五 —— 自定义触摸

1、自定义触摸与一维滑动监测 之前我们在讲 Modifier 时讲过如下与手势检测相关的 Modifier: Modifier.clickable { } Modifier.combinedClickable { } Modifier.pointerInput {detectTapGestures { } }这里对以上内容就不再赘述了,直接去讲解更复杂的…

炫酷的3D按钮效果实现 - CSS3高级特性应用

炫酷的3D按钮效果实现 - CSS3高级特性应用 这里写目录标题 炫酷的3D按钮效果实现 - CSS3高级特性应用项目介绍核心技术实现1. 基础结构设计2. 视觉效果实现2.1 背景渐变2.2 立体感营造 3. 交互动效设计3.1 悬停效果3.2 按压效果 技术要点分析1. 深度层次感2. 动画过渡3. 性能优…

teaming技术

一.介绍 在CentOS 6与RHEL 6系统中,双网卡绑定采用的是bonding技术。到了CentOS 7,不仅能继续沿用bonding,还新增了teaming技术。在此推荐使用teaming,因其在查看与监控方面更为便捷 。 二.原理 这里介绍两种最常见的双网卡绑定…

【JavaEE进阶】Linux常用命令

目录 🍃前言 🌴pwd 与 ls 🚩pwd 🚩ls 🎍cd 🌲mkdir与touch 🚩mkdir 🚩touch 🍀cat与rm 🚩cat 🚩rm 🎋vim 🚩…

【FastGPT】利用知识库创建AI智能助手

【FastGPT】利用知识库创建AI智能助手 摘要创建知识库上传文档创建应用准备提示词准备开场白关联知识库AI回答效果 摘要 关于FastGPT的部署,官方提供了docker-compose方式的部署文档,如果使用的是podman和podman-compose的同学,可以参考这篇…