Agent终于能主动进化？揭秘首个让AI自我进化的训练框架！突破人类专家局限，告别手动调优！端到端符号化框架如何引领AI自我革命

随着大型语言模型(LLMs)的兴起和AI Agent框架的开源，基于这些强大模型的智能体在学术界和工业界受到了极大的关注，并在多个场景中取得了显著的成果。然而，尽管AI Agent在一些应用中已经落地，其研究和开发仍然主要依赖于“专家中心”或“工程中心”的模式。这意味着智能体的创建和优化过程主要依靠算法工程师的专业知识和经验来设计其提示词(prompts)、工具(tools)和工作流程(workflow)。这种方法不仅耗时耗力，而且难以利用大规模数据对智能体的符号化元素进行有效的学习和训练。此外，许多智能体依赖于闭源API，无法对底层的大型模型进行优化，即使使用开源模型，由于资源、算力和稳定性的限制，对模型本身的优化也往往难以实施。因此，当前的智能体技术仍处于“专家系统”的发展阶段。

众所周知，神经网络之所以成为机器学习和人工智能领域的基础范式，是因为它们能够高效地利用大量数据进行训练和优化，而无需手工设计复杂的结构和学习算法。正是这种从“专家中心”向“数据中心”的转变，使得神经网络技术得以快速发展并广泛应用于各种任务。

波形智能的研究人员认识到，AI Agent领域也需要经历类似的转变。为了推动这一进程，他们借鉴了神经网络的连接主义学习方法，特别是反向传播和梯度下降算法。研究团队将AI Agent视为一个“符号化”的神经网络，其中智能体的工作流程相当于神经网络的计算图，每个节点(node)相当于网络中的层(layer)，而节点中的提示词和工具则相当于层中的权重。通过这种类比，研究团队构建了Agent Symbolic Learning框架，该框架使用自然语言和大型语言模型来模拟损失函数、梯度和优化器，并实现了一种端到端的符号化训练算法。

Agent Symbolic Learning框架的核心在于，它允许智能体自主地优化其自身的符号化元素，包括提示词、工具和工作流程，而无需依赖人类专家的手动设计。这使得智能体能够以数据为中心的方式进行学习和进化，从而克服了传统“专家中心”模式的局限性。通过这种方式，智能体可以更有效地利用大量数据进行自我学习和自我优化，实现更加高效和自动化的智能体开发过程。

此外，Agent Symbolic Learning框架还支持智能体在实际环境和交互中的自主进化。智能体可以将该框架作为一个工具，集成到自身的工作流程中，通过不断收集新的训练样本，并主动调用训练算法，对自身的符号化元素进行实时更新和优化。这种自主进化的能力使得智能体能够适应不断变化的环境和需求，展现出更加灵活和适应性强的智能行为。

接下来我们大白话提纯一下论文中的核心内容。

论文地址：https://arxiv.org/pdf/2406.18532

核心思路

这个创新方法的核心是将基于大型语言模型的智能体(Agent)转化为一个可以通过符号学习自我优化的系统。这个过程涉及到将智能体的各个组成部分重新构想为神经网络的类似物，从而允许智能体模仿传统神经网络的训练过程。

图：代理符号学习和神经网络联结主义学习之间的相似性

这种方法其是就是让那些基于大型语言模型的智能代理(我们可以把它们想象成非常复杂的电脑程序，能够执行各种任务)能够自我学习和自我改进。这些智能代理就像是拥有自己工作流程的“数字员工”，它们可以阅读文件、回答问题，甚至编写代码。

为了实现这一目标，首先，团队将智能体分解为三个核心元素：提示(prompts)、工具(tools)和智能体的工作流程(agent pipeline)。智能体的每个节点(node)，相当于神经网络中的层(layer)，而每个节点中使用的提示和工具，相当于神经网络层中的权重。这样，智能体的工作流程可以类比为神经网络的计算图，指导数据通过一系列处理步骤。

在这个框架下，智能体系统被视为一个“符号化”的神经网络。这里的“符号化”指的是权重由传统的数值张量转换为自然语言形式的表达，使得权重、损失函数和梯度以自然语言的形式存在。这种转换使得智能体能够使用语言提示来优化其行为和输出，就像神经网络通过数值权重进行学习一样。

符号学习框架的核心在于模仿连接主义学习中的关键算法——反向传播和梯度下降。在传统的神经网络中，这些算法通过计算损失相对于权重的梯度来更新权重，以减少预测误差。这就像是给智能代理一个反馈循环，让它们知道自己在执行任务时的表现，并根据这些反馈来调整自己的工作方式。

在符号学习框架中，智能体使用自然语言形式的梯度来更新其提示和工具，从而优化整个智能体系统的性能。例如，如果智能代理在回答问题时给出了不太准确的答案，符号学习框架会帮助它理解哪里做得不够好，并自动调整它的“工作手册”，以便下次做得更好。这个过程不需要人类干预，智能代理可以独立学习和进步。

再给这个流程用大白话翻译一下，意思是假如我们要训练一个能帮我们规划旅行的 AI Agent 。来自波形智能的研究团队呢，他们看到训练神经网络时常用反向传播和梯度下降这两种办法效果不错。于是就想，能不能把这个 AI Agent 也像神经网络那样来训练。他们就用我们输入的旅行需求文本，还有大模型，来弄出像损失函数(可以理解为衡量训练效果好不好的指标)、梯度(告诉我们怎么调整训练方向)和优化器(帮助找到更好的训练方法)这些东西。就好像我们在爬山，损失函数告诉我们离山顶还有多远，梯度告诉我们往哪个方向走能更快到山顶，优化器就是帮我们选择最好的路线。通过这样的方式，他们模拟了反向传播和梯度下降的算法，做出了一套能够从开始到结束完整地训练这个规划旅行的 AI Agent 的算法框架。

具体流程

在前向传播阶段，智能体执行任务，同时记录下每个节点的输入、输出、提示词和工具使用情况，这些信息被存储在所谓的“轨迹”(Trajectory)中。随后，利用大型语言模型和精心设计的提示词，智能体对任务完成情况进行评估，生成所谓的“语言损失”(Language Loss)，这是一种文本形式的损失函数，用于衡量智能体的表现与预期目标之间的差距。

接下来，智能体利用语言损失进行反向传播。这个过程模拟了神经网络中基于链式法则的梯度计算，通过一系列精心设计的提示词，智能体能够生成对每个节点的“语言梯度”(Language Gradients)，好理解一点就是生成生成智能体流程中对最后一个节点的 “反思。这些语言梯度类似于传统神经网络中的梯度，它们提供了如何调整提示词和工具以最小化整体损失的反馈，也就是模型的输出应该怎样变化才能更符合要求，以及提示词和工具调用应该如何优化才能使输出朝这样的方向发生变化。

最后，智能体根据这些语言梯度更新每个节点中的提示词和工具。这一过程通过“符号优化器”(Symbolic Optimizers)完成，这些优化器是专门设计的提示词，是波形智能的研究人员基于链式法则的公式的反向传播的启发设计出来的一套prompt，来模拟传统神经网络优化的链式法则，这套Prompt能够针对智能体的符号权重进行优化。这包括针对提示词的PromptOptimizer、针对工具的ToolOptimizer，输出优化过后的 prompts 和 tools，从而实现对智能体参数的更新。

此外还有针对整个智能体工作流程的PipelineOptimizer，即agent workflow的优化。具体来说就是通过将工作流程用特定的编程语言表示，智能体的计算图也变成了符号化的权重。然后，使用一个单独的优化器，根据当前智能体的工作流和节点的语言梯度来更新工作流程，这在神经网络训练中类似于自动网络结构搜索的研究。

测评表现

根据提供的文件内容，Agent Symbolic Learning框架在大模型评测任务和智能体级别评测任务上的实验结果如下：

大模型评测任务(LLM Benchmarks)：

HotPotQA: 该任务是一个多跳问题回答任务，需要丰富的背景知识。Agent Symbolic Learning框架在这个任务上的表现超过了所有比较的方法，包括GPT-3.5、GPT-4、以及使用自动提示工程优化的智能体(Agents with AutoPE)和DSPy方法。

MATH: 包含具有挑战性的数学竞赛问题。在这个任务上，Agent Symbolic Learning框架的性能提升尤其显著，相比其他方法有大幅度的领先。

HumanEval: 需要LLM或智能体从文档字符串合成程序。Agent Symbolic Learning框架同样在这个任务上展现了优越的性能。

具体的性能提升表现在，Agent Symbolic Learning框架在HotPotQA和MATH任务上的得分分别为35/44.8和41/54.0，而在HumanEval任务上的得分为85.8，均高于其他比较的基线方法。

智能体级别评测任务(Complex Agent Tasks)：

创意写作任务(Creative Writing): 智能体需要根据给定的四个随机句子写出一个连贯的四段文章，每段的结尾分别是这四个输入句子。Agent Symbolic Learning框架在这项任务上的表现显著优于基线方法，包括GPTs、Agents以及使用自动提示工程优化的智能体(Agents with AutoPE)，甚至超过了树状思维(Tree of Thoughts)方法。

软件开发任务(Software Development): 智能体需要根据简单的产品需求文档(PRD)开发可执行的软件。Agent Symbolic Learning框架在这项任务上同样展现了出色的性能，与基线方法相比，能够生成更高质量的软件。

在软件开发任务中，Agent Symbolic Learning框架在多个游戏开发子任务上的平均得分为3.8，远高于GPTs和Agents方法的平均得分1.6和2.4。

Agent Symbolic Learning框架通过联合优化智能体系统中的所有符号组件，包括提示词、工具和智能体的工作流程，能够显著提升智能体在不同任务上的性能。实验结果表明，该框架不仅在传统的语言模型评测任务上表现出色，更能在复杂的智能体任务中实现有效的优化和自我进化，从而推动了从模型为中心到数据为中心的智能体研究的重要一步。波形智能的研究团队提出了Agent Symbolic Learning框架，它为AI智能体的创建和优化提供了两种主要的应用场景。这一框架的设计理念是将AI智能体视为一个由prompts(提示词)和tools(工具)组成的复杂workflow(工作流)，这些元素共同构成了智能体的“符号化神经网络”。通过模仿神经网络的反向传播和梯度下降算法，Agent Symbolic Learning框架使得智能体能够自主地优化其自身的结构和参数，实现数据为中心的学习(data-centric learning)。

应用场景

应用场景一：智能体的创建和调优

在第一种应用场景中，开发者和研究人员可以利用Agent Symbolic Learning框架进行智能体的创建和调优。这个过程类似于训练神经网络：首先，针对特定的任务收集大量的样本数据;然后，使用Agent Symbolic Learning框架在这些数据上训练和优化智能体。与传统的神经网络训练相似，这个过程需要大量的计算资源和数据。一旦训练完成，智能体就可以被部署到生产环境中，以静态的方式执行其任务。

应用场景二：支持自主进化的智能体

第二种应用场景则更加先进，它允许智能体在实际环境或交互中自主进化。Agent Symbolic Learning框架的这一应用得益于其对大型语言模型的调用能力，它不需要复杂的基于GPU的训练和部署过程。这意味着，智能体可以将Agent Symbolic Learning框架作为一个工具，集成到自身的工作流程中。在与环境的探索或与人类的交互过程中，智能体可以不断收集新的训练样本，并主动调用Agent Symbolic Learning框架进行自我更新，优化其prompts、tools和workflow。

开源贡献与未来展望

波形智能的研究团队不仅在理论上提出了Agent Symbolic Learning框架，还在实践中将其应用于AIWaves Agents的开源代码库中，实现了首个能够在实际产品和生产环境中不断自主进化的智能体系统。这一成果不仅解决了智能体人工优化和评测的难题，也为智能体领域的学术界和工业界提供了一个全新的研究方向和工具。

代码仓库：https://github.com/aiwaves-cn/agents

为了进一步推动“数据为中心的智能体”(Data-centric Agent)和“智能体学习”(Agent Learning)的发展，波形智能的研究团队选择将Agent Symbolic Learning框架的全部代码开源，鼓励更多的研究者和开发者参与到这一领域的探索中来。通过开源合作，波形智能期待与各界共同发掘更多创新的算法和应用，推动智能体技术的进步和普及。

总Agent Symbolic Learning框架的提出和开源，标志着智能体技术向自主学习和进化迈出了重要的一步。通过这种符号学习框架，智能体不仅能够从数据中学习，还能够在被创建和部署后自我进化，成为“自进化智能体”。这一框架不仅为智能体的创建和优化提供了新的方法，也为智能体在实际应用中的持续进化和自我完善提供了可能，预示着智能体技术未来的发展方向。