Agent终于能主动进化?揭秘首个让AI自我进化的训练框架!突破人类专家局限,告别手动调优!端到端符号化框架如何引领AI自我革命

news2025/1/15 22:59:44

随着大型语言模型(LLMs)的兴起和AI Agent框架的开源,基于这些强大模型的智能体在学术界和工业界受到了极大的关注,并在多个场景中取得了显著的成果。然而,尽管AI Agent在一些应用中已经落地,其研究和开发仍然主要依赖于“专家中心”或“工程中心”的模式。这意味着智能体的创建和优化过程主要依靠算法工程师的专业知识和经验来设计其提示词(prompts)、工具(tools)和工作流程(workflow)。这种方法不仅耗时耗力,而且难以利用大规模数据对智能体的符号化元素进行有效的学习和训练。此外,许多智能体依赖于闭源API,无法对底层的大型模型进行优化,即使使用开源模型,由于资源、算力和稳定性的限制,对模型本身的优化也往往难以实施。因此,当前的智能体技术仍处于“专家系统”的发展阶段。

众所周知,神经网络之所以成为机器学习和人工智能领域的基础范式,是因为它们能够高效地利用大量数据进行训练和优化,而无需手工设计复杂的结构和学习算法。正是这种从“专家中心”向“数据中心”的转变,使得神经网络技术得以快速发展并广泛应用于各种任务。

波形智能的研究人员认识到,AI Agent领域也需要经历类似的转变。为了推动这一进程,他们借鉴了神经网络的连接主义学习方法,特别是反向传播和梯度下降算法。研究团队将AI Agent视为一个“符号化”的神经网络,其中智能体的工作流程相当于神经网络的计算图,每个节点(node)相当于网络中的层(layer),而节点中的提示词和工具则相当于层中的权重。通过这种类比,研究团队构建了Agent Symbolic Learning框架,该框架使用自然语言和大型语言模型来模拟损失函数、梯度和优化器,并实现了一种端到端的符号化训练算法。

Agent Symbolic Learning框架的核心在于,它允许智能体自主地优化其自身的符号化元素,包括提示词、工具和工作流程,而无需依赖人类专家的手动设计。这使得智能体能够以数据为中心的方式进行学习和进化,从而克服了传统“专家中心”模式的局限性。通过这种方式,智能体可以更有效地利用大量数据进行自我学习和自我优化,实现更加高效和自动化的智能体开发过程。

此外,Agent Symbolic Learning框架还支持智能体在实际环境和交互中的自主进化。智能体可以将该框架作为一个工具,集成到自身的工作流程中,通过不断收集新的训练样本,并主动调用训练算法,对自身的符号化元素进行实时更新和优化。这种自主进化的能力使得智能体能够适应不断变化的环境和需求,展现出更加灵活和适应性强的智能行为。

接下来我们大白话提纯一下论文中的核心内容。

论文地址:https://arxiv.org/pdf/2406.18532

核心思路

这个创新方法的核心是将基于大型语言模型的智能体(Agent)转化为一个可以通过符号学习自我优化的系统。这个过程涉及到将智能体的各个组成部分重新构想为神经网络的类似物,从而允许智能体模仿传统神经网络的训练过程。

图片

图:代理符号学习和神经网络联结主义学习之间的相似性

这种方法其是就是让那些基于大型语言模型的智能代理(我们可以把它们想象成非常复杂的电脑程序,能够执行各种任务)能够自我学习和自我改进。这些智能代理就像是拥有自己工作流程的“数字员工”,它们可以阅读文件、回答问题,甚至编写代码。

为了实现这一目标,首先,团队将智能体分解为三个核心元素:提示(prompts)、工具(tools)和智能体的工作流程(agent pipeline)。智能体的每个节点(node),相当于神经网络中的层(layer),而每个节点中使用的提示和工具,相当于神经网络层中的权重。这样,智能体的工作流程可以类比为神经网络的计算图,指导数据通过一系列处理步骤。

在这个框架下,智能体系统被视为一个“符号化”的神经网络。这里的“符号化”指的是权重由传统的数值张量转换为自然语言形式的表达,使得权重、损失函数和梯度以自然语言的形式存在。这种转换使得智能体能够使用语言提示来优化其行为和输出,就像神经网络通过数值权重进行学习一样。

符号学习框架的核心在于模仿连接主义学习中的关键算法——反向传播和梯度下降。在传统的神经网络中,这些算法通过计算损失相对于权重的梯度来更新权重,以减少预测误差。这就像是给智能代理一个反馈循环,让它们知道自己在执行任务时的表现,并根据这些反馈来调整自己的工作方式。

在符号学习框架中,智能体使用自然语言形式的梯度来更新其提示和工具,从而优化整个智能体系统的性能。例如,如果智能代理在回答问题时给出了不太准确的答案,符号学习框架会帮助它理解哪里做得不够好,并自动调整它的“工作手册”,以便下次做得更好。这个过程不需要人类干预,智能代理可以独立学习和进步。

再给这个流程用大白话翻译一下,意思是假如我们要训练一个能帮我们规划旅行的 AI Agent 。来自波形智能的研究团队呢,他们看到训练神经网络时常用反向传播和梯度下降这两种办法效果不错。于是就想,能不能把这个 AI Agent 也像神经网络那样来训练。他们就用我们输入的旅行需求文本,还有大模型,来弄出像损失函数(可以理解为衡量训练效果好不好的指标)、梯度(告诉我们怎么调整训练方向)和优化器(帮助找到更好的训练方法)这些东西。就好像我们在爬山,损失函数告诉我们离山顶还有多远,梯度告诉我们往哪个方向走能更快到山顶,优化器就是帮我们选择最好的路线。通过这样的方式,他们模拟了反向传播和梯度下降的算法,做出了一套能够从开始到结束完整地训练这个规划旅行的 AI Agent 的算法框架。

具体流程

图片

在前向传播阶段,智能体执行任务,同时记录下每个节点的输入、输出、提示词和工具使用情况,这些信息被存储在所谓的“轨迹”(Trajectory)中。随后,利用大型语言模型和精心设计的提示词,智能体对任务完成情况进行评估,生成所谓的“语言损失”(Language Loss),这是一种文本形式的损失函数,用于衡量智能体的表现与预期目标之间的差距。

接下来,智能体利用语言损失进行反向传播。这个过程模拟了神经网络中基于链式法则的梯度计算,通过一系列精心设计的提示词,智能体能够生成对每个节点的“语言梯度”(Language Gradients),好理解一点就是生成生成智能体流程中对最后一个节点的 “反思。这些语言梯度类似于传统神经网络中的梯度,它们提供了如何调整提示词和工具以最小化整体损失的反馈,也就是模型的输出应该怎样变化才能更符合要求,以及提示词和工具调用应该如何优化才能使输出朝这样的方向发生变化。

最后,智能体根据这些语言梯度更新每个节点中的提示词和工具。这一过程通过“符号优化器”(Symbolic Optimizers)完成,这些优化器是专门设计的提示词,是波形智能的研究人员基于链式法则的公式的反向传播的启发设计出来的一套prompt,来模拟传统神经网络优化的链式法则,这套Prompt能够针对智能体的符号权重进行优化。这包括针对提示词的PromptOptimizer、针对工具的ToolOptimizer,输出优化过后的 prompts 和 tools,从而实现对智能体参数的更新。

此外还有针对整个智能体工作流程的PipelineOptimizer,即agent workflow的优化。具体来说就是通过将工作流程用特定的编程语言表示,智能体的计算图也变成了符号化的权重。然后,使用一个单独的优化器,根据当前智能体的工作流和节点的语言梯度来更新工作流程,这在神经网络训练中类似于自动网络结构搜索的研究。

测评表现

根据提供的文件内容,Agent Symbolic Learning框架在大模型评测任务和智能体级别评测任务上的实验结果如下:

大模型评测任务(LLM Benchmarks):

HotPotQA: 该任务是一个多跳问题回答任务,需要丰富的背景知识。Agent Symbolic Learning框架在这个任务上的表现超过了所有比较的方法,包括GPT-3.5、GPT-4、以及使用自动提示工程优化的智能体(Agents with AutoPE)和DSPy方法。

MATH: 包含具有挑战性的数学竞赛问题。在这个任务上,Agent Symbolic Learning框架的性能提升尤其显著,相比其他方法有大幅度的领先。

HumanEval: 需要LLM或智能体从文档字符串合成程序。Agent Symbolic Learning框架同样在这个任务上展现了优越的性能。

具体的性能提升表现在,Agent Symbolic Learning框架在HotPotQA和MATH任务上的得分分别为35/44.8和41/54.0,而在HumanEval任务上的得分为85.8,均高于其他比较的基线方法。

图片

智能体级别评测任务(Complex Agent Tasks):

创意写作任务(Creative Writing): 智能体需要根据给定的四个随机句子写出一个连贯的四段文章,每段的结尾分别是这四个输入句子。Agent Symbolic Learning框架在这项任务上的表现显著优于基线方法,包括GPTs、Agents以及使用自动提示工程优化的智能体(Agents with AutoPE),甚至超过了树状思维(Tree of Thoughts)方法。

图片

软件开发任务(Software Development): 智能体需要根据简单的产品需求文档(PRD)开发可执行的软件。Agent Symbolic Learning框架在这项任务上同样展现了出色的性能,与基线方法相比,能够生成更高质量的软件。

在软件开发任务中,Agent Symbolic Learning框架在多个游戏开发子任务上的平均得分为3.8,远高于GPTs和Agents方法的平均得分1.6和2.4。

图片

Agent Symbolic Learning框架通过联合优化智能体系统中的所有符号组件,包括提示词、工具和智能体的工作流程,能够显著提升智能体在不同任务上的性能。实验结果表明,该框架不仅在传统的语言模型评测任务上表现出色,更能在复杂的智能体任务中实现有效的优化和自我进化,从而推动了从模型为中心到数据为中心的智能体研究的重要一步。波形智能的研究团队提出了Agent Symbolic Learning框架,它为AI智能体的创建和优化提供了两种主要的应用场景。这一框架的设计理念是将AI智能体视为一个由prompts(提示词)和tools(工具)组成的复杂workflow(工作流),这些元素共同构成了智能体的“符号化神经网络”。通过模仿神经网络的反向传播和梯度下降算法,Agent Symbolic Learning框架使得智能体能够自主地优化其自身的结构和参数,实现数据为中心的学习(data-centric learning)。

应用场景

应用场景一:智能体的创建和调优

在第一种应用场景中,开发者和研究人员可以利用Agent Symbolic Learning框架进行智能体的创建和调优。这个过程类似于训练神经网络:首先,针对特定的任务收集大量的样本数据;然后,使用Agent Symbolic Learning框架在这些数据上训练和优化智能体。与传统的神经网络训练相似,这个过程需要大量的计算资源和数据。一旦训练完成,智能体就可以被部署到生产环境中,以静态的方式执行其任务。

应用场景二:支持自主进化的智能体

第二种应用场景则更加先进,它允许智能体在实际环境或交互中自主进化。Agent Symbolic Learning框架的这一应用得益于其对大型语言模型的调用能力,它不需要复杂的基于GPU的训练和部署过程。这意味着,智能体可以将Agent Symbolic Learning框架作为一个工具,集成到自身的工作流程中。在与环境的探索或与人类的交互过程中,智能体可以不断收集新的训练样本,并主动调用Agent Symbolic Learning框架进行自我更新,优化其prompts、tools和workflow。

开源贡献与未来展望

波形智能的研究团队不仅在理论上提出了Agent Symbolic Learning框架,还在实践中将其应用于AIWaves Agents的开源代码库中,实现了首个能够在实际产品和生产环境中不断自主进化的智能体系统。这一成果不仅解决了智能体人工优化和评测的难题,也为智能体领域的学术界和工业界提供了一个全新的研究方向和工具。

代码仓库:https://github.com/aiwaves-cn/agents

为了进一步推动“数据为中心的智能体”(Data-centric Agent)和“智能体学习”(Agent Learning)的发展,波形智能的研究团队选择将Agent Symbolic Learning框架的全部代码开源,鼓励更多的研究者和开发者参与到这一领域的探索中来。通过开源合作,波形智能期待与各界共同发掘更多创新的算法和应用,推动智能体技术的进步和普及。

总Agent Symbolic Learning框架的提出和开源,标志着智能体技术向自主学习和进化迈出了重要的一步。通过这种符号学习框架,智能体不仅能够从数据中学习,还能够在被创建和部署后自我进化,成为“自进化智能体”。这一框架不仅为智能体的创建和优化提供了新的方法,也为智能体在实际应用中的持续进化和自我完善提供了可能,预示着智能体技术未来的发展方向。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apollo:目录分析, test ok

apollo: Apollo (阿波罗)是一个开放的、完整的、安全的平台,将帮助汽车行业及自动驾驶领域的合作伙伴结合车辆和硬件系统,快速搭建一套属于自己的自动驾驶系统。 - Gitee.comhttps://github.com/ApolloAuto/apolloapollo 目录名称目录作用cyber消息中间件,替换ros作为消息层…

2024年【制冷与空调设备运行操作】考试题及制冷与空调设备运行操作新版试题

题库来源:安全生产模拟考试一点通公众号小程序 制冷与空调设备运行操作考试题根据新制冷与空调设备运行操作考试大纲要求,安全生产模拟考试一点通将制冷与空调设备运行操作模拟考试试题进行汇编,组成一套制冷与空调设备运行操作全真模拟考试…

python绘制图像无法显示汉字、数字

解决的问题:python绘制图像无法正确显示汉字、数字,图中汉字数字以方块形式显示。 直接先上代码: # 确保图表中的汉字可以显示 plt.rcParams["font.sans-serif"] ["SimHei"] plt.rcParams["axes.unicode_minus…

25.惰性队列

介绍 消费者由于各种原因而致使长时间不能消费消息造成堆积。比如有一百万条消息发送到mq中,消费者这时宕机了不能消费消息,造成了消息堆积。惰性队列就有必要了。 正常情况下,消息保存在内存中。消费者从内存中读取消息消费,速…

【设计模式】代理模式详解

1.简介 代理模式是常用的Java设计模式,该模式的特点是代理类与委托类共享相同的接口。代理类主要负责预处理消息、过滤消息、将消息转发给委托类,并在事后处理消息等。代理类与委托类之间通常存在关联关系,一个代理类对象与一个委托类对象关…

TPM管理咨询公司在项目实施过程中提供哪些培训和支持?

在竞争激烈的市场环境中,企业项目的成功实施不仅是技术的较量,更是管理智慧的体现。而TPM管理咨询公司,作为提升企业运营效率与竞争力的专业伙伴,深知在项目推进的每一步中,专业的培训与强大的支持体系对于确保项目顺利…

shell脚本编写、一键安装nginx、条件语句、 检测网段脚本、 打印九九乘法表、

1.shell脚本 1.编写及运行脚本 [root13git ~]# vim hello.sh [root13git ~]# bash hello.sh [root13git ~]# sh hello.sh [root13git ~]# source hello.sh //在当前进程执行 [root13git ~]# chmod x hello.sh [root13git ~]# ./hello.sh 2.一键安装nginx [root13g…

小红书笔记评论采集全攻略:三种高效方法教你批量导出

摘要: 本文将深入探讨如何利用Python高效采集小红书平台上的笔记评论,通过三种实战策略,手把手教你实现批量数据导出。无论是市场分析、竞品监测还是用户反馈收集,这些技巧都将为你解锁新效率。 一、引言:小红书数据…

芋道源码/yudao-cloud二次开发日记(商品sku数据归类为规格属性)

商品的每一条规格和属性在数据库里都是单一的一条数据,从数据库里查出来后,该怎么归类为对应的规格和属性值?如下图: 在商城模块,商品的单规格、多规格、单属性、多属性功能可以说是非常完整,如下图&#x…

Github2024-07-29 开源项目周报Top15

根据Github Trendings的统计,本周(2024-07-29统计)共有15个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目2Java项目2HTML项目2C项目2TypeScript项目2JavaScript项目2非开发语言项目1Vue项目1Go项目1Dart项目1C++项目1Rust项目1Jupyter Note…

项目计划书编制方案(DOC)

项目开发计划包括项目描述、项目组织、成本预算、人力资源估算、设备资源计划、沟通计划、采购计划、风险计划、项目过程定义及项目的进度安排和里程碑、质量计划、数据管理计划、度量和分析计划、监控计划和培训计划等。 软件资料清单列表部分文档: 工作安排任务书…

Temporal(时效)模式01

Andy Carlson, Sharon Estepp, Martin Fowler 著,透明 译 抽象 在面向对象设计中,我们不断使用“对象”(object)这个词。对象不仅仅用来表现真实世界中存在的物件,它们也被用来表现那些曾经存在但已经消失了的物件&…

关于Docker Engine AuthZ 插件授权绕过漏洞 (CVE-2024-41110)

一、漏洞概述 漏洞名称:Docker Engine AuthZ 插件授权绕过漏洞 (CVE-2024-41110) 漏洞等级:高危 漏洞描述:DockerEngine是Docker的核心组件,是一 个开源的容器引擎,负责构建、运行和管理容器…

又一新AI搜索工具,OpenAI 推出新的搜索方式 SearchGPT

系列文章目录 每天推荐AI工具系列文章回顾: 选择 haiyi海艺图像生成、LoRA、模型的使用和训练网站 tusiart吐司艺术图像生成、LoRA 模型的使用和训练网站 解锁AI创造力的无限可能:探索Vivago.ai的革命性功能 文章目录 系列文章目录前言一、SearchGPT…

html+css+js前端作业和平精英6个页面页面带js

htmlcssjs前端作业和平精英6个页面页面带js 下载地址 https://download.csdn.net/download/qq_42431718/89595600 目录1 目录2 项目视频 htmlcssjs前端作业和平精英6个页面带js 页面1 页面2 页面3 页面4 页面5 页面6

锐捷RCNA | RGOS日常管理操作和Windows常用命令

RGOS操作系统最主要的三大特性是模块化、安全性、开放性。 RGOS平台登陆方式 平台概述 RGOS全称“锐捷通用操作系统”,即网络设备的操作系统 基于RGOS开发的软件版本目前为11.x,又被称为11.x平台优势 模块化设计,方便运维管理故障隔离&…

[ARC105E] Keep Graph Disconnected题解

题目 考虑加任意一条边时都会输的图的状态:图被分成两个强联通分量,每一个强联通分量都是一个完全图。 也就是说,假设一开始节点 1 1 1 和节点 n n n 不联通,那么还可以加 n ( n − 1 ) 2 − m − c n t 1 ( n − c n t 1 ) \…

78.SAP ME - SAP ME和SAP NetWeaver log files的位置

目录 1.defaultTrace files 内容 文件位置 2.dev_server files 内容 文件位置 3.dev_icm files 内容 文件位置 4.responses.trc files 内容 文件位置 1.defaultTrace files You should always check this log first when any system issue is reported 内容 包含…

经典文献阅读之--GraphAD(端到端自动驾驶的交互场景图)

Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务,并且需要GPU资源,可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.6元,月卡只需要1.7元每小时&…

什么是项目计划?项目计划如何制定?

做不好项目计划的项目管理,注定会失败! 项目计划是帮助管理人员有效实现目标的非常重要的一环,在开始任何项目之前,制定一份详细的计划作为所有参与者的指导性文件非常重要。那么什么是项目计划?项目计划又该如何制定…