大模型驱动的自主智能体全面调研

news2024/11/6 3:04:28

人工智能咨询培训老师叶梓 转载标明出处

基于LLMs构建的自主智能体,有望实现类似人类的决策能力。图 1 展示了LLMs驱动的自主智能体领域的增长趋势。从2021年1月到2023年8月,不同颜色代表不同类别的智能体。例如,游戏智能体旨在模拟游戏玩家,而工具智能体主要关注工具使用。

然而,目前对于如何构建和评估LLMs驱动的自主智能体的研究还比较分散,缺乏系统性的总结。为了弥补这一空白,来自中国中国人民大学高瓴人工智能学院的研究团队进行了一项全面的研究调查。系统地回顾了LLMs驱动的自主智能体的研究工作。

大模型驱动的自主智能体的构建

架构

图 2 提供了一个统一的框架,展示了LLMs驱动的自主智能体的架构设计。该框架由以下几个模块组成:

  1. 档案模块:确定智能体的角色。
  2. 记忆模块:存储环境信息,帮助智能体回忆过去的行为,规划未来的行动。
  3. 规划模块:使智能体能够根据过去的经验做出决策。
  4. 行动模块:将智能体的决策转化为具体的输出。

档案模块

档案模块通过将角色信息写入提示(prompt)来影响LLM的行为。智能体的角色通常包括基本信息(如年龄、性别和职业)、心理信息(反映智能体的性格)和社会信息(详细描述智能体之间的关系)。

记忆模块

记忆模块对于智能体架构设计至关重要。它存储从环境中感知到的信息,并利用这些记忆来促进未来的行动。记忆模块可以帮助智能体积累经验、自我演化,并以更一致、合理和有效的方式行动。

记忆结构通常受到认知科学研究的启发,包括短期记忆和长期记忆。短期记忆类似于受限于变换器架构上下文窗口的输入信息。长期记忆类似于智能体可以根据需要快速查询和检索的外部向量存储。

  • 统一记忆:只模拟人类的短期记忆,通常通过上下文学习实现,记忆信息直接写入提示。
  • 混合记忆:明确模拟人类的短期和长期记忆。短期记忆临时缓冲最近的感知,而长期记忆随时间巩固重要信息。

规划模块

规划模块的目标是让智能体具备将复杂任务分解为简单子任务的能力。研究者根据智能体在规划过程中是否能接收反馈,将策略分为无反馈规划和有反馈规划。

  • 无反馈规划:智能体在执行动作后不接收可以影响其未来行为的反馈。
  • 有反馈规划:智能体在执行动作后可以接收来自环境、人类和模型的反馈。

行动模块

行动模块负责将智能体的决策转化为具体结果。它位于最下游位置,直接与环境互动。行动模块受档案、记忆和规划模块的影响。

能力获取

智能体能力获取主要分为两类:需要微调LLMs的能力和不需要微调的能力。

需要微调的能力获取

  • 使用人工标注的数据集进行微调:通过人工标注的数据集来微调智能体,使其更好地适应特定任务。

  • 使用LLM生成的数据集进行微调:利用LLM生成的数据集来微调智能体,这种方法成本较低,可以生成更多的样本。

  • 使用真实世界数据集进行微调:直接使用真实世界的数据集来微调智能体,使其更好地适应现实世界的任务。

无需微调的能力获取

  • 提示工程:通过精心设计的提示来增强智能体的能力,或释放LLMs的现有能力。
  • 机制工程:开发专门的模块,引入新的工作规则等策略,以增强智能体的能力。

表 1 提供了现有研究与上述分类法的对应关系,展示了不同研究在智能体构建方面的工作。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

自主智能体在不同领域的应用

社会科学

心理学:LLMs驱动的智能体可以用于进行模拟实验,提供心理健康支持等。例如,通过给LLMs分配不同的角色,让它们完成心理学实验,研究发现LLMs能够产生与涉及人类参与者的研究一致的结果。

政治学和经济学:LLMs驱动的智能体可以用于研究政治学和经济学,包括用于意识形态检测和预测投票模式。

社会模拟:LLMs驱动的智能体被用于构建虚拟环境,模拟社会现象,如信息传播。

法学:LLMs驱动的智能体可以作为法律决策过程中的辅助工具,帮助做出更明智的判断。

研究助理:LLMs驱动的智能体也被用作社会科学研究的多面手助理,从生成文章摘要到提取关键词,再到撰写详细的研究脚本。

自然科学

文档和数据管理:LLMs驱动的智能体展现出在语言理解和使用互联网及数据库工具处理文本方面的强大能力。

实验助手:LLMs驱动的智能体能够独立进行实验,为科学家的研究项目提供支持。

自然科学教育:LLMs驱动的智能体能够与人类流利沟通,常被用于开发基于代理的教育工具。

工程学

土木工程:LLMs驱动的智能体可用于设计和优化复杂的结构,如建筑、桥梁、大坝、道路。

计算机科学与软件工程:LLMs驱动的智能体在自动化编码、测试、调试和文档生成方面提供潜力。

工业自动化:LLMs驱动的智能体可用于实现生产过程的智能规划和控制。

机器人学和体现人工智能:近期的工作开发了更高效的强化学习代理,用于机器人学和体现人工智能。

表 2 展示了LLMs驱动的自主智能体的代表性应用。从心理学到工程学,不同领域的工作展示了智能体的广泛应用。 

LLMs驱动的自主智能体评估

图 5 提供了LLMs驱动的自主智能体应用(左侧)和评估策略(右侧)的全局概览。这展示了智能体在不同领域的广泛应用,从社会科学到工程学。

两种主要的评估方法:主观评估和客观评估。

主观评估

主观评估基于人类判断来衡量智能体的能力,适用于没有评估数据集或很难设计定量指标的场景。

  • 人工标注:此评估方法涉及人类评估者直接对不同智能体生成的输出进行打分或排名。例如,在研究中,作者们聘请了许多标注员,要求他们对与智能体能力直接相关的五个关键问题提供反馈。

  • 图灵测试:此评估策略要求人类评估者区分由智能体和人类创建的输出。如果在给定任务中,评估者无法区分智能体和人类的输出,这表明智能体在该任务上实现了类似人类的性能。

客观评估

客观评估使用可计算、可比较和可跟踪的定量指标来评估LLMs驱动的自主智能体的能力。进行客观评估时,有三个重要方面:评估指标、协议和基准。

  • 指标:为了客观评估智能体的有效性,设计合适的指标非常重要。理想的评估指标应准确反映智能体的质量,并与人类在现实世界中使用它们时的感受保持一致。

  • 协议:除了评估指标外,另一个重要的客观评估方面是如何利用这些指标。常见的评估协议包括现实世界模拟、社交评估、多任务评估和软件测试。

  • 基准:给定指标和协议后,选择合适的基准进行评估是至关重要的。例如,许多研究人员使用ALFWorld、IGLU和Minecraft等模拟环境作为基准来评估智能体的能力。

表 3 总结了先前工作与这些评估策略之间的对应关系。表格中使用了不同的符号来代表主观评估和客观评估的不同方面。

尽管LLMs驱动的自主智能体已经取得了显著的进展,但该领域仍处于初级阶段,面临许多挑战,包括角色扮演能力、人类对齐、提示的鲁棒性、幻觉问题、知识边界和效率等。

论文链接:A survey on large language model based autonomous agents

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2180337.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL那些事(InnoDB架构和存储结构)

目录 一、序言二、InnoDB架构三、InnoDB内存结构1、Buffer Pool (缓冲池)2、Change Buffer3、Log Buffer 四、InnoDB磁盘结构1、表空间2、Doublewrite Buffer(双写缓冲区)3、Redo Log4、Undo Log 五、结语 一、序言 本节内容为博主根据MySQL 8.0版本官方文档手动翻译过后的最新…

pycharm 配置篇

方法注释 使用方式为,在方法名下方输入三个双(单)引号,回车,自动生成。五种风格的样式如下: def docstrings_func_plain(parm_a, parm_b, parm_c):"""Plain 风格"""def docs…

笔记本电脑如何改ip地址:操作指南与注意事项

在信息时代的浪潮中,网络已成为我们日常生活与工作中不可或缺的一部分。对于笔记本电脑用户而言,IP地址作为设备在网络中的唯一标识,其重要性不言而喻。无论是出于网络安全、网络测试还是特殊网络环境等需求,了解如何修改笔记本电…

NVIDIA Hopper 架构深入

NVIDIA Hopper 架构 GPU 的重要新功能。 文章目录 一、Transformer engine 变压器发动机二、第四代 NVLink 和 NVLink 网络三、第三代 NVSwitch四、New NVLink Switch System 新的 NVLink 开关系统五、PCIe Gen 5 PCIe 第 5 代一、Transformer engine 变压器发动机 Transforme…

java给word设置复选框

poi设置 使用"Wingdings 2" 字体 WordUtil.appendText(paragraph, "\uF052", "Wingdings 2",null); WordUtil.appendText(paragraph, "□", null);选中的复选框: poi导出pdf的时候正常使用aspose-words导出pdf就空了 使用默认字体…

给自己的项目(vue3)中添加 下雪/樱花飘落的背景

查看更佳效果前往我的博客, 可切换 snows_ls BLOGhttp://124.223.41.220/ 0、效果图 樱花飘落 雪花飘落 1、安装 yarn add jparticles / npm i jparticles 2、引入 import { Snow } from jparticles; // 引入粒子效果库 引入雪花效果库 3、使用 在项目中的app.…

onnx TRT 版本对应关系

Onnx 版本和opset 关系 https://github.com/onnx/onnx/blob/main/docs/Versioning.md Onnx runtime 对应 onnx opset 版本 Compatibility | onnxruntime Tensor RT 和onnx 支持版本可以看如下并选择对应分支 https://github.com/onnx/onnx-tensorrt/blob/release/8.4-GA/doc…

企业内训|AI助力智能办公与职场效能提升-青岛某国资平台

9月25日,TsingtaoAI派驻讲师进驻现场,为青岛市某国资平台公司员工交付“AI助力智能办公与职场效能提升”企业内训,整个培训通过AIGC的实际应用案例,帮助学员掌握智能办公的常用工具,提升工作流程优化和决策效率。课程涵…

衡石分析平台系统管理手册-智能运维之软件授权

软件授权​ 在设置->软件授权页面可以看到授权时间、有效期、用户上限、请求码、租户数上限、租户内用户数上限。 请求码是衡石系统用于生成注册码的一段代码,安装衡石系统后,就会自动生成一个请求码,其中包含了本机的指纹信息和当前 Lic…

BFS 解决 FloodFill 算法

BFS 解决 FloodFill 算法 题目一: 图像渲染1. 题⽬链接:2. 题⽬描述:3. 算法思路:4.代码 题目二: 岛屿数量1. 题⽬链接:2. 题⽬描述:3. 算法思路:4.代码 题目三:被围绕的…

Android Stuido中编译信息出现乱码的解决方式

打开菜单File -> Settings,选择Editor -> File Encodings 窗口,将编码设置为正确的字符集,保证 Global Encoding、Project Encoding 和 Default Encoding for properties files 都设置为 UTF-8。

物联网(二)——MDPI特刊推荐

特刊征稿 01 期刊名称: Application of IoT on Manufacturing, Communication and Engineering 截止时间: 摘要提交截止日期:2025年4月30日 投稿截止日期:2025年6月30日 目标及范围: 感兴趣的主题包括但不限于以…

Python输入输出

1、输出 python中变量的输出,print 会自动在行末加上回车,如果不需回车,只需在print语句的结尾添加一个逗号”,“ 1.1、普通输出 print(hello)1.2、格式化输出 1.2.1、使用%来格式化 格式化符号大全 符 号描述%c格式化字符及其ASCII码%s格式化字符…

Visual Studio C# 编写加密火星坐标转换

Visual Studio C# 编写加密火星坐标转换 1、WGS84坐标转GCJ02火星坐标2、GCJ02火星坐标转WGS84坐标(回归计算)3、GCJ02火星坐标转BD09百度坐标4、BD09百度坐标转GCJ02火星坐标(回归计算)5、坐标公共转换类6、地图显示7、程序简单界…

Databend 实现高效实时查询:深入解读 Dictionary 功能

作者:洪文丽 开源之夏2024“支持 External Dictionaries”项目参与者 东北大学软件工程专业云计算方向大二在读,喜欢挑战自我,尝试新鲜事物 背景介绍 在大型系统中,数据通常存储在多个不同的数据源中,例如 PostgreSQL…

【设计模式-职责链】

定义 职责链模式是一种行为设计模式,**它通过将请求发送给链上的多个处理者来避免请求发送者与处理者之间的紧密耦合。每个处理者可以选择处理请求或将其传递给链中的下一个处理者。**这样,可以将处理请求的责任链式组织,从而实现更灵活的请…

LeetCode 面试经典150题 66.加一

题目:给定一个由 整数 组成的 非空 数组所表示的非负整数,在该数的基础上加一。 最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外,这个整数不会以零开头。 思路: 代码&…

winform 中 panel 中添加可视对象错位问题

今天在写程序的时候,发现动态添加到panel_wokrarea中的按钮,同样是posx0,有时并不能对齐,会和当前窗口中panel_wokrarea在屏幕上的显示区域的最左边(panel_wokrarea很宽) 经分析,是因为panel 在…

828华为云征文 | 华为云Flexus X实例在混合云环境中的应用与实践

目录 前言 1. 混合云环境的优势与挑战 1.1 混合云的优势 1.2 混合云的挑战 2. Flexus X实例的配置与集成 2.1 Flexus X实例简介 2.2 Flexus X实例的混合云部署 2.3 配置步骤与措施 3. 数据迁移与同步策略 3.1 数据迁移方案 3.2 数据同步措施 4. 安全性与合规性管理…

我们用等距投影制作了一个动画视频

一家国际网络安全公司委托我们制作一部关于其网络安全产品的解释性视频。为了有效传达产品的价值给潜在客户和利益相关者,我们决定采用等距投影技术制作动画视频。等距投影是一种复杂的视觉呈现方式,它能够让人物和物体看起来具有三维效果,而…