The Rise and Potential of Large Language Model Based Agents: A Survey

news2025/1/8 4:37:02

OpenAI AI的应用研究主管Lilian Weng发布了关于AI Agents的《大语言模型(LLM)支持的自主代理》,在文章中她定义了基于LLM构建AI Agents的应用框架:Agent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use)。最近复旦大学自然语言处理组《大模型智能体》综述论文,提出了一个基于LLM的智能体的概念框架,包括三个主要组成部分:大脑、感知和行动

Abstract

长期以来,人类一直在追求相当于或超越人类水平的人工智能(AI),而人工智能代理被认为是实现这一追求的有前途的工具。人工智能代理是感知环境、做出决策并采取行动的人造实体。人们为开发智能代理做出了许多努力,但它们主要集中在算法或训练策略的进步,以增强特定任务的特定能力或性能。事实上,社区缺乏的是一个通用且强大的模型来作为设计能够适应不同场景的人工智能代理的起点。由于它们所展示的多功能能力,大语言模型(LLM)被认为是通用人工智能(AGI)的潜在火花,为构建通用人工智能代理带来了希望。许多研究人员利用LLM作为构建人工智能代理的基础,并取得了重大进展。在本文中,我们对LLM Agent进行了全面调研。我们首先追溯agent的概念,从其哲学起源到人工智能的发展,并解释为什么LLM是智能体的合适基础。在此基础上,我们提出了一个基于 LLM 的代理的通用框架,包括三个主要组件:大脑、感知和行动,并且该框架可以针对不同的应用进行定制。随后,我们探讨了基于LLM的智能体在单智能体场景、多智能体场景和人类智能体协作三个方面的广泛应用。接下来,我们深入研究代理人社会,探讨LLM Agent的行为和个性,代理人社会中出现的社会现象,以及他们为人类社会提供的见解。最后,我们讨论了该领域内的几个关键主题和未解决的问题。相关论文的存储库位于 https://github.com/WooooDyy/LLM-Agent-Paper-List。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1. Introduction

人工智能(AI)是一个致力于设计和开发可以复制类人智能和能力的系统的领域[1]。早在 18 世纪,哲学家丹尼斯·狄德罗 (Denis Diderot) 就提出了这样的想法:如果一只鹦鹉能够回答所有问题,那么它就可以被认为是聪明的 [2]。虽然狄德罗指的是鹦鹉等生物,但他的概念强调了一个深刻的概念,即高度智能的有机体可能类似于人类的智能。 20 世纪 50 年代,艾伦·图灵将这一概念扩展到人造实体,并提出了著名的图灵测试 [3]。该测试是人工智能的基石,旨在探索机器是否能够表现出与人类相媲美的智能行为。这些人工智能实体通常被称为“智能体”,构成人工智能系统的基本构建块。通常在人工智能中,代理是指能够使用传感器感知周围环境、做出决策,然后使用执行器采取响应行动的人工实体。

agent的概念起源于哲学,其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了拥有欲望、信念、意图和采取行动的能力的实体[5]。这个想法转变为计算机科学,旨在使计算机能够理解用户的兴趣并代表他们自主执行操作[6; 7; 8]。随着人工智能的发展,“代理”一词在人工智能研究中找到了自己的位置,用来描述展示智能行为并拥有自主性、反应性、主动性和社交能力等品质的实体[4; 9]。从那时起,智能体的探索和技术进步就成为人工智能界的焦点[1; 10]。人工智能代理现在被认为是实现通用人工智能 (AGI) 1 的关键一步,因为它们包含了广泛的智能活动的潜力 [4; 11; 12]。

从 20 世纪中叶开始,随着研究深入研究智能 AI 代理的设计和进步,在开发智能 AI 代理方面取得了重大进展 [13; 14; 15; 16; 17; 18]。然而,这些努力主要集中在增强特定能力,例如符号推理,或掌握围棋或国际象棋等特定任务[19; 20; 21]。实现跨不同场景的广泛适应性仍然难以实现。此外,以往的研究更注重算法和训练策略的设计,忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效交互等[22; 23]。实际上,增强模型的内在能力是智能体进一步发展的关键因素,该领域需要一个强大的基础模型,该模型具有上述各种关键属性,作为智能体系统的起点。

大语言模型(LLM)的发展为智能体的进一步发展带来了一线希望[24; 25; 26],并且社区已经取得了重大进展[22; 27; 28; 29]。根据世界范围(WS)[30]的概念,它包含描述从 NLP 到通用人工智能(即语料库、互联网、感知、体现和社交)的研究进展的五个层次,纯粹的LLM建立在第二个层次上。与互联网规模的文本输入和输出水平。尽管如此,LLM在知识获取、指令理解、泛化、规划和推理方面表现出了强大的能力,同时展示了与人类有效的自然语言交互。这些优势为LLM赢得了 AGI 的火花 [31],使他们非常适合构建智能代理,以培育一个人类与代理和谐共存的世界 [22]。以此为起点,如果我们将LLM提升到代理人的地位,并为他们配备扩展的感知空间和行动空间,他们就有可能达到WS的第三和第四层次。此外,这些基于 LLM 的智能体可以通过合作或竞争来处理更复杂的任务,并且将它们放在一起时可以观察到新兴的社会现象,有可能达到第五个 WS 级别。如图 1 所示,我们设想一个由人工智能体组成的和谐社会,人类也可以参与其中。

在本文中,我们提出了一项针对LLM Agent的全面、系统的调研,试图调查这一新兴领域的现有研究和前瞻性途径。为此,我们首先深入研究关键的背景信息(§ 2)。特别是,我们首先从哲学到人工智能领域追溯人工智能代理的起源,并简要围绕人工智能是否存在的争论(§ 2.1)进行概述。接下来,我们从技术趋势的角度对人工智能代理的发展进行简明的历史回顾(第2.2节)。最后,我们深入介绍了智能体的基本特征,并阐明了为什么大型语言模型非常适合作为人工智能智能体的大脑或控制器的主要组成部分(第 2.3 节)。

受智能体定义的启发,我们提出了基于 LLM 的智能体的通用概念框架,包括三个关键部分:大脑、感知和行动(§ 3),并且该框架可以根据不同的应用进行定制。我们首先介绍大脑,它主要由一个大的语言模型组成(第 3.1 节)。与人类类似,大脑是人工智能体的核心,因为它不仅存储重要的记忆、信息和知识,而且承担信息处理、决策、推理和规划的基本任务。它是智能体能否表现出智能行为的关键决定因素。接下来,我们介绍感知模块(第 3.2 节)。对于智能体来说,这个模块的作用类似于人类的感觉器官。其主要功能是将智能体的感知空间从纯文本扩展到多模态空间,其中包括文本、声音、视觉、触觉、气味等多种感官模式。这种扩展使智能体能够更好地感知来自外部环境的信息。最后,我们提出了用于扩展代理动作空间的动作模块(第 3.3 节)。具体来说,我们期望智能体能够拥有文本输出、采取具体行动并使用工具,以便更好地响应环境变化并提供反馈,甚至改变和塑造环境。

之后,我们对基于LLM的智能体的实际应用进行了详细而透彻的介绍,并阐明了基本的设计追求——“利用人工智能向善”(§ 4)。首先,我们深入研究单个智能体的当前应用,讨论它们在基于文本的任务和模拟探索环境中的表现,重点介绍它们在处理特定任务、推动创新以及展示类人生存技能和适应能力方面的能力(第 4.1 条)。接下来,我们回顾一下多智能体的发展历史。我们介绍了基于LLM的多智能体系统应用程序中智能体之间的交互,它们参与合作、谈判或竞争。无论交互模式如何,代理都会共同努力实现共同目标(第 4.2 节)。最后,考虑到基于LLM的代理在隐私安全、道德约束和数据缺陷等方面的潜在局限性,我们讨论了人机协作。我们总结了智能体和人类之间的协作范式:指导者-执行者范式和平等伙伴关系范式,以及实践中的具体应用(第4.3节)。

基于对基于 LLM 的代理实际应用的探索,我们现在将重点转向**“代理社会”**的概念,研究代理与其周围环境之间复杂的相互作用(§ 5)。本节首先调查这些智能体是否表现出类人行为并具有相应的个性(第 5.1 节)。此外,我们还介绍了代理运行的社交环境,包括基于文本的环境、虚拟沙箱和物理世界(§5.2)。与上一节(第 3.2 节)不同,这里我们将关注不同类型的环境,而不是智能体如何感知环境。建立了代理及其环境的基础后,我们继续揭示它们形成的模拟社会(§5.3)。我们将讨论模拟社会的构建,并继续研究从中出现的社会现象。具体来说,我们将强调模拟社会固有的教训和潜在风险。

最后,我们讨论了基于LLM的代理领域内的一系列关键主题(第6节)和开放性问题:(1)LLM研究和代理研究的互惠互利和启发,其中我们证明了LLM的发展为代理和基于代理的LLM社区提供了许多机会(§ 6.1); (2) 从实用性、社交性、价值观和不断发展的能力四个维度对LLM Agent的现有评估工作和一些前景(§ 6.2); (3)基于LLM的代理的潜在风险,我们讨论基于LLM的代理的对抗稳健性和可信度。我们还讨论了其他一些风险,例如滥用、失业和对人类福祉的威胁(第 6.3 条); (4) 扩大代理数量,我们讨论扩大代理数量的潜在优势和挑战,以及预先确定和动态扩展的方法(第 6.4 节); (5) 几个悬而未决的问题,例如关于基于 LLM 的代理是否代表通向 AGI 的潜在路径的争论、从虚拟模拟环境到物理环境的挑战、AI 代理中的集体智能以及代理即服务(§ 6.5)。毕竟,我们希望这篇论文能为相关领域的研究人员和实践者提供启发。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1524821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI系列】Torchvision、Torchaudio 和 Torchtext关系

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

13 - grace数据处理 - 泄露误差改正 -正演建模法(Forward-Modeling)

grace数据处理 - 泄露误差改正 -正演建模法(Forward-Modeling) *0* 引言*1* Matlab代码实现0 引言 正演建模法最早是由Chen等提出的,本质是通过迭代的思想反求真实信号的过程,为什么要反求呢?因为在数据处理过程中做了球谐截断和空间滤波,使部分有用信号被湮灭,也就是有…

Sentinel篇:线程隔离和熔断降级

书接上回:微服务:Sentinel篇 3. 隔离和降级 限流是一种预防措施,虽然限流可以尽量避免因高并发而引起的服务故障,但服务还会因为其它原因而故障。 而要将这些故障控制在一定范围,避免雪崩,就要靠线程隔离…

email + celery+django 异步发送邮件功能的实现

主要流程: django通过发件服务器到收件服务器,最后到收件人 邮件配置设置需要打开SMTP/IMAP并获的授权码,完成授权功能实现发送给收件人 邮件配置请参考另一博客https://blog.csdn.net/qq_44238024/article/details/136277821 项目结构树…

[ROS 系列学习教程] rosbag Python API

ROS 系列学习教程(总目录) 本文目录 1. 构造函数与关闭文件2. 属性值3. 写bag文件内容4. 读bag文件内容5. 将bag文件缓存写入磁盘6. 重建 bag 文件索引7. 获取bag文件的压缩信息8. 获取bag文件的消息数量9. 获取bag文件记录的起止时间10. 获取话题信息与消息类型 rosbag 的 Pyt…

Python 编程中反斜杠 “\” 的作用:作为续行符和转义字符,处理文件路径和正则表达式时需特别注意。

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ Python 中的反斜杠 \ 可以被用作续行符,它允许你将一行代码分成多行来书写,以提高代码的可读性。这在处理长字符串、复杂的数学表达式或其他需要多行布局的代码时非常有用。 使…

使用三种方式读取文本文件

文章目录 🍔需求🎄思路⭐代码⭐效果🛸注意 在 Java 中,读取文件通常涉及以下几个步骤: 打开文件:首先需要创建一个文件对象,表示要读取的文件。这个文件对象可以包含文件路径、文件名等信息。 …

zookeeper快速入门五:用zookeeper实现服务注册与发现中心

系列: zookeeper快速入门一:zookeeper安装与启动-CSDN博客 zookeeper快速入门二:zookeeper基本概念-CSDN博客 zookeeper快速入门三:zookeeper的基本操作 zookeeper快速入门四:在java客户端中操作zookeeper-CSDN博客…

Tomcat Seeion 集群

部署:nginx服务器:11-11;tomcat1:11-3; tomcat2:11-6 nginx服务器11-11做搭建: [rootmcb-11 ~]# systemctl stop firewalld [rootmcb-11 ~]# setenforce 0 [rootmcb-11 ~]# yum install epel-release.noarch -y [rootmcb…

数据结构试卷第九套

1.时间复杂度 2.树,森林,二叉树的转换 2.1树转二叉树 给所有的兄弟节点之间加一条连线;去线,只保留当前根节点与第一个叶子节点的连线,删除它与其他节点之间的连线;然后根据左孩子右兄弟进行调整&#xf…

gitlab cicd问题整理

1、docker设置数据目录: 原数据目录磁盘空间不足,需要更换目录: /etc/docker/daemon.json //写入/etc/docker/daemon.json {"data-root": "/data/docker" } 2、Dockerfile中ADD指令不生效 因为要ADD的文件被.docker…

使用Python进行自然语言处理(NLP):NLTK与Spacy的比较【第133篇—NLTK与Spacy】

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 使用Python进行自然语言处理(NLP):NLTK与Spacy的比较 自…

[数据集][目标检测]焊接件表面缺陷检测数据集VOC+YOLO格式2292张10类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2292 标注数量(xml文件个数):2292 标注数量(txt文件个数):2292 标注…

【鸿蒙HarmonyOS开发笔记】常用组件介绍篇 —— 弹窗组件

简介 弹窗是移动应用中常见的一种用户界面元素,常用于显示一些重要的信息、提示用户进行操作或收集用户输入。ArkTS提供了多种内置的弹窗供开发者使用,除此之外还支持自定义弹窗,来满足各种不同的需求。 下面是所有涉及到的弹窗组件官方文档…

NSSCTF 403,444,2145,3845,404,445

[SWPUCTF 2021 新生赛]简简单单的逻辑 py文件,使用pycharm打开进行分析 其中,hex()[2:]:将十进制转化为十六进制 zfill(2):位数不足2,前补0 这里即将flag的ASCII码与key进行异或,再将每位转化为十六进制…

Prism的发布和订阅

首先需要设置一个发布和订阅的类 -- 这里发布和订阅的消息是string类型所以就只用PubSubEvent类 发布部分(构造函数注入,发布个“Hello”) 订阅部分: public partial class ViewC : UserControl {private readonly IEventAggrega…

文件的基础

一、文件 什么是文件 文件流: 一、1、文件的相关操作 创建文件的三种方式: public class FileCreate {public static void main(String[] args) {}//方式1 new File(String pathname)Testpublic void create01() {String filePath "e:\\news1.…

1987-2022年各省专利申请授权数据(8个指标))

1987-2022年各省专利申请授权数据(8个指标)) 1、时间:1987-2023年 2、指标:国内专利申请受理量(项)、国内发明专利申请受理量(项)、国内实用新型专利申请受理量(项)、国内外观设计专利申请受理量(项)、国内专利申请授…

机器学习(26)回顾gan+文献阅读

文章目录 摘要Abstract一、李宏毅机器学习——GAN1. Introduce1.1 Network as Generator1.2 Why distribution 2. Generative Adversarial Network2.1 Unconditional generation2.2 Basic idea of GAN 二、文献阅读1. 题目2. abstract3. 网络架构3.1 Theoretical Results 4. 文…

JavaWeb:vue、AJax、ELement、maven、SpringBoot、、Http、Tomcat、请求响应、分层解耦

1 Vue 1.1 Vue介绍 VUE是前端框架&#xff0c;基于MVVM&#xff0c;实现数据双向绑定 框架是半基础软件&#xff0c;可重用的代码模型 1.2 Vue指令 <script src"js/vue.js"></script></head> <body><div id"id"><!--…