大模型Agent最新论文及源码合集,覆盖构建、应用、评估

news2025/3/14 12:16:32

人们对于通用人工智能(AGI)的追求可以追溯到1950 年代中期,当时的AI研究者对机器拥有人类思维能力抱有很高的期望,但是随着研究的深入,他们发现想实现这个目标比最初设想的困难许多。到如今,AGI仍然有很长的路要走。

不过值得高兴的是,在今年的各大顶会中,有关自主智能体的研究有了许多突破性进展,以往困扰AI Agent研究者的社会交互性和智能性问题都随着大语言模型(LLM)的发展有了新的解决方向。

为方便大家了解AI Agent领域的最新研究进展,我这回整理了52篇2023最新大模型智能体相关的论文,包括LLM-based Agent 的构建、应用、评估等方面。

需要论文及源代码的同学看文末

综述(2篇)

1.A Survey on Large Language Model-based Autonomous Agents

大型语言模型基础上的自主智能体综述

简述:论文首先讨论了LLM驱动自主智能体的构建,其中,作者提出了一个统一的框架,概括了大多数已有的工作。然后,全面概述了LLM驱动自主智能体在社会科学、自然科学和工程学领域的广泛应用。最后,深入探讨了LLM驱动自主智能体常用的评估策略。在前人研究的基础上,作者同时提出了该领域的几个挑战和未来方向。

2.The Rise and Potential of Large Language ModelBased Agents: A Survey

大型语言模型驱动智能体的兴起与潜力

简述:论文首先阐述了智能体从哲学起源到在人工智能领域的发展,以及大型语言模型作为智能体基础的合理性。在此基础上,提出了一个通用的包含大脑、感知和行动模块的智能体框架,可应用于不同任务。接着探讨了智能体在单智能体、多智能体和人机协作等方面的广泛应用。此外,还讨论了智能体社会中的行为、个性、社会现象等,以及对人类社会的启示。最后,讨论了该领域的关键问题和未来方向。

构建(22篇)

1.CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

使用交流型智能体探索大规模语言模型社会的“心智”

简述:为了解决实现自主合作的挑战,作者提出了一个称为角色扮演的新颖交流型智能体框架。该方法涉及使用开端提示来引导聊天代理完成任务,同时保持与人类意图的一致性。文中展示了如何使用角色扮演生成对话数据,以研究聊天代理的行为和能力,为调查对话语言模型提供了宝贵的资源。

2.Agent Instructs Large Language Models to be General Zero-Shot Reasoners

指示大型语言模型成为通用零样本推理者

简述:本文提出通过让一个专门设计的指导代理与大型语言模型进行互动,来指导并增强这些模型在零样本条件下的通用语言理解和推理能力,在多个数据集上的评估表明,这种方法可以推广到大多数任务,并取得了SOTA的零样本性能。

3.Reflexion: language agents with verbal reinforcement learning

反思:带有言语强化学习的语言代理

简述:这篇论文提出了一种名为 Reflexion 的新框架,通过语言反馈而不是权重更新来增强语言代理,代理会对任务反馈进行口头反思并记录在记忆中,以诱导后续试验中的更好决策。该框架在各种任务上取得明显优于基准的效果,为语言代理提供了一种快速高效的试错学习机制。

  • 4.AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

  • 5.Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph

  • 6.SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks.

  • 7.Tree of Thoughts: Deliberate Problem Solving with Large Language Models.

  • 8.AVIS: Autonomous Visual Information Seeking with Large Language Models

  • 9.Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond

  • 10.Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models

  • 11.Learning Distributed Representations of Sentences from Unlabelled Data

  • 12.A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

  • 13.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

  • 14.Large Language Models as Tool Makers

  • 15.InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

  • 16.AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

  • 17.InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

  • 18.PandaGPT: One Model To Instruction-Follow Them All

  • 19.Visual Instruction Tuning

  • 20.MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

  • 21.LLM+P: Empowering Large Language Models with Optimal Planning Proficiency

  • 22.Agents: An Open-source Framework for Autonomous Language Agents

应用(26篇)

1.WebArena: A Realistic Web Environment for Building Autonomous Agents

WebArena:用于构建自主代理的真实网络环境

简述:本文构建了一个高度真实可重现的网站环境,包含电商、社交、协作开发和内容管理等四个常见领域,并设计了一系列模拟人类日常互联网使用的基准任务,用来评估自主代理完成复杂语言命令的能力。实验集成了推理后行动等最近技术的代理模型,结果显示当前最先进的基于GPT-4的语言模型,在这个真实场景中的端到端任务成功率仅有10.59%,完成复杂任务仍面临巨大挑战。

2.3D-LLM: Injecting the 3D World into Large Language Models

将3D世界注入大型语言模型

简述:本文提出了一种将三维世界知识注入大型语言模型的方法,构建了一种全新的三维语言模型(3D-LLM)。这种模型可以接受三维点云及其特征作为输入,并可以执行与三维相关的各种任务,如三维字幕、三维问答、三维定位等。研究设计了三种提示机制收集了丰富的三维-语言训练数据,并利用多视图渲染的三维特征提取器和二维视觉语言模型作为骨干网络进行模型训练。

3.InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent

探索ChatGPT作为协作代理的潜力

简述:本研究论文深入探讨了OpenAI的ChatGPT与具身代理系统的集成,评估了其对交互式决策基准的影响。我们参考了人们根据自己的独特优势承担不同角色的概念,并提出了InterAct方法。在这种方法中,作者通过各种提示来喂给ChatGPT,分配它诸如检查员和分类员等多个角色,然后将它们与原始语言模型集成。研究显示,该方法在AlfWorld中取得了98%的显着成功率。

  • 4.The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models

  • 5.Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling

  • 6.SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models

  • 7.ChatLLM Network: More brains, More intelligence

  • 8.ProAgent: Building Proactive Cooperative AI with Large Language Models

  • 9.MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

  • 10.ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

  • 11.A Virtual Conversational Agent for Teens with Autism Spectrum Disorder: Experimental Results and Design Lessons

  • 12.Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

  • 13.Multi-Turn Dialogue Agent as Sales' Assistant in Telemarketing

  • 14.Agents: An Open-source Framework for Autonomous Language Agents

  • 15.Improving Factuality and Reasoning in Language Models through Multiagent Debate

  • 16.Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

  • 17.Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents

  • 18.RoCo: Dialectic Multi-Robot Collaboration with Large Language Models

  • 19.Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

  • 20.ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks

  • 21.WebGPT: Browser-assisted question-answering with human feedback

  • 22.Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

  • 23.Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

  • 24.ScienceWorld: Is your Agent Smarter than a 5th Grader?

  • 25.CGMI: Configurable General Multi-Agent Interaction Framework

  • 26.SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

评估(2篇)

1.Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

评估大型语言模型中的认知地图

简述:本文通过设计认知科学启发的CogEval评估方案,系统性评估了8个大型语言模型的认知地图和规划能力,结果发现这些模型在规划任务中存在明显的失败模式,表现出它们没有开箱即用的规划能力,可能因为不能理解规划问题背后的关系结构。

2.On the Planning Abilities of Large Language Models

关于大型语言模型的规划能力的批判性研究

简述:本文通过设计基于规划竞赛的基准测试集,系统评估了大型语言模型的自治规划、启发式规划和人机互动规划三种能力,结果显示这些模型的自治规划能力非常有限,仅达到3%的成功率,启发式和人机互动模式略有提高,因此大型语言模型的规划能力仍需进一步提高。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“智能体”获取论文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1103994.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机网络】网络原理

目录 1.网络的发展 2.协议 3.OSI七层网络模型 4.TCP/IP五层网络模型及作用 5.经典面试题 6.封装和分用 发送方(封装) 接收方(分用) 1.网络的发展 路由器:路由指的是最佳路径的选择。一般家用的是5个网口,1个WAN口4个LAN口(口:端口)。可…

JDK 21的新特性总结和分析

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

[正式学习java②]——数组的基本使用,java内存图与内存分配

一、数组的两种初始化方式 1.完整格式(静态初始化) 数据类型[] 数组名 new 数据类型[]{元素1,元素2…}; //范例 int[] arr new int[]{1,2,3,4}; 简化书写 一般我们会省略后面的 new 数据类型[] int[] arr {1,2,3,4}; 2.动态初始化 当不知道数组里面的初始值的时候&#xf…

AI绘画使用Stable Diffusion(SDXL)绘制玉雕风格的龙

一、引言 灵感来源于在逛 LibLib 时,看到的 Lib 原创者「熊叁gaikan」发布的「翠玉白菜 sdxl|玉雕风格」 的 Lora 模型。简直太好看了,一下子就被吸引了! 科普下「翠玉白菜」: 翠玉白菜是由翠玉所琢碾出白菜形状的清…

四川天蝶电子商务有限公司抖音电商服务引领行业标杆

随着电子商务的飞速发展,四川天蝶电子商务有限公司作为一家领先的抖音电商服务提供商,已经脱颖而出。本文将详细解析四川天蝶电子商务有限公司的抖音电商服务,让您一探究竟。 一、卓越的服务理念 四川天蝶电子商务有限公司始终坚持以客户为中…

微前端三:qiankun 协作开发和上线部署

我们先看qiankun怎么上线部署: 我这边用的是yaml 文件在 rancher上部署的: base是基座,这里每个应用都是一个服务,这个还是跟之前一样并没有区别,那如何在一个域名上挂载多个服务呢? 最开始我们主要是在in…

【调度算法】NSGA II

简介 NSGA-II(Nondominated Sorting Genetic Algorithm II)是一种经典的多目标优化算法,由Srinivas和Deb于2000年在NSGA的基础上提出,用于解决多目标优化问题。相较于NSGA,NSGA-II在运行速度和解集的收敛性上表现更好…

nginx的优先级和匹配方式

Nginx的location的优先级和匹配方式: 在http模块当中有server,在server模块才有location,location匹配的是uri /test /image 在一个server当中有多个location,如何来确定匹配那个location Nginx支持正则表达式: ^…

PLC 学习day01 了解PLC 的组成和知识。

1.资料来源 链接:3.三菱PLC编程视频关于PLC工作原理的介绍_哔哩哔哩_bilibili 2. PLC 的知识 2.1 PLC 的概述及特点功能 PLC是可编程逻辑控制器(Programmable Logic Controller)的英文缩写,是融合了继电器控制功能和计算机运算功…

补体C3/C4(C3/C4)介绍

补体是一种血清蛋白质,存在于人和脊椎动物血清及组织液中,不耐热,活化后具有酶活性、可介导免疫应答和炎症反应。可被抗原-抗体复合物或微生物所激活,导致病原微生物裂解或被吞噬。可通过三条既独立又交叉的途径被激活&#xff0c…

DNS(二)

实现 Internet DNS 架构 架构图 实验环境 关闭SELinux、Firewalld。时间保持一致 主机名IP角色client192.168.28.146DNS客户端,DNS地址为192.168.28.145localdns192.168.28.145本地DNS服务器(只缓存)forward192.168.28.144转发目标DNS服务…

TARJAN复习 求强连通分量、割点、桥

TARJAN复习 求强连通分量、割点、桥 文章目录 TARJAN复习 求强连通分量、割点、桥强连通分量缩点桥割点 感觉之前写的不好, 再水一篇博客 强连通分量 “有向图强连通分量:在有向图G中,如果两个顶点vi,vj间(vi>vj)有…

【vue】vue实现海康ws协议的实时监控播放:

文章目录 一、效果图:二、实现过程:【1】官网下载h5player.js:【2】引入h5player.min.js:【3】使用: 一、效果图: 二、实现过程: 【1】官网下载h5player.js: 【H5视频播放器开发包】…

Linux shell编程学习笔记13:文件测试运算

Linux Shell 脚本编程和其他编程语言一样,支持算数、关系、布尔、逻辑、字符串、文件测试等多种运算。前面几节我们依次研究了 Linux shell编程 中的 字符串运算、算术运算、关系运算、布尔运算 和 逻辑运算,今天我们来研究 Linux shell编程中的文件测…

PowerShell批量修改DNS域名解析

批量添加DNS A记录 $dnsServerName"" # DNS服务器的服务器名称,如果是在DNS服务器本机执行则可留空 $containerName"test.com" # 域名的后缀也就是DNS Zone Name $mydns[WMIClass]"ROOT\MicrosoftDNS:MicrosoftDNS_resourceRecord"…

yarn : 无法加载文件 C:\Program Files\nodejs\yarn.ps1

问题描述: 问题分析: 这个错误提示说明在电脑系统上禁止运行 PowerShell 脚本,因此导致无法加载 Yarn 的安装脚本。这是由于系统的执行策略(Execution Policies)设置所导致的。 解决方法: 1. 以管理员身…

关于6轴球腕机械臂的肩部奇异描述纠正

对于常见的球腕6轴机械臂构型,在大多数资料中奇异点描述如下: 肩部奇异点(Shoulder singularity): 肩部奇异点是在机器人手腕的中心与J1轴关节在同一条直线上时发生。这种情况下,会导致关节轴1和4试图瞬间旋…

【Java-框架-SpringMVC】(01) SpringMVC框架的简单创建与使用,快速上手 - 简易版

前言 【描述】 "SpringMVC"框架的简单创建与使用,快速上手; 【环境】 系统"Windows",软件"IntelliJ IDEA 2021.1.3(Ultimate Edition)";“Java版本"1.8.0_202”,“Spring"版…

【Machine Learning】02-Advanced Learning Algorithms

02-Advanced Learning Algorithms 2. Advanced Learning Algorithms2.1 Neural Network2.1.1 概述2.1.2 Neural network model2.1.3 TensorFlow的实现2.1.4 Neural network implementation in Python2.1.5 强人工智能(AGI) 2.2 Vectorization2.2.1 矩阵使…

Hadoop分布式文件系统-HDFS

1.介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 2.HDFS 设计原理 2.1 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: