启程与远征Ⅲ--很棒的大语言模型代理

news2025/1/13 12:13:31

这是关于什么的?

这篇 Awesome-LLM-Agents 是对 Agentic AI 上的最新里程碑论文和开源项目的深度优先回顾。

这个 Awesome-LLM-Agents 项目是我在LLM-Agents-in-Production主题上建立专业知识的第一步,我打算将这个故事用作知识库,记录项目的方法、流程和目录。在此过程中,我应用了几个框架来帮助规划和执行。

方法论和框架

为了最大限度地提高该项目的有效性,我采用了文献中的几个框架来帮助规划和组织。

让我们从最终目标开始——通过做这个项目,我的目标是:

  1. 从文献中获取最先进的知识技能
  2. 通过写作和与观众分享来巩固我的学习成果
  3. 通过观察互动统计数据来评估内容质量
  4. 一些额外收入会很好(请慷慨地进行互动!

接下来,我使用的另一个框架是史蒂夫·巴特利特(Steve Bartlett)的《CEO日记》一书中介绍的五个桶框架。

史蒂夫·巴特利特的《CEO日记》中的五个桶

Steve 认为任何人都应该遵循以下顺序: (1)知识(2)技能(3)网络(4)资源(5)声誉。这是因为较早的桶中的内容将成为下一个桶的基础(即自然地填充某些部分)。因此,这个项目的主要目标是填满知识桶通过回顾里程碑论文和项目,并与技术和非技术受众分享,从而巩固和评估我的知识和理解水平。

我使用的下一个框架是审阅论文的方法。它来自 Andrew Ng 在斯坦福 CS230职业建议和阅读研究论文讲座上的一次演讲。Andrew 建议:

阅读50 到 100 篇论文可以让您对领域适应性有非常好的了解

在审阅每份试卷时,安德鲁建议要牢记四个问题:

  1. 作者试图实现什么目标?
  2. 该方法的关键要素是什么?
  3. 你自己能用什么?
  4. 您还想遵循哪些其他参考资料?

我会在每篇论文的简短评论中包含对上述四个问题的回答,并在长篇评论中包含扩展版本。

执行计划

为了高效地完成这个项目,我将采用瀑布方法,按顺序执行以下操作(这个故事包括第 1 至第 3 项,完成后链接到其余项目):

  1. [完成] 对域名和子域名进行分类
  2. [ WIP ] 整理 100 篇里程碑或高质量近期论文列表
  3. [ WIP ] 策划约 10 个开源项目
  4. 审查每篇论文的长篇和短篇版本
  5. 将评论合并为两篇文章,一篇为学术调查,另一篇为 Medium 故事。
  6. 此外,我可能会创建额外的资源,例如我的研究声明。

由于目的是进行深度优先审查,我不打算整理大量作品并逐一讨论。相反,我会拒绝大部分作品,专注于保留高质量的作品。如果出现多个类似作品,我会根据以下指标选择得分较高的作品,特别是在读者/开发人员友好度方面。

标准

为了找到高质量的论文,我将在谷歌学术、博客、新闻通讯和 X 中主动搜索,并获取专家的建议。我将使用一组指标(不分先后顺序)来选择论文,如下所示:

  • 机构
  • 第一作者和通讯作者
  • 论文的影响力(出版商和引用)
  • 出版年份(理想情况下为 2023 年)
  • 专家对论文的意见
  • 读者友好度

对于开源项目,指标将类似:

  • 机构
  • 发明家/工程师
  • 项目影响力(star数和fork数)
  • 活动(过去几天或几小时内的最后一次提交)
  • 专家对项目的意见
  • 开发人员友好性

我的规划就这么多,后面才是具体执行和主要内容。

第一部分:领域分类(即分类法)

下面我将 LLM 代理从细到粗分为五个领域。

LLM Core是LLM-agents的基本构建块,起到规划、推理和函数调用(即使用工具)的作用。

Agent Core包括自主代理的组件,例如内存和工具。还有另一个组件Profiling我没有包括进去,因为它是通过提示完成的,与LLM Core的一个子类别重叠。

Agentic Workflow描述了当我们打算部署多个代理作为一个团队来解决复杂任务时的方法和注意事项。工作流程可以涉及高度人工监督(即副驾驶)或低度人工监督(即自动驾驶)。

Agentic Applications 回顾了特定领域中 Agentic 系统的实际应用。列出的子领域并不详尽,因为我只包括了我感兴趣的领域。

最后,生产运营描述了为真实用户部署代理应用程序所需的基础设施、工具和技术。

以下是完整细目:

LLM核心

  1. 基础模型
  2. 及时工程
  3. 检索增强生成
  4. 微调
  5. 校准与安全
  6. 数据集、基准、指标

代理核心

  1. 规划/推理
  2. 记忆
  3. 工具

代理工作流

  1. 范式
  2. 人机交互

代理应用程序

  1. 开发工具
  2. 模拟
  3. 内容创作(AIGC)
  4. 社交网络
  5. 金融
  6. 教育
  7. 商业

生产运营

  1. 法学硕士
  2. 人工智能云
  3. 监控

第 2 部分:论文列表,分类

LLM 核心 — 基础模型

  • 神经语言模型的缩放定律(OpenAI,2020 年,arXiv)
  • LLaMA:开放高效的基础语言模型 (Meta,2023 年 2 月,arXiv )
  • Llama 3 模型群 (Meta,2024 年 7 月,arXiv )
  • 通用人工智能的火花:GPT-4 的早期实验 (微软,2023 年 4 月,arXiv )
  • Apple Intelligence Foundation 语言模型(Apple,文档)
  • StarCoder(2023 年 12 月,arXiv)
  • Gemma 2B:以实用规模改进开放语言模型 (2024 年 7 月,arXiv )

LLM 核心 — 快速工程

  • 思维链提示在大型语言模型中引发推理(Google Brain,2022 年,NeurIPS)
  • 思想树:使用大型语言模型进行深思熟虑的问题解决 (普林斯顿大学和 DeepMind,2023 年,NeurIPS,基准)
  • 自一致性改善语言模型中的思路链推理(Google Brain,2023 年,ICLR)
  • ReAct:语言模型中的推理与行动协同 (普林斯顿大学和谷歌大脑,2023 年 3 月ICLR )
  • 反思:具有言语强化学习的语言代理(东北大学、麻省理工学院和普林斯顿大学,2023 年,NeurIPS)
  • ART:大型语言模型的自动多步推理和工具使用(UW、UCI、Microsoft、Allen AI & Meta,2023 年,arXiv)
  • 定向刺激提示(UCSB 和 Microsoft,2023 年,NeurIPS)
  • 大型语言模型的思路链式主动提示 (HKUST 等,2024 年 7 月,arXiv )
  • 后退提示使大型语言模型能够通过抽象进行推理 (DeepMind,2024 年 3 月,arXiv )

LLM 核心 — 检索增强生成

  • 检索增强生成还是长上下文法学硕士?一项综合研究和混合方法 (DeepMind,2024 年 7 月,arXiv )
  • 大型语言模型的检索增强生成:一项调查 (同济大学和复旦大学,2024 年 3 月,arXiv )
  • 通过自推理改进检索增强语言模型 (百度,2024 年 7 月,arXiv )

LLM 核心 — 微调

  • Lora:大型语言模型的低秩自适应 (微软和 CMU,2021 年 10 月,arXiv )
  • QLoRA:量化 LLM 的有效微调 (UW,2023,NeurIPS )
  • 大型语言模型的 LoRA 调查 (ZJU,2024 年 7 月,arXiv )
  • 将系统 2 提炼为系统 1 (Meta,2024 年 7 月,arXiv )

LLM 核心 — 对齐和安全

  • 基于规则的语言模型安全奖励 (OpenAI,2024 年 7 月,预印本)
  • LLM 对齐技术的综合调查:RLHF、RLAIF、PPO、DPO 等 (Salesforce,2024 年 7 月,arXiv )
  • DPO 是否优于 PPO 以适应 LLM ?一项综合研究 (清华,2024 年 4 月,arXiv )
  • PERL:
    通过人类反馈实现参数高效强化学习 (Google,2024 年 3 月,arXiv )
  • RLAIF:通过人工智能反馈扩展从人类反馈进行的强化学习
    (谷歌,2023 年 12 月,arXiv )
  • 训练语言模型以遵循带有人类反馈的指令(OpenAI,2022 年 3 月,arXiv)
  • 宪法人工智能:人工智能反馈带来的无害性 (Anthropic,2022 年 12 月,arXiv ) ⭐️
  • 自我指导:将语言模型与自我生成的指令对齐(Allen AI,2023 年 5 月,ACL)⭐️
  • 直接偏好优化:你的语言模型其实是一个奖励模型(斯坦福,2023 年,NeurIPS)⭐️
  • ULTRAFEEDBACK:通过扩展 AI 反馈增强语言模型 (清华、UIUC、腾讯、中国人民大学等,2024 年,ICML ) ⭐️
  • 气候变化中的骆驼:使用 tulu 2 增强电影适应性 (Allen AI & UW,2023 年 11 月,arXiv )
  • Steerlm:属性条件 sft 作为 rlhf 的(用户可操纵的)替代方案(Nvidia,2023 年 10 月,arXiv)

LLM 核心——数据集、基准、指标

  • GAIA:通用 AI 助手的基准(Meta,2023 年 11 月,ICLR)
  • 长度控制的 AlpacaEval:消除自动评估器偏差的简单方法 (斯坦福大学,2024 年 4 月,arXiv )
  • 使用 MT-Bench 和 Chatbot Arena 评判法学硕士 (UCB、UCSD、CMU 和斯坦福,2023 年 12 月,NeurIPS )
  • FLASK:基于对齐技能集的细粒度语言模型评估 (KAIST,2024 年 4 月,ICLR )
  • Chatbot Arena:一个根据人类偏好评估法学硕士的开放平台 (UCB、斯坦福和 UCSD,2024 年 3 月,arXiv )
  • Starling-7B:通过 RLAIF 提高 LLM 的帮助性和无害性(UCB,2023,HuggingFace)
  • Lmsys-chat-1m:大规模真实世界 llm 对话数据集(UCB、UCSD、CMU 和斯坦福,2024 年 3 月,ICLR)

Agent 核心——规划 / 推理

  • 描述、解释、规划和选择:使用大型语言模型的交互式规划使开放世界多任务代理成为可能(北京大学,2024,NIPS)
  • 大型语言模型作为大规模任务规划的常识知识(NUS,2023,NIPS)

Agent Core——内存

  • 基于大型语言模型的代理记忆机制研究 (中国人民大学 & 华为,2024 年 4 月,arXiv )

Agent Core — 工具

  • 以函数作为可学习权重的语言模型代理的离线训练(PSU、UW、USC 和 Microsoft,2024 年,ICML)
  • 基于基础模型的工具学习(清华、UIUC、CMU 等,2023 年,arXiv)
  • Toolformer:语言模型可以自学使用工具(Meta,2023 年,NeurIPS)

Agentic 工作流程 — 范例

  • 探索法学硕士代理的合作机制:
    社会心理学视角 (ZJU 和 Deepmind,2023 年 10 月,arXiv )
  • 重新思考法学硕士推理的界限:多智能体讨论是关键吗?(浙江大学、香港科技大学和伊利诺伊大学厄巴纳-香槟分校,2024 年 5 月,arXiv)
  • 360◦REA:面向多智能体系统的 360◦ 评估,实现可重复使用的经验积累 (2024 年 4 月,arXiv )
  • CAMEL:用于大型语言模型社会“心智”探索的交流代理(KAUST,2023,NIPS)
  • 混合代理增强大型语言模型功能 (Together AI, 2024 年 6 月, arXiv )
  • 基于大型语言模型的自主代理调查 (2023 年,arXiv )

Agentic 应用程序——模拟

  • 生成代理:人类行为的交互式模拟 (斯坦福/谷歌,2023 年 4 月,arXiv,演示)
  • 解读数字侦探:理解多智能体神秘游戏中的 llm 行为和能力 (Umontreal,2023 年 12 月,arXiv )
  • VillagerAgent:基于图形的多智能体框架,用于协调 Minecraft 中的复杂任务依赖关系 (ZJU,2024 年 6 月,arXiv )

Agentic 应用程序 — 财务


  • 学习使用自反思大型语言模型生成可解释的股票预测(NUS,2024, WWW)
  • 当人工智能遇见金融 (StockAgent):在模拟现实环境中基于大型语言模型的股票交易 (2024,TIST )
  • StockFormer:使用预测编码学习混合交易机器(上海交通大学,2023 年,IJCAI)

第3部分:开源项目列表

多代理框架

  • LangGraph(GitHub)
  • 微软的 AutoGen(GitHub、论文)
  • 阿里巴巴集团的 AgentScope(GitHub、系统论文、项目论文)
  • 翻译代理,作者:Andrew Ng ( GitHub )

全部:

  • Agentic 工作流——人机交互
  • Agentic 应用程序——开发工具
  • Agentic 应用程序 — 内容创建 (AIGC)
  • Agentic 应用程序 — 社交网络
  • Agentic 应用程序 — 商业
  • Agentic 应用程序 — 教育
  • 生产运营——LLMOps
  • 生产运营 — AI Cloud
  • 生产运营——监控


​​​​​欢迎前往我们的公众号,资讯

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2041733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity转Unreal5从入门到精通之不同的Actor之间如何交互

前言 Unreal不同的Actor蓝图之间如何交互 当我们使用蓝图时,当碰到交互的时候,可能会有点蒙,平时我们写代码,A调用B的函数,非常简单。那么在蓝图中,我们如何调用呢?下面我们来一一讲解 通过函…

html+css+js网页制作 京东首页官网 ui还原度100%

htmlcssjs网页制作 京东首页官网 ui还原度100% 网页作品代码简单,可使用任意HTML编辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作)。 获取源码 …

530系列变频器ACS530-01-363A-4可议价

530系列变频器ACS530-01-363A-4可议价 530系列变频器ACS530-01-363A-4可议价 530系列变频器ACS530-01-363A-4可议价 530系列变频器ACS530-01-363A-4引脚线 530系列变频器ACS530-01-363A-4说明书 530系列变频器ACS530-01-363A-4电路图 ACS530-01-363A-4变频器功率的选用 A…

融合创新:EasyCVR视频汇聚平台云计算技术与AI技术共筑雪亮工程智能防线

随着信息技术的飞速发展,视频云计算技术作为云计算领域的一个重要分支,正逐步在公共安全、社会治理等领域展现出其独特的优势。特别是在雪亮工程这一群众性治安防控工程中,视频云计算技术更是发挥了不可替代的作用。本文将从视频云计算技术的…

HarmonyOS开发案例:列表场景实例-TaskPool

介绍 本实例通过列表场景实例讲解,介绍在TaskPool线程中操作关系型数据库的方法,涵盖单条插入、批量插入、删除和查询操作。 效果图预览 使用说明 进入页面有insert(单条数据插入)、batch insert(批量数据插入)、query(查询操作)三个按钮,…

6.7分不降反升的IEEE trans:“江湖地位”超稳的1区,离TOP还有多远?

本周投稿推荐 SCI&EI • 1区计算机水刊,3.5-4.0(48天录用) • 2区-Top水刊,2.0-3.0(沾边可录) • 能源电力水刊,无版面费(25天录用) EI • 各领域沾边均可&…

PyTorch--残差网络(ResNet)在CIFAR-10数据集进行图像分类

完整代码 import torch import torch.nn as nn import torchvision import torchvision.transforms as transforms# Device configuration device torch.device(cuda if torch.cuda.is_available() else cpu)# Hyper-parameters num_epochs 80 batch_size 100 learning_rate…

星地多网融合调度平台:高效融合,智慧救援

在应急救援领域,通信的畅通无阻是保障救援行动成功的关键。然而,面对复杂多变的救援环境和多样化的通信需求,传统的通信系统往往难以满足现代应急救援的高标准要求。为了克服这些挑战,星地多网融合调度平台应运而生,它…

【大模型理论篇】生成式模型算法原理深入浅出

1. 背景介绍 随着大模型的推出,“生成式AI”这个名词一夜之间席卷大江南北。甚至很多人的概念里,“生成式AI”等同于人工智能。但事实上,人工智能(Artificial Intelligence)涵盖的范围要广的多,生成式AI只是其中的一个部分&#x…

SpringBoot教程(二十一) | SpringBoot实现单点定时任务之@Scheduled

SpringBoot教程(二十一) | SpringBoot实现单点定时任务之Scheduled 前言巨坑(Scheduled任务都用了同一个线程去执行,导致定时任务存在堵塞)解决办法一:添加自定义的ThreadPoolTaskScheduler配置&#xff08…

html+css 实现hover 换背景跳动按钮

前言:哈喽,大家好,今天给大家分享html+css 实现hover 换背景跳动按钮!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦 💕 目录 📚一、效果📚二、原理解析💡这个按钮hover后,有4个变化:📝1.1…

【C++二分查找】2080. 区间内查询数字的频率

本文涉及的基础知识点 C二分查找 LeetCode2080. 区间内查询数字的频率 请你设计一个数据结构,它能求出给定子数组内一个给定值的 频率 。 子数组中一个值的 频率 指的是这个子数组中这个值的出现次数。 请你实现 RangeFreqQuery 类: RangeFreqQuery(i…

eclipse免安装版64位(专业的Java 开发工具 2018版本)

前言 eclipse是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。 一、下载地址 下载链接:分享文件:eclipse v2018.zip 二、安装步骤 1、下载解压后将ecl…

动手学深度学习(pytorch)学习记录7-线性回归的从零开始实现[学习记录]

注:本代码在jupyter notebook上运行 封面图片来源 1、生成数据集 %matplotlib inline import random import torch from d2l import torch as d2l构造数据集:生成一个包含1000个样本的数据集, 每个样本包含从标准正态分布中采样的2个特征。…

【JavaEE】线程池和定时器

🔥个人主页: 中草药 🔥专栏:【Java】登神长阶 史诗般的Java成神之路 ✏️一.线程池 在Java中,线程池(Thread Pool)是一种用于管理并发线程的机制,它提供了一种创建、复用和管理一组…

【C++】一文掌握C++的四种类型转换 --- static_cast、reinterpret_cast、const_cast、dynamic_cast

当面对两个选择时,抛硬币总能奏效。 并不是因为它总能给出对的答案, 而是在你把它抛在空中的那一秒里。 你突然就知道,你希望的结果是什么了。 --- 曾小贤 《爱情公寓》--- 一文掌握C的四种类型转换 1 C中的类型2 类型转换3 四种类型转换…

一次caffeine引起的CPU飙升问题

背景 背景是上游服务接入了博主团队提供的sdk,已经长达3年,运行稳定无异常,随着最近冲业绩,流量越来越大,直至某一天,其中一个接入方(流量很大)告知CPU在慢慢上升且没有回落的迹象&…

Godot《躲避小兵》实战之创建玩家场景

项目设置完之后,我们就可以开始处理玩家控制的角色。 这里我们将玩家放在一个单独的场景当中,这样做的好处是在游戏的其他部分做出来之前,我们就可以对其进行单独测试。 节点结构 场景是一个节点树结构,因此一个场景需要有一个…

设计模式六大原则之:依赖倒置原则

1. 依赖倒置原则简介 依赖倒置原则(Dependency Inversion Principle, DIP) 是面向对象设计的核心原则之一,由罗伯特马丁(Robert C. Martin)提出,旨在降低类间的依赖度,使之更易于维护和扩展。该原则主张高层模块不应该依赖于底层模块&#x…

江科大/江协科技 STM32学习笔记P23

文章目录 DMA直接存储器存取DMA简介存储器映像DMA框图DMA基本结构存储器到存储器的数据转运ADC扫描模式和DMA配合使用流程 DMA直接存储器存取 DMA简介 DMA进行存储器到存储器的数据转运,比如Flash里的一批数据转运到SRAM里,需要软件触发,使用…