启程与远征Ⅲ--很棒的大语言模型代理

这是关于什么的？

这篇 Awesome-LLM-Agents 是对 Agentic AI 上的最新里程碑论文和开源项目的深度优先回顾。

这个 Awesome-LLM-Agents 项目是我在LLM-Agents-in-Production主题上建立专业知识的第一步，我打算将这个故事用作知识库，记录项目的方法、流程和目录。在此过程中，我应用了几个框架来帮助规划和执行。

方法论和框架

为了最大限度地提高该项目的有效性，我采用了文献中的几个框架来帮助规划和组织。

让我们从最终目标开始——通过做这个项目，我的目标是：

从文献中获取最先进的知识和技能
通过写作和与观众分享来巩固我的学习成果
通过观察互动统计数据来评估内容质量
一些额外收入会很好（请慷慨地进行互动！）

接下来，我使用的另一个框架是史蒂夫·巴特利特（Steve Bartlett）的《CEO日记》一书中介绍的五个桶框架。

史蒂夫·巴特利特的《CEO日记》中的五个桶

Steve 认为任何人都应该遵循以下顺序：（1）知识（2）技能（3）网络（4）资源（5）声誉。这是因为较早的桶中的内容将成为下一个桶的基础（即自然地填充某些部分）。因此，这个项目的主要目标是填满知识桶，通过回顾里程碑论文和项目，并与技术和非技术受众分享，从而巩固和评估我的知识和理解水平。

我使用的下一个框架是审阅论文的方法。它来自 Andrew Ng 在斯坦福 CS230职业建议和阅读研究论文讲座上的一次演讲。Andrew 建议：

阅读50 到 100 篇论文可以让您对领域适应性有非常好的了解。

在审阅每份试卷时，安德鲁建议要牢记四个问题：

作者试图实现什么目标？
该方法的关键要素是什么？
你自己能用什么？
您还想遵循哪些其他参考资料？

我会在每篇论文的简短评论中包含对上述四个问题的回答，并在长篇评论中包含扩展版本。

执行计划

为了高效地完成这个项目，我将采用瀑布方法，按顺序执行以下操作（这个故事包括第 1 至第 3 项，完成后链接到其余项目）：

[完成] 对域名和子域名进行分类
[ WIP ] 整理 100 篇里程碑或高质量近期论文列表
[ WIP ] 策划约 10 个开源项目
审查每篇论文的长篇和短篇版本
将评论合并为两篇文章，一篇为学术调查，另一篇为 Medium 故事。
此外，我可能会创建额外的资源，例如我的研究声明。

由于目的是进行深度优先审查，我不打算整理大量作品并逐一讨论。相反，我会拒绝大部分作品，专注于保留高质量的作品。如果出现多个类似作品，我会根据以下指标选择得分较高的作品，特别是在读者/开发人员友好度方面。

标准

为了找到高质量的论文，我将在谷歌学术、博客、新闻通讯和 X 中主动搜索，并获取专家的建议。我将使用一组指标（不分先后顺序）来选择论文，如下所示：

机构
第一作者和通讯作者
论文的影响力（出版商和引用）
出版年份（理想情况下为 2023 年）
专家对论文的意见
读者友好度

对于开源项目，指标将类似：

机构
发明家/工程师
项目影响力（star数和fork数）
活动（过去几天或几小时内的最后一次提交）
专家对项目的意见
开发人员友好性

我的规划就这么多，后面才是具体执行和主要内容。

第一部分：领域分类（即分类法）

下面我将 LLM 代理从细到粗分为五个领域。

LLM Core是LLM-agents的基本构建块，起到规划、推理和函数调用（即使用工具）的作用。

Agent Core包括自主代理的组件，例如内存和工具。还有另一个组件Profiling我没有包括进去，因为它是通过提示完成的，与LLM Core的一个子类别重叠。

Agentic Workflow描述了当我们打算部署多个代理作为一个团队来解决复杂任务时的方法和注意事项。工作流程可以涉及高度人工监督（即副驾驶）或低度人工监督（即自动驾驶）。

Agentic Applications 回顾了特定领域中 Agentic 系统的实际应用。列出的子领域并不详尽，因为我只包括了我感兴趣的领域。

最后，生产运营描述了为真实用户部署代理应用程序所需的基础设施、工具和技术。

以下是完整细目：

LLM核心

基础模型
及时工程
检索增强生成
微调
校准与安全
数据集、基准、指标

代理核心

规划/推理
记忆
工具

代理工作流

范式
人机交互

代理应用程序

开发工具
模拟
内容创作（AIGC）
社交网络
金融
教育
商业

生产运营

法学硕士
人工智能云
监控

第 2 部分：论文列表，分类

LLM 核心 — 基础模型

神经语言模型的缩放定律（OpenAI，2020 年，arXiv）
LLaMA：开放高效的基础语言模型 (Meta，2023 年 2 月，arXiv )
Llama 3 模型群 (Meta，2024 年 7 月，arXiv )
通用人工智能的火花：GPT-4 的早期实验 (微软，2023 年 4 月，arXiv )
Apple Intelligence Foundation 语言模型（Apple，文档）
StarCoder（2023 年 12 月，arXiv）
Gemma 2B：以实用规模改进开放语言模型 (2024 年 7 月，arXiv )

LLM 核心 — 快速工程

思维链提示在大型语言模型中引发推理（Google Brain，2022 年，NeurIPS）
思想树：使用大型语言模型进行深思熟虑的问题解决 (普林斯顿大学和 DeepMind，2023 年，NeurIPS，基准)
自一致性改善语言模型中的思路链推理（Google Brain，2023 年，ICLR）
ReAct：语言模型中的推理与行动协同 (普林斯顿大学和谷歌大脑，2023 年 3 月ICLR )
反思：具有言语强化学习的语言代理（东北大学、麻省理工学院和普林斯顿大学，2023 年，NeurIPS）
ART：大型语言模型的自动多步推理和工具使用（UW、UCI、Microsoft、Allen AI & Meta，2023 年，arXiv）
定向刺激提示（UCSB 和 Microsoft，2023 年，NeurIPS）
大型语言模型的思路链式主动提示 (HKUST 等，2024 年 7 月，arXiv )
后退提示使大型语言模型能够通过抽象进行推理 (DeepMind，2024 年 3 月，arXiv )

LLM 核心 — 检索增强生成

检索增强生成还是长上下文法学硕士？一项综合研究和混合方法 (DeepMind，2024 年 7 月，arXiv )
大型语言模型的检索增强生成：一项调查 (同济大学和复旦大学，2024 年 3 月，arXiv )
通过自推理改进检索增强语言模型 (百度，2024 年 7 月，arXiv )

LLM 核心 — 微调

Lora：大型语言模型的低秩自适应 (微软和 CMU，2021 年 10 月，arXiv )
QLoRA：量化 LLM 的有效微调 (UW，2023，NeurIPS )
大型语言模型的 LoRA 调查 (ZJU，2024 年 7 月，arXiv )
将系统 2 提炼为系统 1 (Meta，2024 年 7 月，arXiv )

LLM 核心 — 对齐和安全

基于规则的语言模型安全奖励 (OpenAI，2024 年 7 月，预印本)
LLM 对齐技术的综合调查：RLHF、RLAIF、PPO、DPO 等 (Salesforce，2024 年 7 月，arXiv )
DPO 是否优于 PPO 以适应 LLM ？一项综合研究 (清华，2024 年 4 月，arXiv )
PERL：
通过人类反馈实现参数高效强化学习 (Google，2024 年 3 月，arXiv )
RLAIF：通过人工智能反馈扩展从人类反馈进行的强化学习
(谷歌，2023 年 12 月，arXiv )
训练语言模型以遵循带有人类反馈的指令（OpenAI，2022 年 3 月，arXiv）
宪法人工智能：人工智能反馈带来的无害性 (Anthropic，2022 年 12 月，arXiv ) ⭐️
自我指导：将语言模型与自我生成的指令对齐（Allen AI，2023 年 5 月，ACL）⭐️
直接偏好优化：你的语言模型其实是一个奖励模型（斯坦福，2023 年，NeurIPS）⭐️
ULTRAFEEDBACK：通过扩展 AI 反馈增强语言模型 (清华、UIUC、腾讯、中国人民大学等，2024 年，ICML ) ⭐️
气候变化中的骆驼：使用 tulu 2 增强电影适应性 (Allen AI & UW，2023 年 11 月，arXiv )
Steerlm：属性条件 sft 作为 rlhf 的（用户可操纵的）替代方案（Nvidia，2023 年 10 月，arXiv）

LLM 核心——数据集、基准、指标

GAIA：通用 AI 助手的基准（Meta，2023 年 11 月，ICLR）
长度控制的 AlpacaEval：消除自动评估器偏差的简单方法 (斯坦福大学，2024 年 4 月，arXiv )
使用 MT-Bench 和 Chatbot Arena 评判法学硕士 (UCB、UCSD、CMU 和斯坦福，2023 年 12 月，NeurIPS )
FLASK：基于对齐技能集的细粒度语言模型评估 (KAIST，2024 年 4 月，ICLR )
Chatbot Arena：一个根据人类偏好评估法学硕士的开放平台 (UCB、斯坦福和 UCSD，2024 年 3 月，arXiv )
Starling-7B：通过 RLAIF 提高 LLM 的帮助性和无害性（UCB，2023，HuggingFace）
Lmsys-chat-1m：大规模真实世界 llm 对话数据集（UCB、UCSD、CMU 和斯坦福，2024 年 3 月，ICLR）

Agent 核心——规划 / 推理

描述、解释、规划和选择：使用大型语言模型的交互式规划使开放世界多任务代理成为可能（北京大学，2024，NIPS）
大型语言模型作为大规模任务规划的常识知识（NUS，2023，NIPS）

Agent Core——内存

基于大型语言模型的代理记忆机制研究 (中国人民大学 & 华为，2024 年 4 月，arXiv )

Agent Core — 工具

以函数作为可学习权重的语言模型代理的离线训练（PSU、UW、USC 和 Microsoft，2024 年，ICML）
基于基础模型的工具学习（清华、UIUC、CMU 等，2023 年，arXiv）
Toolformer：语言模型可以自学使用工具（Meta，2023 年，NeurIPS）

Agentic 工作流程 — 范例

探索法学硕士代理的合作机制：
社会心理学视角 (ZJU 和 Deepmind，2023 年 10 月，arXiv )
重新思考法学硕士推理的界限：多智能体讨论是关键吗？（浙江大学、香港科技大学和伊利诺伊大学厄巴纳-香槟分校，2024 年 5 月，arXiv）
360◦REA：面向多智能体系统的 360◦ 评估，实现可重复使用的经验积累 (2024 年 4 月，arXiv )
CAMEL：用于大型语言模型社会“心智”探索的交流代理（KAUST，2023，NIPS）
混合代理增强大型语言模型功能 (Together AI, 2024 年 6 月, arXiv )
基于大型语言模型的自主代理调查 (2023 年，arXiv )

Agentic 应用程序——模拟

生成代理：人类行为的交互式模拟 (斯坦福/谷歌，2023 年 4 月，arXiv，演示)
解读数字侦探：理解多智能体神秘游戏中的 llm 行为和能力 (Umontreal，2023 年 12 月，arXiv )
VillagerAgent：基于图形的多智能体框架，用于协调 Minecraft 中的复杂任务依赖关系 (ZJU，2024 年 6 月，arXiv )

Agentic 应用程序 — 财务

学习使用自反思大型语言模型生成可解释的股票预测（NUS，2024， WWW）
当人工智能遇见金融 (StockAgent)：在模拟现实环境中基于大型语言模型的股票交易 (2024，TIST )
StockFormer：使用预测编码学习混合交易机器（上海交通大学，2023 年，IJCAI）

第3部分：开源项目列表

多代理框架

LangGraph（GitHub）
微软的 AutoGen（GitHub、论文）
阿里巴巴集团的 AgentScope（GitHub、系统论文、项目论文）
翻译代理，作者：Andrew Ng ( GitHub )

全部：

Agentic 工作流——人机交互
Agentic 应用程序——开发工具
Agentic 应用程序 — 内容创建 (AIGC)
Agentic 应用程序 — 社交网络
Agentic 应用程序 — 商业
Agentic 应用程序 — 教育
生产运营——LLMOps
生产运营 — AI Cloud
生产运营——监控

欢迎前往我们的公众号，资讯

创作不易，觉得不错的话，点个赞吧！！！