计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-08

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07
- 目录
- 1. GraphRouter: A Graph-based Router for LLM Selections
- - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 结论
  - 推荐阅读指数
- 2. DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
- - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 结论
  - 推荐阅读指数
- 3. Empowering Domain-Specific Language Models with Graph-Oriented Databases: A Paradigm Shift in Performance and Model Maintenance
- - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 结论
  - 推荐阅读指数
- 4. Godel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
- - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 结论
  - 推荐阅读指数
- 5. ImProver: Agent-Based Automated Proof Optimization
- - 文章标题翻译
  - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 结论
  - 推荐阅读指数
- 后记

1. GraphRouter: A Graph-based Router for LLM Selections

Authors: Tao Feng, Yanzhen Shen, Jiaxuan You
https://arxiv.org/abs/2410.03834
代码：ttps://github.com/ulab-uiuc/GraphRouter.

GraphRouter: 大语言模型选择的图基路由器

摘要

随着大型语言模型（LLMs）的数量和种类迅速增长，针对特定查询高效选择合适LLM的任务面临挑战，尤其是在性能和计算成本之间的权衡。现有的LLM选择方法往往难以泛化到新的LLM和不同任务，因为它们在利用任务、查询和LLM之间的上下文交互能力有限，并且依赖于归纳学习框架。为了解决这些不足，我们引入了一个新颖的归纳图框架，名为GraphRouter，充分利用任务、查询和LLM之间的上下文信息来增强LLM选择过程。GraphRouter构建了一个包含任务、查询和LLM节点的异构图，将交互表示为边，有效地捕获查询需求和LLM能力之间的上下文信息。通过创新的边预测机制，GraphRouter能够预测潜在边的属性（LLM响应的效果和成本），从而提供优化的推荐，适应现有和新引入的LLM，而无需重新训练。在三种不同的效果-成本权重情景下的全面实验表明，GraphRouter大大超过了现有的路由器，至少提高了12.3%的性能。此外，它在新LLM设置中实现了更好的泛化，并支持多样化的任务，至少提高了9.5%的效果，并显著降低了计算需求。

创新点

图基框架：首次从图的角度构建LLM选择路由器，充分利用任务、查询和LLM之间的上下文信息。
异构图构建：构建包含任务节点、查询节点和LLM节点的异构图，通过边表示它们之间的交互。
边预测机制：通过预测边的属性（效果和成本）来优化LLM的选择。
无需重新训练：能够适应新引入的LLM，无需重新训练，提高了模型的泛化能力。

在这里插入图片描述

算法模型

GraphRouter使用异构图神经网络（GNN）来实现LLM的选择。它通过以下步骤工作：

节点和边的初始化：为任务、查询和LLM节点生成初始嵌入。
异构GNN预测：使用异构GNN来聚合不同类型节点的信息，并通过迭代加权聚合局部网络邻域来学习节点嵌入。
边预测：将LLM选择问题建模为边预测问题，通过训练数据确定每个查询的最佳LLM。

实验效果

性能提升：在三种不同的效果-成本权重情景下，GraphRouter至少比现有方法提高了12.3%的性能。
泛化能力：在新LLM设置中，GraphRouter不仅节省了显著的训练时间，而且至少比基线提高了9.5%的性能。
计算需求降低：GraphRouter在新LLM设置中显著降低了计算需求。

结论

GraphRouter通过图基方法有效地利用上下文信息，提高了LLM选择的性能和泛化能力，同时降低了计算成本。实验结果表明，GraphRouter在多种设置下均优于现有方法。

2. DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

Authors: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
https://arxiv.org/abs/2410.03864

DOTS: 通过最优推理路径搜索在大型语言模型中动态推理的学习

摘要

近年来，提升大型语言模型（LLMs）的推理能力受到了显著关注。先前研究表明，各种提示策略如逐步思考、回答前的反思、编程求解及其组合，对于辅助LLMs进行推理（称为“推理行为”）是有效的。然而，这些方法通常对所有问题应用静态、预定义的推理行为，而没有考虑每个问题的具体特点或任务解决LLM的能力。本文提出了DOTS，一种使LLMs根据每个问题的特点和任务解决LLM的固有能力，通过最优推理路径搜索动态推理的方法。我们的方法包括三个关键步骤：i) 定义可以组合成各种推理行为轨迹的原子推理行为模块；ii) 通过迭代探索和评估，为每个训练问题搜索特定的任务解决LLM的最优行为轨迹；iii) 使用收集到的最优轨迹训练LLM来为未见问题规划推理轨迹。特别地，我们提出了两种学习范式，即微调外部LLM作为规划器以指导任务解决LLM，或直接微调具有内部推理行为规划能力的任务解决LLM。我们在八个推理任务上的实验表明，我们的方法一贯优于静态推理技术和普通指令调整方法。进一步分析揭示了我们的方法使LLMs能够根据问题复杂度调整其计算，将更深入的思考和推理分配给更难的问题。代码可在GitHub上获得。

创新点

动态推理路径搜索：根据问题的特点和LLM的固有能力，动态地为每个问题搜索最优推理路径。
原子推理行为模块：定义了可以组合成多种推理行为轨迹的原子模块。
两种学习范式：提出了外部规划器微调和内部规划器微调两种不同的学习设置，以适应不同的LLM可访问性限制。

算法模型

DOTS的核心是三个步骤：

定义原子推理模块：构建代表不同推理行为的原子模块。
搜索最优行为轨迹：通过探索和评估，为训练数据中的每个问题识别最优推理行为。
微调LLM规划最优推理轨迹：使用收集到的最优轨迹通过监督式微调来训练LLM。

算法伪代码：

实验效果

性能提升：在多个推理任务上，DOTS一致性地优于静态推理技术和普通指令调整方法。
问题复杂度适应：分析表明，DOTS可以根据问题的复杂度调整其计算深度和推理步骤。
外部规划器微调：在MATH、BBH、Game of 24和TheoremQA数据集上，DOTS显示出较基线方法更高的准确率。
内部规划器微调：在Game of 24任务中，与仅使用CoT方法相比，DOTS实现了性能提升。

结论

DOTS通过动态规划最优推理路径，提升了LLMs的推理能力。实验结果表明，DOTS在各种推理挑战中表现优越，展现了在不同任务中的强大鲁棒性和泛化能力。

3. Empowering Domain-Specific Language Models with Graph-Oriented Databases: A Paradigm Shift in Performance and Model Maintenance

Authors: Ricardo Di Pasquale and Soledad Represa
https://arxiv.org/abs/2410.03867

通过图导向数据库赋能领域特定语言模型：性能和模型维护的范式转变

摘要

在数据主导的时代，领域特定语言的管理与利用成为了各种应用领域的关键挑战，尤其是那些具有特定行业需求的领域。本文旨在有效管理并处理特定应用领域内大量短文本文件的需求。通过利用领域特定知识和专长，我们的方法旨在塑造这些领域内的事实数据，从而促进最终用户的利用和理解。我们的方法的核心是将领域特定语言模型与图导向数据库集成，从而在目标领域内无缝处理、分析和利用文本数据。我们的工作强调了领域特定语言模型与图导向数据库合作的变革潜力。这种合作旨在帮助研究人员和工程师在度量使用、减轻延迟问题、提高可解释性、增强调试和改善整体模型性能方面取得进展。展望未来，我们希望我们的工作能作为AI工程师的指南，为实施与图导向数据库结合使用的领域特定语言模型提供有价值的见解，并为此类产品的全生命周期维护提供宝贵的经验。

创新点

领域特定语言模型与图导向数据库的集成：提出了一种新的方法，将语言模型与图数据库结合起来，以改善特定领域的文本数据处理。
自动化知识图谱创建：使用LLMs自动从文档中提取实体和关系，以构建知识图谱。
检索增强生成技术：探索了利用图数据库支持的检索增强生成技术。
提高可解释性：通过链式思考（Chain of Thought）技术提高LLMs的可解释性。
记忆、上下文和个性化：提出使用图数据库增强聊天机器人的记忆表示，并实现客户个性化。

算法模型

本文提出了一个将领域特定语言模型与图导向数据库（GODB）集成的框架。该框架包括以下几个关键组成部分：

知识图谱（KG）构建：使用LLMs从文档中提取信息，并将其存储在GODB中。
检索增强生成（RAG）：使用GODB中的KG来增强LLMs的回答，以提供更准确和相关的信息。
可解释性技术：通过CoT技术提高LLMs的决策过程的可解释性。
记忆和上下文管理：使用GODB来维护聊天机器人的会话历史，以提供更好的个性化服务。

实验效果

文章中没有提供具体的实验数据或结果。但是，作者提到了他们的方法在理论上可以提高性能、减少延迟、提高可解释性和改善模型维护。

结论

作者强调了领域特定语言模型与图导向数据库结合的重要性，并提出了一个集成框架，以提高特定领域的文本数据处理能力。他们认为这种合作可以作为实施生成性AI解决方案的主要方法。

4. Godel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

Authors: Xunjian Yin and Xinyi Wang and Liangming Pan and Xiaojun Wan and
William Yang Wang
https://arxiv.org/abs/2410.04444
在这里插入图片描述
Gödel Agent: 一种用于代理递归自我改进的自引用框架

摘要

随着大型语言模型（LLMs）的快速发展，AI驱动的代理在各种任务上的能力得到了显著提升。然而，现有的代理系统，无论是基于固定流程算法还是预定义的元学习框架，都由于人类设计组件的限制而无法搜索整个代理设计空间，因此可能会错过全局最优的代理设计。在本文中，我们介绍了Gödel Agent，这是一个受Gödel机器启发的自我进化框架，使代理能够通过提示引导递归地改进自己，而无需依赖预定义的例程或固定的优化算法。Gödel Agent利用LLMs动态修改自己的逻辑和行为。在编码、科学和数学等多个领域的实验结果表明，Gödel Agent的实现能够实现持续的自我改进，在性能、效率和泛化能力方面超过了手工设计的代理。

创新点

自引用框架：提出了一种新颖的自我进化框架，使代理能够递归地改进自己，而无需依赖预定义的例程或固定的优化算法。
动态逻辑修改：Gödel Agent利用大型语言模型动态修改自己的逻辑和行为，以适应不同的任务。
递归自我改进：代理能够通过递归自我更新，理论上能够随时间进行越来越好的改进。

算法模型

Gödel Agent的核心是递归自我改进，它通过以下步骤实现：

自感知：通过在运行时内存中读取自己的代码来实现。
自我改进：通过动态修改运行时内存中的代码来实现。
环境交互：与环境交互以评估性能并收集反馈。
递归改进机制：在每一步中确定要执行的操作序列，包括推理、决策和执行操作。

实验效果

性能提升：在多个任务上，Gödel Agent实现了显著的性能提升，包括数学问题解决、阅读理解和多任务问题解决。
效率：Gödel Agent在自我改进过程中表现出更高的效率，需要的迭代次数和计算成本远低于现有的自动化代理设计方法。
泛化能力：相同的Gödel Agent实现能够轻松适应不同任务，只需指定环境描述和反馈机制。

结论

Gödel Agent作为一种自我引用的代理框架，能够递归地改进自己，克服了手工设计代理和元学习优化代理的限制。实验结果表明，Gödel Agent在性能、效率和适应性方面优于传统代理。

5. ImProver: Agent-Based Automated Proof Optimization

Authors: Riyaz Ahuja, Jeremy Avigad, Prasad Tetali, Sean Welleck
https://arxiv.org/abs/2410.04753

文章标题翻译

IMPROVER: 基于代理的自动证明优化

摘要

大型语言模型（LLMs）已被用于在如Lean的证明助手中生成数学定理的正式证明。然而，我们经常需要根据不同的标准优化正式证明，这取决于其下游用途。例如，我们可能希望证明遵守某种风格，或者希望证明是可读的、简洁的或模块化结构的。对于学习任务来说，拥有适当优化的证明也很重要，尤其是因为人类编写的证明可能不是最优的。为此，我们研究了一个新的自动证明优化问题：重写证明，使其正确并优化任意标准，例如长度或可读性。作为自动证明优化的第一种方法，我们提出了ImProver，这是一个大型语言模型代理，用于重写证明以优化Lean中任意用户定义的度量。我们发现，简单地应用LLMs进行证明优化是不够的，我们为ImProver纳入了各种改进，例如使用符号化Lean上下文的新Chain-of-States技术，以及错误更正和检索。我们在重写真实世界的本科、竞赛和研究级数学定理方面测试了ImProver，发现ImProver能够重写证明，使其更短、更模块化、更易读。
在这里插入图片描述

创新点

自动证明优化：提出了一个新的问题，即自动优化证明过程，以满足不同的标准，如长度或可读性。
ImProver代理：开发了一个大型语言模型代理，用于重写证明，优化用户定义的度量。
Chain-of-States技术：提出了一种新颖的技术，通过显示中间证明状态，帮助模型更好地理解证明过程。
错误更正和检索：纳入了错误更正和检索机制，以提高证明优化的准确性和效率。

算法模型

ImProver的核心是一个大型语言模型代理，它使用以下关键技术：

Chain-of-States (CoS) 提示：通过在证明中添加注释，显示中间状态，帮助模型理解证明步骤。
输出格式化：引入不同的输出格式，以生成更结构化的证明。
采样方法：使用不同的采样方法，包括最佳n和迭代改进，以生成最优证明。
检索：使用基于MMR的检索增强生成，选择相关的示例和文档，以生成更准确的证明。

实验效果

性能提升：在多个数据集上，ImProver在证明优化任务上显著优于基线模型GPT-4o。
重要数据：
- 长度优化：ImProver的平均改进分数为20.96%，非空改进分数为55.29%，准确率为100%。
- 可读性优化：ImProver的平均改进分数为9.34%，非空改进分数为30.53%，准确率为100%。
结论：ImProver能够在保持正确性的同时，显著提高证明的长度和可读性。