论文 | ART: Automatic multi-step reasoning and tool-use for large language models

news2024/10/11 23:15:38

 摘要:

  • LLM 在进行多步推理和工具使用时存在局限性,例如需要大量标注数据或专门训练。
  • 现有的 CoT 提示和工具使用方法难以扩展到新任务和工具。
  • 本文介绍了 ART 框架,该框架使用冻结的 LLM 自动生成推理步骤,并选择和调用外部工具。
  • ART 在 BigBench 和 MMLU 基准测试中取得了显著的性能提升,并可以接受人类反馈进行改进。

 主要内容

  • ART 框架
    • 任务库 (Task Library): 存储了来自不同任务的程序,这些程序展示了如何将任务分解为多个步骤,并使用工具进行计算。
    • 工具库 (Tool Library): 提供了可用的外部工具,例如搜索引擎、代码生成器、代码执行器和知识库查询工具。
    • 自动推理引擎 (Automatic Reasoning Engine): 解析 LLM 生成的程序,并根据程序中的工具调用节点自动调用工具。
    • 人类反馈 (Human Feedback): 用户可以添加新的任务和工具到库中,并通过编辑程序来改进性能,并提供调试工具。
  • ART 的优势
    • 模块化设计: ART 采用模块化设计,每个模块都独立运作,易于扩展和改进。
    • 灵活性和可扩展性: 用户可以轻松地添加新的任务和工具到库中,并定义相应的程序。
    • 可解释性: 生成的程序使用 PeG 语法,具有明确的结构,易于理解。
    • 人类反馈: 用户可以提供调试和改进意见,使 ART 的性能不断提升。

实验结果: 

  • 在 BigBench 和 MMLU 基准测试中,ART 在未见过的任务上取得了显著的性能提升,甚至超过了人工编写的 CoT 提示。
  • 工具使用在测试任务上平均提高了 12.3 个百分点。
  • 通过人类反馈,可以进一步改进 ART 的性能,使其超过 GPT-3 的最佳结果。

 结论

        ART 是一个强大的框架,可以显著提高 LLM 在多步推理和工具使用方面的能力。它可以轻松地扩展到新的任务和工具,并通过人类反馈进行改进,为 LLM 的发展和应用开辟了新的可能性。 

个人思考: 

  • ART 框架展示了 LLM 未来的发展方向,即通过结合任务库、工具库和自动推理机制,实现更强大的智能。
  • 人类反馈在改进 LLM 性能方面发挥着重要作用,未来需要探索更有效的反馈机制。
  • LLM 的应用前景广阔,未来需要在更多领域进行探索和实验。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206187.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

做ppt用什么软件好?5个办公必备的ppt工具推荐!

ppt用什么软件做? 相信很多人看到这个,会第一时间想到Microsoft Office套件包含的幻灯片软件Powerpoint,它的名声甚广,以至于某种程度上成了PPT的代名词。 在Powerpoint之外,这些年也陆续诞生了各式各样的PPT软件&am…

CocosCreator 快速部署 TON 游戏:Web2 游戏如何使用 Ton支付

在本篇文章中,我们将继续探讨如何使用 Cocos Creator 开发 Telegram 游戏,重点介绍如何集成 TON 支付功能。通过这一教程,开发者将学会如何在游戏中接入 TON Connect,实现钱包连接、支付以及支付后的校验流程,最终为 W…

YOLO11改进|SPPF篇|引入SPPFCSPC金字塔结构

目录 一、【SPPFCSPC】金字塔结构1.1【SPPFCSPC】金字塔结构介绍1.2【SPPFCSPC】核心代码 二、添加【SPPFCSPC】金字塔结构2.1STEP12.2STEP22.3STEP32.4STEP4 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【SPPFCSPC】金字塔结构 1.1【SPPFCSPC】金字塔结构介绍 下图是…

vue后台管理系统从0到1(1)

文章目录 vue后台管理系统从0到1(1)nvm 下载安装1.卸载nodejs环境2.安装nvm 安装nrm vue后台管理系统从0到1(1) 第一节主要是先安装我们的工具nvm nodejs版本管理工具,和nrm镜像管理工具 nvm 下载安装 nvm是一款管理…

网络流量预测的学习——持续更新ing

文章目录 前情提要何为网络流量网络流量分析(NTA)网络流量组成网络流量处理过程 预测网络流量的工具wiresharkbrim(zui) 机器学习中的网络流量预测参考文章 前情提要 记录一些有关网络流量的学习 何为网络流量 网络流量是指在计…

【D3.js in Action 3 精译_033】4.1.0 DIY 实战:如何通过学习 d3.autoType 函数深度参与 D3 生态建设

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一部分 D3.js 基础知识 第一章 D3.js 简介(已完结) 1.1 何为 D3.js?1.2 D3 生态系统——入门须知1.3 数据可视化最佳实践(上)1.3 数据可…

又被特斯拉演了?继续“画饼式”发布Robotaxi,产业链静观其变

9月底的暴涨后,A股资产正经历回调,科技板块变现参差。不过,无人驾驶领域的预期依然很强。 10月10日科技股全线调整之际,无人驾驶板块盘中的巨幅震荡拉升就是典型的预热动作。东箭科技、天龙股份等多只智能驾驶个股涨停。核心驱动…

ACR、PZ、AMC仪表接线说明及通讯协议解析

1.ACR/PZ/AMC多功能表接线说明 三相三线接线说明 使用场合负载是平衡系统,并且没有零线的场合。 1. 端子号1,2为辅助电源: 如上图,接入相电压220V输入。其中辅助电源的火线加装5A保险丝,零线直接接到零排上。 2&am…

iPhone使用指南:如何在没有备份的情况下从 iPhone 恢复已删除的照片

本指南将向您展示如何在没有备份的情况下从 iPhone 恢复已删除的照片。我们所有人在生活中的某个时刻都一定做过一些愚蠢的事情,例如从手机或电脑中删除一些重要的东西。这是很自然的,没有什么可羞耻的。您可能在辛苦工作一天后回来。当突然想看一些照片…

C++开发五子棋游戏案例详解

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

JavaSE——集合3:ArrayList、Vector

目录 一、ArrayList的注意事项 二、ArrayList的扩容机制(重要) 三、Vector底层结构和源码剖析 1.Vector类的定义说明 2.Vector底层也是一个对象数组 3.Vector是线程同步的,即线程安全,Vector类的操作方法带有synchronized 4.在开发中&#xff0c…

obs录屏怎么样?四大优秀录屏工具亲测好用!

录屏需求日盛,接下来我们就来聊聊几款市面上较为热门的录屏软件——福昕录屏大师、转转大师录屏、爱拍录屏以及经典的obs录屏,希望能给寻找合适录屏工具的您带来一些灵感。 福昕录屏大师 直达链接:www.foxitsoftware.cn/REC/ 如果你刚开始…

如何在组织内推广和应用六西格玛设计?

六西格玛设计(Design for Six Sigma, DFSS)作为一种先进的流程设计和优化方法论,旨在通过设计阶段的创新与严谨,确保产品或服务从一开始就具备高度的质量和客户满意度。本文,深圳天行健企业管理咨询公司将深入探讨如何…

HCIP--以太网交换安全(三)MAC地址漂移防止与检测

MAC地址漂移防止与检测 一、MAC地址漂移防止与检测知识点 1.1MAC地址漂移的概述 MAC地址漂移是指交换机上一个vlan内有两个端口学习到同一个MAC地址,后学习到的MAC地址表项覆盖原MAC地址表项的现象。 1.2.MAC地址漂移的防止方法 (1)配置…

浸入式电磁流量计如何工作?

磁力如何产生可感应电压? 所有磁流量计都利用法拉第感应定律的指导原理,该定律显示了“表达变化的磁场在电路中感应出电压的定量关系”。 该感应定律可用于测量导体液体(如水)的速度,而无需移动部件。与其他类型的仪…

『网络游戏』游戏数据库管理类查询插入账号存储【23】

新建数据库连接 新建数据库 打开数据库 新建表 账号数据 设计表 - 添加属性 对照服务器工程GameMsg增加对应字段 保存后在服务器脚本中操作数据库数据 添加数据层文件夹 创建脚本:DBMgr 编写脚本:DBMgr.cs 修改脚本:ServerRoot.cs 将MySql.d…

两个数相加(c语言)

1./给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target // 的那 两个 整数,并返回它们的数组下标。 //你可以假设每种输入只会对应一个答案,并且你不能使用两次相同的元素。你可以按任意顺序返回答案。 /…

“城市酷选”排队免单模式:创新机制引领本地消费新风尚

近期,众多朋友对排队免单模式展现出浓厚兴趣,旨在借助商家优惠吸引顾客,激活本地商业活力,推动实体消费。自去年下半年起,本地生活服务平台热度持续攀升,其中,排队免单模式作为多商家联合的优惠…

DGX的优势

NVIDIA DGX 的 AI 领导力 文章目录 前言一、概述推动跨行业的 AI 创新二、优势客户体验到哪些好处?1. 利用生成式 AI 释放研究人员的潜力2. 加快现代应用程序的上市时间3. 利用 AI 改善客户体验三、性能性能很重要1. 为世界上最先进的超级计算机提供动力2. 打破世界纪录3. 提高…

『网络游戏』进入游戏主城UI跳转主城【26】

首先在Unity客户端中创建一个空节点重命名为MainCityWnd 设置父物体为全局 创建空节点钉在左上角作为角色信息UI 在钉子下创建Image 创建脚本:MainCityWnd.cs 编写脚本:MainCityWnd.cs 挂载脚本 创建脚本:MainCitySys.cs 编写脚本&#xff1a…