训练验证器解决数学应用题

news2024/10/7 15:52:24

人工智能咨询培训老师叶梓 转载标明出处

数学问题解决不仅要求模型能够理解问题的语言表述,还要求其能够准确地执行一系列数学运算,每一步的准确性都至关重要。遗憾的是,现有的语言模型在这一领域的性能远远未能达到人类的水平,它们在解题过程中常常出现灾难性的错误,即便在经过专门的微调之后也难以避免。

由此OpenAI的研究团队提出了一项新的研究,旨在通过训练验证器来解决这一难题。这项研究的核心是GSM8K数据集,它包含了8.5K个高质量的、语言多样化的小学数学应用题。通过这一数据集,研究团队不仅诊断了当前模型在数学推理任务上的不足,还探索了一种新的方法来显著提升模型在这些任务上的性能。

GSM8K数据集

GSM8K数据集由8500个高质量的小学数学问题组成,这些问题由人工出题者编写而成。这些题目被划分为7500个用于训练的问题和1000个用于测试的问题。解决这些问题需要2到8个步骤,解决方案主要涉及执行一系列基本的算术运算(加、减、乘、除)以得出最终答案。一个聪明的中学生应该能够解决这些问题。

在构建GSM8K数据集时,遵循了以下设计原则:

  1. 高质量:避免采用容易出错的网络抓取程序,而是依赖人工工作者来创建问题。在进行基于工作者答案一致性的广泛质量控制之后,估计少于2%的问题包含破坏性错误。

  2. 高多样性:力求在问题之间保持高度的多样性。积极避免设计那些来自相同语言模板或只在表面细节上有所不同的问题,这是许多其他数据集中普遍存在的问题。通过使每个问题都相对独特,保留的测试性能成为一个更相关的指标。

  3. 适度难度:选择的问题分布对于大型最先进的语言模型来说具有挑战性,但并非完全无法解决。GSM8K有助于更好地理解不同模型和方法在这一难度范围内的数据扩展趋势。这些问题不需要超出初级代数水平的概念,而且绝大多数问题可以在不明确定义变量的情况下解决。

  4. 自然语言解决方案:收集的解决方案以自然语言而非纯数学表达式的形式呈现。认为这是最普遍有用的数据格式,并期望这将揭示大型语言模型内部独白的特性。指导问题编写者尽可能多地解释他们的工作,但也允许他们以自己多样化的语言风格编写解决方案。

图1为GSM8K数据集中的三个示例问题,其中计算注释用红色标出。 

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

两种解决方法

在解决GSM8K问题集的过程中,采用了两种主要方法:微调和验证。微调方法作为基线,使用了与GPT-3生成预训练相同的语言建模目标。测试阶段的性能通过自回归采样一个低温解决方案并检查最终答案是否正确来评估。与此相对,验证方法包括采样多个高温解决方案,为每个解决方案分配一个分数,并输出最高排名的解决方案。验证器被训练用来评判解决方案的正确性,其训练信号仅由解决方案是否达到正确的最终答案决定。

微调过程中,通过更新模型参数来最小化所有训练令牌上的交叉熵损失。测试性能是通过每个测试问题的一个低温(T=0)样本来确定的。175B模型显著优于较小的模型。假设一个对数线性趋势,可以简单地外推这些结果来估计,需要一个有10^16个参数的模型才能达到80%的解决率,当使用完整的GSM8K训练集时。然而,由于性能似乎并不遵循对数线性趋势,因此很难沿着数据维度进行外推。看起来175B模型要达到80%的解决率,至少需要两个数量级以上的训练数据。

图3展示了在完整的GSM8K训练集上微调一个6B模型后,测试解决率随着训练epoch的变化。使用test@N来表示当允许模型为每个问题做出N次独立的猜测时,至少有一次正确解决的问题的百分比。使用低温(T=0)生成test@1样本,使用更高的温度(T=0.7)生成test@100样本。两个温度值都是通过实验选择的,以产生最佳结果。Test@1性能大致呈单调改善,尽管很快就开始在测试损失上过拟合。不幸的是,随着epoch数量的增加,test@100性能的下降比test@1性能要尖锐得多。这是意料之中的:随着模型反复遇到相同的数据,它在预测中变得越来越未校准和过于自信。在测试时,这种过度自信导致解决方案空间的覆盖不良,这种效应只有在考虑测试时的多个样本时才变得明显。选择一个具有良好的覆盖范围的模型对于成功训练验证器至关重要。从实验中看到,test@100性能在最初的几个epoch内达到峰值。因此,使用训练了2个epoch的模型来生成用于训练验证器的样本。

验证方法旨在提高微调基线的性能,通过训练验证器来评判模型生成的解决方案的正确性,并在测试时针对这些验证器进行搜索。给定问题和候选解决方案,验证器输出解决方案正确的概率。训练解决方案被标记为正确或错误,仅基于它们是否达到了正确的最终答案。在实践中,一些解决方案可能会使用有缺陷的推理达到正确的最终答案,导致误报。

图4展示了验证器的训练流程。首先,对训练集进行2个epoch的微调(“生成器”)。然后,对每个训练问题从生成器中采样100个完成情况,并标记每个解决方案的正确或错误。最后,在该数据集上训练一个验证器一个epoch。对生成器进行2个epoch的训练足以让其在这一领域学习基本技能。选择不进行更长时间的训练,因为生成的解决方案的多样性在这一点之后开始崩溃,如图3所示。训练单独的生成器和验证器模型以限制生成器的训练并防止过拟合,但在原则上,可以将这些模型结合起来。除非另有说明,否则对生成器和验证器使用相同的模型大小。除了预测解决方案的正确性外,还训练验证器具有与生成器相同的语言建模目标。这为验证器提供了一个有价值的辅助目标。在测试时,对每个测试问题采样100个完成情况,用验证器对它们进行排名,然后返回验证器得分最高的那一个。

图5显示了使用6B和175B模型大小的微调和验证之间的比较。验证考虑了每个问题100个解决方案。在3次运行中显示了平均值和标准差,除了175B验证只显示了一次运行。

值得注意的是,175B验证器比6B验证器更早地“起飞”,需要较少的训练问题就能超过微调基线。在图6a中,比较了在每个令牌后进行预测的验证器与仅在最终令牌后进行预测的验证器。尽管在每个令牌上预测价值函数比仅评判完整完成更具挑战性和噪声性,但尽管训练初期较慢,但token-level验证器最终优于solution-level验证器。此外,token-level验证器在训练后期仍在改善,而solution-level验证器很快显示出过拟合的迹象。假设完整的价值函数提供了一个有用的辅助信号,鼓励模型在整个解决方案中评判推理,而不仅仅是记忆正确的最终答案。

在图6b中,对训练验证器时使用的目标进行了消融研究。选择在验证目标旁边包含一个语言建模目标。比较了使用两个目标与仅使用验证目标。尽管两种选择都是合理的,但包含语言建模目标是一个严格的改进。这在直觉上是有意义的:更好地理解这种语言分布只会帮助验证器区分样本。

在图6c中,分别消融了生成器和验证器的模型大小。发现使用大生成器和小验证器比使用小生成器和大验证器的性能要好得多。即使验证器比生成器小得多,验证仍然非常有效。这表明验证器可能经常依赖相对粗糙的启发式方法来区分来自给定生成器的解决方案,而不是尝试更彻底的验证形式。

额外实验

额外实验中,研究集中在测试时的计算和正则化的效果上。

测试时的计算:在测试阶段,可以选择生成任意数量的解决方案供验证器评判,然后选择排名最高的完成情况。图7a展示了6B验证器的性能如何随着每个测试问题的完成数量而变化。在这个规模上,当将完成数量增加到400个时,性能会提高。超过这一点后,性能开始下降,这表明搜索的好处最终被找到欺骗验证器的对抗性解决方案的风险所抵消。通常情况下,评估验证器的测试性能使用100个完成情况,因为这在相对适中的计算成本下捕获了验证的大部分好处。

为了进一步提高性能,可以对验证器排名最高的解决方案进行多数投票,而不是只选择单一的顶级解决方案。投票过程只考虑单个解决方案所达到的最终答案:所选的最终答案是得票最多的那一个。图7b展示了当允许更多的顶级样本进行投票时,性能如何变化。当开始时有更多的样本,可以允许更多的样本进行投票。当只有100个样本时,允许前3-5个样本进行投票是最优的。当有3200个样本时,大约最优的做法是允许前30个样本进行投票。

正则化: 在微调和验证中使用dropout作为正则化手段,可以显著提高性能。研究中在网络的每个层的残差路径上应用了残差dropout(Vaswani et al., 2017)。在所有的dropout实验中,使用了20%的dropout比例,这一比例是根据超参数扫描的结果选择的。值得注意的是,GPT-3模型并不是用dropout进行预训练的。因此,在涉及dropout的实验中,先进行额外的预训练以引入dropout,然后再进行微调。这减轻了模型在微调过程中所经历的分布变化。

首先,研究了dropout对不同训练集大小的微调的影响。图8a显示,与基线相比,dropout带来了显著的改进。接下来,研究了dropout对验证器的影响,考虑了解决方案级和令牌级两种变体。在图8b中,可以看到dropout显著改善了解决方案级验证器,减轻了未正则化基线中出现的过拟合。值得注意的是,使用dropout的解决方案级验证器达到了与令牌级验证器类似的性能水平。在图8c中,对令牌级验证器应用了dropout。由于令牌级验证器本来就不易过拟合,因此dropout的影响不那么显著并不奇怪。尽管如此,使用dropout训练令牌级验证器仍然可以看到轻微的性能提升。注意,为了更好地处理更困难的目标和dropout带来的噪声,将令牌级验证器的批量大小增加了4倍。

论文链接:https://arxiv.org/pdf/2110.14168

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2194453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小绿书开启副业模式(保姆级教程)

大家好,我是凡人。 是一个不黑、不吹、不跟风、有知识、有骨气的五好小号主。 好多小伙伴给我私信,问我有最近没有非常火爆的副业项目,现在很多赛道人满为患,有没有值得推荐的,别说还真有,可能大家都没注…

理解Spring中静态代理

参考https://blog.csdn.net/weixin_43005654/article/details/109317773 无论是静态代理还是动态代理,都有四大角色: 抽象角色:一般会使用接口或者抽象类来解决真实角色:被代理的角色代理角色:代理真实角色&#xff0…

ultralytics yolo pose 示例:加载官方pose模型进行推理

Ultralytics YOLO 是计算机视觉和 ML 领域专业人士的高效工具。 安装 ultralytics 库: pip install ultralytics 官方YoLo Pose 模型列表信息: 实现代码如下: from ultralytics import YOLO import cv2 # Load a model ckpt_dir "…

基于PHP的校园二手书交易管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的校园二手书交易管理系统 一 介绍 此二手书交易管理系统基于原生PHP开发,数据库mysql,前端bootstrap。系统角色分为用户和管理员。 技术栈:phpmysqlbootstrapphpstudyvscode 二 功能 用户 1 注…

3. BBP系列运动控制板(飞控板)简介

3.1. 概述 Bread Board Pilot(简称BBP) 是在积累了前期 Single Pilot 及 PH7 飞控板大量设计及使用经验的基础上,全新基于PH47代码框架开发的高灵活性, 高性能, 超低成本的最新一代飞控板设计。 目前,因为其使用便捷灵活&#xf…

D30【python 接口自动化学习】- python基础之输入输出与文件操作

day30 F-strings输出 学习日期:20241007 学习目标:输入输出与文件操作﹣-42 F-strings-如何通过定义好的格式进行输出? 学习笔记: F-strings 介绍 F-strings 的计算功能 F-strings 宽度和精度调整 练习 # 宽度为10个…

【计算机网络 - 基础问题】每日 3 题(二十九)

✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞…

platformio.ini工程配置文件入门

主要参考资料: “platformio.ini” (Project Configuration File): https://docs.platformio.org/en/latest/projectconf/index.html 目录 简介语法[platformio]: PlatformIO配置选项[env]:配置环境 简介 .ini是一个配置文件,它可以设置开发环境&#x…

4.循环结构在存储过程中的应用(4/10)

引言 在数据库管理中,存储过程是一种强大的工具,它允许将一组SQL语句封装为一个独立的、可重用的单元。存储过程不仅可以提高数据处理的效率,还可以增强代码的安全性和可维护性。在复杂的数据库操作中,循环结构扮演着至关重要的角…

面试系列-淘天提前批面试

00-淘天提前批面试 在牛客上看到了淘天提前批的面试题目,这里分析一下淘天面试的问了有哪些内容,面试的重点 是偏向哪些方面 项目相关 1、秒杀架构如何设计? 问了秒杀的架构如何设计,对于秒杀的设计,秒杀符合 写多读少…

【cpp/c++ summary 工具】Visual Studio 2022 安装与cmake项目配置

Visual Studio 2022安装 https://visualstudio.microsoft.com/zh-hans/free-developer-offers/下载后选择c桌面开发安装即可: Visual Studio 2022创建cmake项目 Visual Studio 2022打开cmake项目 点击打开带有cmakelists.txt的项目文件夹 配置缓存:点…

【操作系统考研】2进程管理(1)

在翻看操作系统知识框架的时候,对一些概念的理解还比较模糊,现在我来理清他们的关系。 操作系统、处理器、进程、线程、内存、存储器、设备、文件的关系 咱们可以把计算机系统想象成一个大工厂,来理解这些概念之间的关系。 操作系统&#xf…

小目标检测利器:YOLOv8+SAHI使用教程

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

软考系统分析师知识点三:应用数学

前言 今年报考了11月份的软考高级:系统分析师。 考试时间为:11月9日。 倒计时:34天。 目标:优先应试,其次学习,再次实践。 复习计划第一阶段:扫平基础知识点,仅抽取有用信息&am…

vSAN06:ESA与OSA对比、ESA安装、新架构、工作方式、自动策略管理、原生快照、数据压缩、故障处理

目录 vSAN ESAvSAN ESA 安装ESA新架构ESA工作方式ESA自动策略管理自适应RAID5策略 原生快照支持数据压缩的改进ESA故障处理 vSAN ESA vSAN ESA 安装 流程和OSA完全一致,但要注意要勾选启用vSAN ESA ESA和OSA的底层架构不一样,但是UI上是一致的。 生产环…

【C++】第二节:类与对象(上)

1、面向过程和面向对象初步认识 C 语言是面向过程的,关注的是过程,分析出求解问题的步骤,通过函数调用逐步解决问题。 C 是面向对象的,关注的是对象,将一件事情拆分成不同的对象,靠对象之间的交互完成。 …

【ESP32】Arduino开发 | Timer定时器+定时器闹钟例程

有关定时器外设的详细介绍在ESP-IDF的对应文章中,跳转栏目目录可以找到。 1. API 1.1 启动定时器 hw_timer_t * timerBegin(uint8_t timer, uint16_t divider, bool countUp); timer:定时器序号(ESP32有4个硬件定时器,所以可填序…

您看这篇就够了:ComfyUI 新手指南!

前言 欢迎来到 ComfyUI 的神奇世界,这是 Stable Diffusion 的一个强大而灵活的图形用户界面。无论你是数字艺术的新手,还是希望将你的图像创作提升到新高度的老手,ComfyUI 都能满足你的需求。在这篇全面的指南中,我们将带你穿越 …

2003经典绝版100%仿盛大服务端火炬引擎原版

;中国游戏制作 本版本为中国游戏制作小组推出的第一个版本,有什么不完美的地方还请大家多多指教!!! 与盛大逼真!!! 本版本M2Server采用“梦幻风”以及“冰眼”M2Server修改器修改的 2004/1/…

vue项目配置cesium

vue中配置cesium ①打开目标文件夹的终端,输入 pnpm install cesium ②这时你的node_models文件夹下,会出现cesium文件夹;然后,其中Build/Cesium文件夹,复制到public文件夹下。 ③打开public/index.html文件&#xf…