OpenAI新作,直指DeepMind格局小了!大模型复杂推理应逐步验证

news2025/1/11 21:02:51

作者 | Python、Zenmoore

谷歌旗下的DeepMind,因AlphaGo而名声大振;而推出ChatGPT的OpenAI,近日更是如日中天。

然而,OpenAI公开了一篇论文[1],结论同DeepMind去年11月的工作[2]完全相反。在对比差异时,论文指出DeepMind格局小了,相比之下,OpenAI用了更强力的基础模型(use a more capable model),调研了更有挑战的数据(dataset is significantly more challenging),并基于更大的监督数据规模(much larger quantity of process supervision data)。

那究竟是什么样的结论,使两家公司得到如此分歧呢?让我们来仔细看看这篇文章吧。

论文题目:
Let’s Verify Step by Step.

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!


背景

对于ChatGPT等大语言模型,有一个魔法词叫做“let's think step by step”。如下图左所示,在解题等需要复杂推理的场景下,通过这个魔法词,让模型输出答案之前,输出推理过程,有助于提高答案的准确性与可解释性。该方法被称为思维链(CoT,Chain of Thought)。

所以,一个自然的问题是:在训练大模型时,有没有可以利用思维链的地方呢?

我们知道,训练ChatGPT这种大模型包括两步:语言模型训练与指令精调。在指令精调中,会根须人类反馈数据(考虑认知、价值观等)训练一个奖励模型(Reward Model),并通过强化学习方式,来反馈调整语言模型。

▲基于人类反馈的强化学习示意图

利用思维链的方式也聚焦在这一强化学习过程。具体而言,可以分为两种:只针对结果的ORMs(outcome-supervised reward models),与基于每一步推理过程的PRMs(process-supervised reward models)。前者只根据模型解题的最终结果给予强化学习监督,而后者关注每一个推理步骤。

分歧点与差异分析

OpenAI和DeepMind的分歧点在于,在解决需要复杂推理的数学题的背景下,对于奖励模型(Reward Model),OpenAI认为针对过程的PRMs更好,而DeepMind认为两者相差不大。

OpenAI指出,之所以产生这一分歧,是DeepMind的实验格局不够:

  • OpenAI基于GPT-4展开实验,而DeepMind只用了700亿参数的基础模型。

  • OpenAI针对MATH数据集,该数据集取自美国中学数学竞赛试题(AIME),而DeepMind之研究了GSM8K数据集,都是些小学数学题。

  • OpenAI基于了更大的数据规模:800K过程标注标签。而DeepMind只对530道训练集数据取了1560个模型生成样本,得到9.8K的过程标注标签。

这次OpenAI非常慷慨地开源了他们的数据。

下图为针对过程的PRMs数据样本,绿色的行代表正确的步骤,红色的代表错误的。

实验结果与实验结论

即使公开了论文和数据集,这篇文章和OpenAI之前的几篇文章一样,对技术细节隐藏很深,只公开了很少的实验结论。

主要结论:针对过程的PRMs更好。

对上图解释一下,这里用到Best-of-N作为评价指标,即让语言模型生成N个解之后,让奖励模型选取其中分数最高的一个作为答案,用以评价奖励模型。Majority Voting是一个多数投票的方法。

可以通过主动学习,加速学习过程。下图横轴代表每道题的标注数据规模,等价于训练数据规模。主动学习的方式为,使用较小的PRM模型,对每道题保留部分分值最高的负样本。该方法可以提高2.6倍的收敛速度。

针对过程的PRMs可以较好地泛化到领域外的数据上。可以看到,在各学科的AP数据上,PRMs都取得了较好的表现。

除此之外,文章最后还探讨了包括测试集污染在内的一些问题,在此就不过多展开了。

额外的结论

因为OpenAI写得论文都比较隐晦,有时需要一些专业的背景才能够从字里行间看出一些端倪。爱丁堡大学的博士生fuyao在Twitter上也给出了这篇文章的一些参考结论:

  • 奖励建模非常重要。单纯有监督微调只能提供模型的格式,而无法提升能力(capability)。

  • 使用逐步奖励而不仅仅依赖于最终奖励对模型进行训练,这个原则也适用于编程任务。

  • 如果数据集像GSM8k那样简单,或者奖励数据不足够大,可能会得出错误结论,认为两种类型的奖励是相似的。这是之前DeepMind的结论。

  • 在进行奖励建模之前,应该对Latex和SFT(结构化文本)进行持续训练。持续训练可以提升能力,而SFT可以提供格式。这个做法来自Google Brain的Minerva论文。

  • 推理任务的奖励模型与对话任务的奖励模型不同。不应该假设底层只有一个单一的奖励模型。原始的Claude论文也讨论了这种做法。

  • 应扩大奖励模型规模。不应该假设大模型可有效从小型奖励模型中学习。这在OpenAI最初的InstructGPT论文中也有讨论。

  • 在单一数据集(MATH)上训练的奖励模型可推广到领域外数据集。可能归因于模型规模。

总结

这篇文章告诉我们,要辩证地看待世界,真理也是有一定适用范围的。得到错误的结论,可能不是方法思路有问题,而是没有打开格局。

这篇文章对科研的价值,一个是可以像fuyao那样,除了主要结论之外,通过一些隐约的表示,探究OpenAI隐藏的细节。另一方面,也可以从开源的数据集入手,仔细分析GPT4在数学推理的表现与人类标注的特点,探究GPT4的能力的同时,思考是否有必要,以及能不能将之推广到其它需要推理的大模型应用场景中。

参考资料

[1] Let’s Verify Step by Step. arXiv preprint arXiv:2305.20050, 2023.
[2] Solving math word problems with process-and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/602133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI】dragonGPT - 单机部署、极速便捷

dragonGPT 从数据私有化,到prompt向量库匹配,再到查询,一条龙服务,单机部署,极简操作 pre a.需要下载gpt4all model到本地. ggml Model Download Link 然后将存放model的地址写入.env MODEL_PATH your pathb.…

安卓系统远程控制电脑方法

要从安卓设备远程控制计算机,您可以使用专门为此目的设计的远程桌面软件或应用程序。 以下是使用安卓设备远程控制计算机的一般方法: 选择一个远程桌面应用程序:比如 Splashtop 远程控制软件。 在计算机上安装远程桌面软件:要实…

【map和set的封装】

文章目录 前言1 大致框架2 迭代器3 map和set的封装 前言 上篇博客已经讲解了红黑树插入的模拟实现,这篇文章的目的是利用上节课讲解的底层实现来封装map和set.参考代码借鉴的是STL SGI版本3.0 1 大致框架 首先我们来看看源码里面怎么定义的: 从源码中我们不难发现m…

什么是分布式事务?

什么是分布式事务? 分布式对应的是单体架构,互联网早起单体架构是非常流行的,好像是一个家族企业,大家在一个家里劳作,单体架构如下图: 但是随着业务的复杂度提高,大家族人手不够,…

Redis中的哈希结构(Dict)

前言 哈希结构是一个在计算机中非常常见的结构。哈希结构可以让我们在O(1)时间复杂度查找元素并且对其操作,并且增删改查性能并不会随着数据量的增多而改变。反而数据量的增大,会出现两个关键问题,一个是哈希冲突,另一个是rehash…

15、Spring框架

目录 什么是Spring Spring优点 Spring体系结构 Spring新特性 Spring的入门程序 新建立Maven项目 创建名为HelloSpring的类 新建applicationContext.xml文件 XML文件的约束信息配置 测试类TestHelloSpring 控制反转 依赖注入 依赖注入和控制反转的比较 依赖注入的…

虚拟机类加载机制

目录 1、概述 2、类加载的过程 1、过程总览 2、加载 3、链接-验证 4、链接-准备 5、链接-解析 6、初始化 7、总结 3、类加载的时机 4、类加载器 1、概述 2、类与类加载器 3、三层类加载器 4、双亲委派模型 5、其他加载策略 1、概述 一个Java类会被编译成一个Cl…

grep,sed,awk实战

grep -E ^(root|sshd)\> /etc/passwd 找出以root或者sshd开头的,且只含root或者sshd,>表示匹配到root或者sshd就结束了,类似情况如下图: grep -c ^yu /etc/passwd 匹配含yu这个用户出现的次数 grep -m 2 ^yu /etc/passwd …

arthas使用

文章目录 ArthasArthas(阿尔萨斯)能为你做什么?安装1.linux中使用2.docker中使用 命令列表jvm 相关class/classloader 相关monitor/watch/traceprofiler/火焰图 Arthas Arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 …

windows nvm 安装过程

1. 官网 Releases coreybutler/nvm-windows GitHubA node.js version management utility for Windows. Ironically written in Go. - Releases coreybutler/nvm-windowshttps://github.com/coreybutler/nvm-windows/releases 下载 nvm-setup.exe; 2. 安装完成后后&#x…

Golang Channel 实现原理与源码分析

Do not communicate by sharing memory; instead, share memory by communicating. 通过通信来共享内存,而不是共享内存来通信 安全访问共享变量是并发编程的一个难点,在 Golang 语言中,倡导通过通信共享内存,实际上就是使用 chan…

23种设计模式之访问者模式(Visitor Pattern)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将23种设计模式中的访问者模式,此篇文章为一天学习一个设计模式系列文章,后面会分享其他模式知识。 如果文章有什么需要改进的地方还请大佬…

chatgpt没有免费版的吗?如何使用ChatGPT?

ChatGPT是基于GPT模型的聊天机器人,目前没有免费版。ChatGPT是由OpenAI开发的,OpenAI的GPT模型需要大量的计算资源和技术支持,因此需要付费才能使用。 目前,OpenAI提供了两种方式来使用GPT模型: 1. OpenAI API OpenA…

制造型企业降本增效的最佳工具,质量管理系统,该如何利用好

许多制造业企业质量管理主要用于解决制造业质检效率低下、作业不规范等难题,形成质量检验、质量方案、档案数据、统计分析一体化的质量管理体系,有效为企业质量管理提速降本增效,实现企业数字化转型。在没有正确利用质量管理系统之前&#xf…

45个 Cha​tGPT 常用插件说明

45个 ChatGPT 常用插件说明 ChatGPT常用的45个插件,以及它们用途说明: 1/ Slack:查询Slack信息 2/ Zapier:与5000应用,如Google Sheets和Docs进行交互。 3/ Expedia:在一个地方激活你的旅行计划 4/ Kla…

Worldclim(v1.4、v2.1)数据集使用介绍

最近在使用Worldclim的数据,在这里记录一下该数据集的使用。 如果你想得到过去、现在和未来的气候数据,那么你可以使用这个数据集:Worldclim数据集 该数据集包含了4种时期的气候数据:历史时期的末次盛冰期、全新世中期、当前时…

操作系统(3.3)--线程的实现方式

进程调度的任务、机制和方式 1.进程的调度任务 进程调度的任务主要有三: (1)保存处理机的现场信息。在进程调度进行调度时,首先需要保存当前进程的处理机的现场信息,如程序计数器、多个通用寄存器中的内容等 (2)按某种算法选取进程。调度…

脉冲神经网络深度残差学习(ResNet)

来源:投稿 作者:小灰灰 编辑:学姐 论文标题:Deep Residual Learning in Spiking Neural Networks 论文链接: https://arxiv.org/pdf/2102.04159v3.pdf 代码链接:https: //github.com/fangwei123456/Spike-Element-Wi…

MYSQL数据库基础(数据库)

文章目录 一、数据库使用流程二、数据库的操作三、常用数据类型3.1 数值类型3.2 字符串类型3.3 日期类型 四、数据表操作 一、数据库使用流程 用户在客户端输入SQL语句客户端会把SQL通过网络发送给服务器服务器会执行这个SQL,把结果返回给客户端客户端接收到结果后…

第十九篇、基于Arduino uno,获取光电开关(NPN/PNP型)的信号——结果导向

0、结果 说明:先来看看串口调试助手显示的结果,如果有遮挡会输出低电平或者高电平,没有遮挡会输出高电平或者低电平,如果是你想要的,可以接着往下看。 1、外观 说明:这里要区分到底是NPN型号的&#xff0…