腾讯清华联合打造Eurus:用偏好树推进大语言模型的推理能力大突破

news2025/3/9 22:53:25

4e2c546dd3db87ca851c358dd8e12f5f.jpeg

目录

引言:推动开源大型语言模型(LLMs)在复杂推理任务中的发展

EURUS模型介绍

ULTRAINTERACT数据集的创新

EURUS在多个推理任务中的表现分析

偏好学习在推理任务中的应用和影响

EURUS-RM-7B奖励模型的评估

结论:EURUS系列模型的创新点和对开源推理模型发展的推动作用


引言:推动开源大型语言模型(LLMs)在复杂推理任务中的发展

在人工智能领域,开源大型语言模型(LLMs)的发展一直是研究的热点。这些模型在处理自然语言理解和生成任务方面表现出色,但在复杂推理任务上的表现往往不如专有模型。为了缩小这一差距,研究者们不断探索如何提高LLMs在数学、编程和逻辑推理等领域的能力。

最近,一个名为EURUS的新型LLM套件引起了业界的关注。EURUS模型在多个复杂推理基准测试中取得了开源模型中的最佳表现,特别是在大学级别的STEM问题和竞赛级别的编程问题上,EURUS-70B模型的表现甚至与GPT-3.5 Turbo相当。EURUS模型的成功得益于一种新颖的数据集ULTRAINTERACT,它专门为复杂推理任务设计,包含了多种多样的指令和偏好树,这些偏好树包括多种规划策略、多轮与环境和批评者的交互轨迹,以及成对的数据以促进偏好学习。

76da1b5eb25f3f701eee765cc84e416d.jpeg

此外,EURUS模型的训练还采用了新的奖励建模目标,这一目标与ULTRAINTERACT结合使用,产生了一个强大的奖励模型EURUS-RM-7B,它在与人类评注者的相关性方面超越了所有现有模型。EURUS项目的所有模型检查点和ULTRAINTERACT对齐数据都将公开可用,以促进研究的复现和进一步发展。

论文标题:Advancing LLM Reasoning Generalists with Preference Trees

机构:Tsinghua University, University of Illinois Urbana-Champaign, Northeastern University, ModelBest.Inc, Renmin University of China, BUPT, Tencent

论文链接:https://arxiv.org/pdf/2404.02078.pdf

项目地址:https://github.com/OpenBMB/Eurus

关注公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

EURUS模型介绍

EURUS模型代表了当前开源大型语言模型(LLMs)在复杂推理任务上的最新进展。这一系列模型是从Mistral-7B和CodeLlama-70B两个基础模型微调而来,针对数学、代码生成和逻辑推理等多个领域的复杂问题进行了优化。EURUS模型在一系列包含12个测试的五项任务的综合基准测试中,展现出了超越GPT-3.5 Turbo的推理能力,尤其是在LeetCode和TheoremQA这两个挑战性基准测试中,EURUS-70B模型的通过率分别达到了33.3%和32.6%,大幅领先于现有的开源模型。EURUS模型之所以能够取得如此卓越的性能,很大程度上得益于ULTRAINTERACT数据集的使用。这个专为复杂推理任务设计的大规模、高质量对齐数据集,为EURUS模型的训练提供了强大的支持。

ULTRAINTERACT数据集的创新

ULTRAINTERACT数据集通过其独特的树状结构对齐数据,为复杂推理任务的模型训练提供了创新性的支持。这一数据集的设计思路和特点,为推理优化的LLMs模型,如EURUS系列,提供了有效的训练材料。

1. ULTRAINTERACT数据集的构成和特点

ULTRAINTERACT数据集包含了86K条指令和220K对动作对,每对包含一个指令、一个正确响应和一个错误响应。这些数据采用偏好树的形式组织,每个指令作为根节点,每个动作作为节点,构成了一个多层次的树状结构。这种设计不仅包含了多样化的规划策略和多轮与环境及批评模型的交互轨迹,还有助于偏好学习的实施。通过这种结构,ULTRAINTERACT能够为模型提供丰富的、结构化的学习材料,特别是在处理需要复杂规划和多步骤推理的任务时。

36143b0c8605eb6da06bc662c70cbca9.jpeg

2. 多轮交互轨迹和偏好学习的设计

ULTRAINTERACT数据集的一个关键特点是其对多轮交互轨迹的收集。这些轨迹记录了模型在与环境及批评模型交互过程中的行为,包括模型采取的动作、环境的反馈以及批评模型的建议。这种设计不仅有助于模型学习如何从反馈中改进,还能通过多轮的交互来细化和优化解决方案。此外,通过配对正确和错误的动作,ULTRAINTERACT进一步支持了偏好学习的实施。这种基于偏好树的结构,使得模型能够在每一轮交互中学习到更加精确和具体的偏好信息,从而在复杂的推理任务中表现更佳。

总的来说,EURUS模型的卓越性能和ULTRAINTERACT数据集的创新设计,共同展现了在复杂推理任务上优化LLMs的巨大潜力。通过精心设计的数据集和微调策略,EURUS模型在多个领域的推理任务中取得了前所未有的成绩,为未来LLMs在更广泛应用领域的发展奠定了坚实的基础。

EURUS在多个推理任务中的表现分析

1. 在LeetCode和TheoremQA等挑战性基准测试中的表现

EURUS模型在LeetCode和TheoremQA这两个挑战性基准测试中展现出了卓越的表现。具体来说,在LeetCode测试中,EURUS-70B模型取得了33.3%的pass@1准确率,而在TheoremQA测试中,该模型的准确率为32.6%。这些成绩显著超过了现有的开源模型,领先幅度超过13.3%。这些测试是设计来评估模型在数学、编程和逻辑推理问题上的能力,EURUS在这些领域的强劲表现可归功于其训练数据集ULTRAINTERACT,这是一个专门为复杂推理任务设计的大规模、高质量的对齐数据集。

2. EURUS模型与其他开源模型的对比

EURUS模型在一系列复杂推理基准测试中,包括但不限于数学、代码生成和逻辑推理问题,均取得了开源模型中的最佳整体表现。EURUS-70B模型在大学级别的STEM问题TheoremQA和竞赛级别的编程问题LeetCode Contest中,显著超越了所有开源模型,与GPT-3.5 Turbo的表现相当。EURUS模型的成功,部分得益于其在ULTRAINTERACT数据集上的训练,该数据集包含了多种多样的指令,涵盖了数学、编程和逻辑推理问题。

偏好学习在推理任务中的应用和影响

1. 探讨DPO、KTO和NCA三种偏好学习算法的效果

在推理任务中,EURUS模型采用了三种不同的偏好学习算法:DPO、KTO和NCA。实验结果显示,使用ULTRAINTERACT数据集进行偏好学习,KTO和NCA算法能够一致地提升模型在所有五个数学基准测试和多轮评估中的表现。然而,DPO算法在大多数基准测试中降低了模型的性能。特别是在70B模型上,DPO训练失败,导致奖励值下降至负无穷。这一现象在后续分析中得到了探讨。

7a93cfe2689b7d69d0c84ecdba12469e.jpeg

2. 新的奖励建模目标的提出及其对推理能力的促进

EURUS团队提出了一种新的奖励建模目标,以增强传统的Bradley-Terry目标。这一新目标显式地鼓励训练过程中提高选定解决方案的绝对奖励值,并降低被拒绝数据的奖励值。此外,ULTRAINTERACT数据集的引入导致了EURUS-RM-7B奖励模型的诞生,该模型在AutoJ和MT-Bench等奖励建模基准测试中,与人类评注者的相关性超过了所有现有模型,包括GPT-4。EURUS-RM-7B在推理任务上展现了尤为强大的偏好建模性能。

EURUS-RM-7B奖励模型的评估

在探索大型语言模型(LLMs)的推理优化方面,EURUS-RM-7B奖励模型展现出了显著的成效。本章节将对EURUS-RM-7B模型在不同基准测试中的表现进行评估,并探讨其通过重排提升LLMs推理性能的实证结果。

1. 在RewardBench、AutoJ和MT-Bench基准测试中的表现

EURUS-RM-7B在多个基准测试中表现出色,尤其在RewardBench、AutoJ和MT-Bench中的成绩引人注目。在RewardBench测试中,EURUS-RM-7B在“Chat-Hard”分割中超越了所有基线模型,并在“Reasoning”分割中也展现了极具竞争力的表现。在AutoJ测试的不同分割中,EURUS-RM-7B几乎在所有任务上都超过了现有模型,唯一的例外是GPT-4在编码任务上的结果。此外,EURUS-RM-7B在MT-Bench测试中也取得了与人类评注员更好的相关性。

EURUS-RM-7B的这些成绩证明了其在奖励模型中的优越性,尤其是在推理任务上的偏好建模性能方面。通过优化LDR(直接奖励差异)来提高奖励模型在困难问题和推理上的表现,而BT(Bradley-Terry)建模则有助于奖励模型在一般聊天方面的能力,尽管其对推理的影响可能有所不同。

2. 通过重排提升LLMs推理性能的实证结果

EURUS-RM-7B通过重排Mistral-7B-Instruct-v0.2的响应,显著提高了LLMs在多个任务上的推理性能。在HumanEval、MBPP、GSM8K和MATH等任务中,EURUS-RM-7B一致提高了pass@1准确率,并且表现优于体量是其5倍的Starling-RM-34B基线模型。EURUS-RM-7B的重排性能随着每条指令的响应数量增加而提升,除了在HumanEval中略有下降。相比之下,Starling-RM-34B在HumanEval上遭受了严重的性能下降,并且在MATH任务上一致降低了模型准确率。

f484b4919864c36e2c8c187d4d7b64b4.jpeg

结论:EURUS系列模型的创新点和对开源推理模型发展的推动作用

EURUS系列模型在开源推理模型的发展中扮演了重要的角色,它们的创新点和对整个领域的推动作用体现在以下几个方面:

1. 优化的大型语言模型: EURUS模型是从Mistral-7B和CodeLlama-70B微调而来的大型语言模型(LLMs),专门针对复杂推理任务进行了优化。这些模型在多个包括数学、代码生成和逻辑推理在内的多样化基准测试中取得了最先进的结果,特别是在LeetCode和TheoremQA这两个具有挑战性的基准测试中,EURUS-70B的表现甚至超过了GPT-3.5 Turbo,显示出在开源模型中的领先地位。

2. ULTRAINTERACT数据集:EURUS模型的训练依赖于新策划的大规模、高质量的对齐数据集ULTRAINTERACT,该数据集专为提升LLMs的推理能力而设计。ULTRAINTERACT包含了多样化的指令集,涵盖了数学、编码和逻辑推理问题,并为每个指令构建了包含多种规划策略、多轮与环境和批评模型的交互轨迹、以及成对数据以促进偏好学习的偏好树。这种结构化的数据集为推理任务的偏好学习提供了丰富的资源,并通过实验显示了其在提升模型性能方面的有效性。

3. 偏好学习的深入探索: EURUS系列模型的开发过程中,研究团队深入探索了偏好学习在推理任务中的应用。他们发现一些已建立的偏好学习算法可能不适用于推理任务。基于这一发现,团队提出了一种新的奖励建模目标,与ULTRAINTERACT数据集一起,导致了一个强大的奖励模型EURUS-RM-7B的诞生,该模型在AutoJ和MT-Bench等基准测试中与人类评注者的相关性更强。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1623522.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kubernetes中DaemonSet控制器

一、概念 使用DaemonSet控制器,相当于在节点上启动了一个守护进程。通过DaemonSet控制器可以确保在每个节点上运行Pod的一个副本。如果有心的node节点加入集群,则DaemonSet控制器会自动给新加入的节点增加一个Pod的副本;反之,当有…

SKF 与KISSSOFT的连接

SKF 与KISSSOFT的连接 HEDZER TILLEMA,荷兰SKF B.V.产品线经理 最近(2019年),瑞典滚动轴承制造商斯凯孚(SKF)和瑞士齿轮箱设计软件开发商KISSsoft已将斯凯孚的轴承计算服务整合到KISSsoft的软件中。借助 K…

轻松实现宅急送快递信息自动查询

在日常生活中,我们经常需要查询快递信息,而传统的查询方式往往需要我们手动输入每一个运单号,这种方式不仅繁琐,而且效率低下。那么,有没有一种方法可以让我们更快速、更便捷地查询快递信息呢?答案是肯定的…

【Python】异常、模块与包

目录 捕获异常 异常的传递 Python中的模块 模块的导入方式 as定义别名 自定义模块 Python包 第三方包 综合案例 当我们的程序遇到了BUG, 那么接下来有两种情况: ① 整个程序因为一个BUG停止运行 ② 对BUG进行提醒, 整个程序继续运行 但是在真实工作中, 我们肯定不能…

【Spring Security系列】Spring Security整合JWT:构建安全的Web应用

前言 在企业级开发或者我们自己的课程设计中,确保用户数据的安全性和访问控制非常重要。而Spring Security和JWT是都两个强大的工具,它俩结合可以帮助我们实现这一目标。 Spring Security提供了全面的安全功能,而JWT则是一种用于身份验证的…

(C++) this_thread 函数介绍

文章目录 &#x1f6a9;前言⭐std::this_thread&#x1f579;️get_id()&#x1f5a5;️Code&#x1f516;get_id介绍&#x1f3f7;️其他介绍 &#x1f579;️sleep_for<>()&#x1f5a5;️Code&#x1f516;sleep_for介绍&#x1f3f7;️其他介绍 &#x1f579;️sleep…

第三节课,后端登录【1】

一、总任务 二、登录接口 get 请求&#xff0c;有缺陷&#xff0c;长度有限制 三、登录逻辑 四、代码书写位置 4.1 编写业务逻辑的位置 五、写代码 5.1 代码1 5.1.1 细节 按 CtrlAltShiftL ,快速格式化 5.1. 2 自动生成接口参数 先/** 再回车 效果图 5.2 按 alt enter …

数据结构练习-算法与时间复杂度

----------------------------------------------------------------------------------------------------------------------------- 1. 设n是描述问题规模的非负整数&#xff0c;下列程序段的时间复杂度是( )。 x0;while(n>(x1)*(x1)xx1; A.O(logn) B.O(n^(1/2)) C.O(n)…

ubuntu无法用快捷键启动终端(CTRL+AIT+T)

我的电脑不知道安装什么东西之后&#xff0c;就不能用快捷键&#xff08;CTRLAITT&#xff09;打开终端了 只能在文件夹内&#xff0c;点击鼠标右键选择终端&#xff0c;然后打开终端 一直这么用了几个月&#xff0c;今天实在受不了了&#xff0c;所以解决此问题 本文参考文章…

Seata 的AT模式写隔离问题,求大佬解答。

引用Seata 是什么&#xff1f; | Apache Seata AT 模式 前提​ 基于支持本地 ACID 事务的关系型数据库。Java 应用&#xff0c;通过 JDBC 访问数据库。 整体机制​ 两阶段提交协议的演变&#xff1a; 一阶段&#xff1a;业务数据和回滚日志记录在同一个本地事务中提交&…

岭回归(概念+实例)

目录 前言 一、基本概念 1. 引言 2. 岭回归的原理 3. 数学表达式 4. 岭回归的优点 5. 岭回归的局限性 6. 实际应用 二、具体实例 前言 “岭回归”这个词源于英文“Ridge Regression”&#xff0c;是一种用于处理回归分析中多重共线性&#xff08;multicollinearity&am…

java-spring-mybatis -学习第一天-基础知识讲解

目录 前置条件(创建一个项目) Mybatis 定义 可能出现的问题 这边如果连接不上数据库 ​编辑 Dao接口设计 Mybatis流程 创建实体类 User 和其属性 创建Mapper的接口类 测试类测试 实例数据库数据的更新 实例数据库数值的删除 最重要的是有一个原始的数据库 -我这边…

传统行业还在使用FTP传输?试试这套FTP替代传输解决方案!

在数字化转型的浪潮中&#xff0c;传统企业对文件传输的需求日益增长。然而&#xff0c;许多企业仍在使用传统的文件传输协议&#xff08;FTP&#xff09;来处理文件传输任务。尽管FTP在早期被广泛采用&#xff0c;但其固有的弊端逐渐成为企业发展的桎梏&#xff0c;所以找一个…

SQL中的锁

一、概述 介绍 锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中&#xff0c;除传统的计算资(CPU、RAM、I/0)的争用以外&#xff0c;数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题&#xff0c;锁冲…

大模型 AI 框架昇思 MindSpore 2.3.RC1 发布,训练、推理性能大幅提升,JIT 编译强化

经过社区开发者们几个月的开发与贡献&#xff0c;现正式发布昇思 MindSpore2.3.RC1 版本&#xff0c;通过多维混合并行以及确定性 CKPT 来实现超大集群的高性能训练&#xff0c;支持大模型训推一体架构&#xff0c;大模型开发训练推理更简、更稳、更高效&#xff0c;并在训推一…

【CMU15-445 Part-19】Multi-Version Concurrency Control

Part19-Multi-Version Concurrency Control 其实说到底 MVCC不仅是一种并发控制协议&#xff0c;更是一个系统构建&#xff08;数据组织的方法&#xff09;。 简介 writer 不会 block readers&#xff0c;reader 也不会 block writers。只读事务可以读到一个consistent的sna…

nlp 自然语言处理的dataset数据库积累

下面的这个和 entity recognition有关的。 Weights & Biases

光伏无人机巡检主要有些什么功能和特点?

随着科技的飞速发展&#xff0c;无人机技术已经渗透到多个行业领域&#xff0c;光伏产业便是其中之一。光伏无人机巡检&#xff0c;作为一种新兴的巡检方式&#xff0c;正在逐渐取代传统的人工巡检&#xff0c;为光伏电站的安全、高效运行提供了有力保障。那么&#xff0c;光伏…

10:00面试,10:08就出来了,问的问题有点变态。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到8月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%…

“我也想和月牙一样,把不满写在脸上”

贪吃蛇的初级实现 1. Win32 API介绍1.1 Win32 API1.2 控制台程序1.3 控制台屏幕上的坐标COORD1.4 GetStdHandle1.5 GetConsoleCursorInfo1.5.1 CONSOLE_CURSOR_INFO 1.6 SetConsoleCursorInfo1.7 SetConsoleCursorPosition1.8 GetAsyncKeyState 2. 贪吃蛇游戏设计与分析2.1 地图…