Prometheus 2: 一个专门评估其他语言模型的开源语言模型(续集)

news2024/12/25 16:54:29

普罗米修斯的续集来了。

专有的语言模型如 GPT-4 经常被用来评估来自各种语言模型的回应品质。然而,透明度、可控制性和可负担性等考虑强烈促使开发专门用于评估的开源语言模型。另一方面,现有的开源评估语言模型表现出关键的缺点:1) 它们给出的分数与人类给出的分数存在显著差异,以及 2) 它们缺乏灵活性来执行直接评估和成对排序,这是最普遍的两种评估形式。此外,它们没有根据自定评估标准进行评估的能力,而是专注于一般属性,如有帮助性和无害性。为了解决这些问题,本文介绍了 PROMETHEUS 2,一个比其前身更强大的评估语言模型,它能密切模仿人类和 GPT-4 的判断。此外,它能够处理直接评估和成对排序两种格式,并配合使用者定义的评估标准。在四个直接评估基准和四个成对排序基准上,PROMETHEUS 2 在所有测试的开源评估语言模型中,与人类和专有语言模型评判者取得最高的相关性和一致性。本文的模型、程序代码和数据都是公开可用的。

repo: https://github.com/prometheus-eval/prometheus-eval

abs: https://arxiv.org/abs/2405.01535

背景
评估语言模型(LM)产生的输出品质正逐渐变得困难,因为输出涵盖了极其多样化的文本和复杂任务。为了解决这个问题,基于语言模型的评估已成为评估 LM 生成文本的一种可扩展和便宜的范式(Li et al., 2024; Gao et al., 2024)。在这个范式中,LM 要么被提示输出一个品质的标量指标(称为直接评估),要么确定哪一个输出是优选的(称为成对排序)。先前采用专有 LM 作为评估器的工作不仅表现出与人类评估的高度相关性,而且还提高了速度和成本效益。

然而,依赖专有 LM 进行评估会带来重大挑战。关于其训练数据的透明度缺乏损害了公平性和合规性,使它们在评估管道中的使用存在问题。此外,关于可控制性和可负担性的顾虑也依然存在。为了解决这些问题,最近的工作专注于开发开放存取、透明和可控制的评估 LM。然而,这些模型通常产生的评分决策与人类判断或专有 LM 做出的判断相关性不够高,无法有效模拟它们。此外,开放评估 LM 缺乏灵活性,因为它们通常只训练用于执行直接评估或成对排序,并且基于一般公众偏好(如有帮助性和无害性)进行评估,限制了它们处理多样化真实场景的能力。

为了缩小与专有语言模型的差距,本文的作者们研究了统一两种基于模型的评估范式 - 直接评估和成对排序,以训练一个稳健的统一评估语言模型。他们提出了一个方法,通过合并两个分别在直接评估和成对排序格式上训练的评估语言模型的权重来实现。他们的关键实证观察是,权重合并可以产生一个评估语言模型,不仅可以在两种格式下工作,而且优于联合训练或只在单一格式上训练的评估语言模型。 

为了展示他们的方法,作者们开发了 PREFERENCE COLLECTION,这是一个新的细粒度成对排序反馈数据集,它建立在直接评估反馈数据集 FEEDBACK COLLECTION 之上。他们选择 Mistral-7B 和 Mixtral-8x7B 作为基础模型,并合并分别在 FEEDBACK COLLECTION 和 PREFERENCE COLLECTION 上训练的评估语言模型的权重,以获得他们的最终模型 PROMETHEUS 2 (7B & 8x7B)。

在四个直接评估基准和四个成对排序基准上,与现有的开源评估语言模型相比,PROMETHEUS 2 模型展示了与人类评估者和专有语言模型评判者最高的相关性和一致性。在直接评估基准上,PROMETHEUS 2 模型的 Pearson 相关系数在所有数据集上都超过其他基准0.2 个单位。同样地,在成对排序基准上,PROMETHEUS 2 模型在所有测试的开源评估语言模型中,展现了与人类评估者最高的一致性,并将与 GPT-4 的性能差距缩小了一半。

本文的贡献可以总结如下:

引入了 PROMETHEUS 2 (7B & 8x7B),这是最先进的开源评估语言模型,在直接评估和成对排序上都取得与人类评估者和专有语言模型评判者高度相关的分数。
引入了一个成对排序反馈数据集,称为 PREFERENCE COLLECTION,其中包括超过1000个评估标准,超越了有帮助性和无害性。  
显示了合并在直接评估和成对排序反馈数据集上训练的评估语言模型的权重,可以得到一个在两种方案中都表现出色的统一评估语言模型。

相关工作
基于语言模型的评估
为了评估语言模型的生成能力,先前的工作如 GEM 基准采用 Rouge、BLEU  和 BERTScore 作为它们的度量,这些度量衡量参考答案和回应之间的词汇或语义相似性。然而,这些传统的度量容易产生假阴性,因为它们没有足够的表达能力来识别品质好但与参考答案不同的回应。

最近,采用语言模型作为评判已经受到关注,成为模仿人类评估的深度和粒度的有前景的范式。为了减少对专有语言模型的过度依赖,后续工作建议训练专门用于评估的语言模型。然而,开放评估语言模型在不同评估方案中缺乏灵活性,与专有语言模型相比表现出较弱的评估性能。本文旨在通过引入 PROMETHEUS 2 来弥合这一差距。

权重合并  
先前的工作已经证明,权重合并可以提高跨各个领域的性能,包括语言建模、指令调整和与用户偏好对齐。在本文中,作者们特别关注提高开放评估语言模型的评估能力。通过合并在不同评估格式上训练的模型,即直接评估和成对排序,作者们旨在获得一个评估语言模型,不仅可以在两种格式下工作,而且表现出与专有语言模型一样好的评估性能。

方法  
作者们提出了一个新的方法来训练统一评估语言模型,基于合并分别针对直接评估和成对排序训练的模型的权重。他们首先介绍直接评估和成对排序的背景知识,然后是训练数据的构建过程(第3.3节)。最后,他们介绍了训练最先进的评估语言模型 PROMETHEUS 2 的方法(第3.4节)。

作者们介绍了 PREFERENCE COLLECTION,这是第一个包含超过1000个实例级评估标准的成对排序反馈数据集,超越了基本品质,如有帮助性和无害性。PREFERENCE COLLECTION 是通过对 FEEDBACK COLLECTION 应用两个修改而构建的。首先,由于 FEEDBACK COLLECTION 为每个指令包含五个回应,每个回应对应1到5之间的评分决策,作者们将五个回应中的两个配对,得到每个指令的十个组合。使用每个回应的现有评分决策,他们确定哪个回应更好,并为该对分配一个新的评分决策(即"回应A更好"或"回应B更好")。其次,为了为每对回应生成新的口头反馈,作者们提示 GPT-4 识别两个回应的共同点和差异点。作者们还进行了质量验证过程,以确保 PREFERENCE COLLECTION 的质量。

作者们采用 Mistral-7B 和 Mixtral-8x7B 作为基础模型,并合并分别在 FEEDBACK COLLECTION 和 PREFERENCE COLLECTION 上训练的评估语言模型的权重,以获得最终的 PROMETHEUS 2 模型。具体来说,他们采用线性合并的方式:

$$
\theta_{final}=\alpha \times \theta_d+(1-\alpha) \times \theta_p
$$

其中 $\alpha$ 设为0.5。作者们还测试了其他合并技术,如 Task Arithmetic 合并、TIES 合并和 DARE 合并,并发现 DARE 合并在使用 Mixtral-8x7B 作为基础模型时效果最好。

实验设置
作者们在八个基准上评估了评估语言模型的性能,包括四个直接评估基准(Vicuna Bench、MT Bench、FLASK 和 Feedback Bench)和四个成对排序基准(HHH Alignment、MT Bench Human Judgment、Auto-J Eval 和 Preference Bench)。在直接评估中,他们进行了基于参考的评估,将参考答案附加为输入。他们使用 Pearson、Spearman 和 Kendall-Tau 作为性能度量,以衡量与参考评估者的评分相关性。在成对排序中,他们进行了无参考评估。根据人类给出的判断,他们使用准确率作为度量,以衡量评估语言模型与人类之间的一致性。

作者们使用多种基准模型进行比较,包括提示基准、单一格式训练的评估语言模型、联合训练的评估语言模型以及权重合并的 PROMETHEUS 2 模型。这些基准模型涵盖了不同的模型尺度和训练方法,以全面评估 PROMETHEUS 2 模型的性能。

实验结果  
实验结果显示,PROMETHEUS 2 模型在直接评估和成对排序基准上都取得了显著的性能提升。在直接评估基准上,PROMETHEUS 2 模型的评分决策与 GPT-4、Claude-3-Opus 和人类评估者的评分决策高度相关,无论参考评估者和基准如何,Pearson 相关系数都高于0.5。相比之下,基础语言模型、单一格式训练的语言模型和联合训练的语言模型与 GPT-4、Claude-3-Opus 和人类的相关性较低,大多低于0.5。值得注意的是,PROMETHEUS 2 模型在与专有语言模型的相关性上至少超过 Prometheus 和 Auto-J 0.2 个单位。此外,在 FLASK 基准上,虽然人类与 GPT-4 之间的相关性为0.679,但之前 Prometheus-13B 与人类的最高相关性为0.449,而 PROMETHEUS-2-8X7B 与人类的相关性达到了0.555,有效地将差距缩小了一半。

在成对排序基准上,PROMETHEUS 2 模型在所有四个基准上都取得了最高分数,表明它们能够有效地模拟人类判断。值得注意的是,虽然 HHH Alignment 是 Pair RM 的同域测试集,Auto-J Eval 是 Auto-J 的同域测试集,但 PROMETHEUS-2-8X7B 取得了更高的分数。这表明,用反馈数据训练大型语言模型(即 Mixtral-8x7B)可能是获得一个稳健的评估语言模型的有效策略,该模型可以超越其训练数据进行泛化。此外,与现有的评估语言模型相比,PROMETHEUS 2 模型在异域测试集上至少将与 GPT-4 的性能差距缩小了一半。

除了获得高相关性和准确性外,实现高一致性是评估语言模型的另一个重要方面。具体来说,作者们进行了一项实验,测试评估语言模型是否能在不同的评估格式下给出一致的分数。为此,他们使用成对排序基准,并测量在直接评估格式和成对排序格式下提示时的性能差异。结果表明,PROMETHEUS 2 模型在评估格式之间表现出较低的性能差异,表明它们具有稳健性。

讨论
为了理解权重合并方法在评估语言模型中的有效性,作者们提出了三个研究问题:

• RQ1:权重合并是否比联合训练更有效?(第6.1节) 

• RQ2:权重合并的有效性是否是由于模型集成?(第6.2节)

• RQ3:直接评估和成对排序之间的学习在多大程度上相互促进?(第6.3节)

令人惊讶的是,作者们发现,通过联合训练训练的评估语言模型的性能往往低于单一格式训练的评估语言模型,这表明

存在负迁移。具体而言,仅在直接评估格式上训练的评估语言模型在不同模型尺度下获得更高的相关性。类似地,仅在成对排序格式上训练的评估语言模型在使用 Mixtral-8x7B 作为基础模型时,获得更高的平均准确率。

另一方面,通过权重合并训练的评估语言模型不仅与联合训练的评估语言模型相比表现出优越的性能,而且与单一格式训练的评估语言模型相比也是如此,这表明存在正迁移。此外,尽管两者都互惠互利,但合并成对排序评估语言模型的权重比反向操作更能显著提高直接评估性能。

为了探索权重合并的有效性是否是由于模型集成的效果,作者们进行了一个消融实验,训练多个评估语言模型,并将它们合并。结果表明,在大多数情况下,合并在相同评估格式上训练的评估语言模型并不能提高评估性能。相反,通过合并分别在直接评估和成对排序格式上训练的两个评估语言模型,得到的评估语言模型在不同设置下表现出优越的性能。这表明,权重合并带来的正迁移来自统一不同的评估格式,而不是通过集成多个模型。  

为了探索直接评估反馈数据如何影响成对排序准确性,反之亦然,作者们通过调整线性合并期间的 $\alpha$ 值进行了实验。结果表明,对于直接评估基准,当 $\alpha$ 设置为0.5时,评估语言模型获得最佳性能。这间接表明,成对排序和直接评估反馈数据都同等重要。另一方面,对于成对排序基准,当 $\alpha$ 设置为0.3时,性能最佳。这也间接意味着,虽然两者都相互有益,但成对排序训练比反向操作更能显著提高直接评估性能。

我的观点
本文介绍了 PROMETHEUS 2,这是一个专门用于评估其他回应的开源语言模型。与现有的开源评估语言模型不同,PROMETHEUS 2 模型能够有效地处理直接评估和成对排序(最普遍的两种评估方案),在这两种方案上都表现出优越的性能和一致的结果,显著缩小了与专有语言模型评估的差距。为了训练 PROMETHEUS 2 模型,作者们开发了 PREFERENCE COLLECTION,这是第一个包含超过1000个实例级评估标准的成对排序数据集,超越了基本品质,如有帮助性和无害性。值得注意的是,作者们发现合并在直接评估或成对排序格式上训练的评估语言模型的权重,可以得到一个表现出色的统一评估语言模型。作者们希望这项工作能鼓励更多关于使用开源语言模型作为评估器的研究,从而摆脱对专有模型进行公平和可及的评估的依赖。

总的来说,这项研究的贡献是相当重要和有价值的。PROMETHEUS 2 模型在多个基准上优于现有的开源评估语言模型,展现了提出的权重合并方法的有效性。作者们还深入探讨了权重合并方法背后的原因,提供了有见地的分析。这项研究的结果对于开发更强大、更灵活的开源评估语言模型具有重要意义。它为未来在这个领域的研究提供了一个有前景的方向。随着越来越多的语言模型被开发出来,拥有一个稳健、可靠的评估语言模型将变得越来越重要。这项研究朝着这个目标迈出了重要的一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1647425.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity射击游戏开发教程:(11)制造敌人爆炸

增加爆炸效果 爆炸一切都变得更好!尤其是当你消灭敌人时。在这篇文章中,我将讨论如何在敌人被击中时为其添加爆炸动画。 在敌人的预制件中,您将需要创建一个新的动画。查看控制动画的动画器,默认情况下将从进入动画到敌人爆炸动画。这意味着,一旦敌人被实例化,敌人爆炸…

02、Kafaka 简介

02、Kafka 简介 1、 Kafka 简介 Apache Kafka 是一个分布式的发布-订阅消息系统,最初由 LinkedIn 公司开发,并在 2010 年贡献给了 Apache 软件基金会,成为一个顶级开源项目。Kafka 设计之初是为了满足高吞吐量、可扩展性、持久性、容错性以…

深度学习中的不确定性量化:技术、应用和挑战综述(一)

不确定性量化(UQ)在减少优化和决策过程中的不确定性方面起着关键作用,应用于解决各种现实世界的科学和工程应用。贝叶斯近似和集成学习技术是文献中使用最广泛的两种UQ方法。在这方面,研究人员提出了不同的UQ方法,并测试了它们在各种应用中的…

10.Java对象内置结构

文章目录 Java对象内置结构1.Java对象的三个部分1.1.对象头1.2.对象体1.3.对齐字节 2.对象结构中核心字段的作用2.1.MarkWord(标记字)2.2.Class Pointer(类对象指针)2.3.Array Length(数组长度)2.4.对象体2.5.对齐字节 3.Mark Word的结构信息3.1.不同锁状态下的Mark Word字段结…

GraphGPT——图结构数据的新语言模型

在人工智能的浪潮中,图神经网络(GNNs)已经成为理解和分析图结构数据的强大工具。然而,GNNs在面对未标记数据时,其泛化能力往往受限。为了突破这一局限,研究者们提出了GraphGPT,这是一种为大语言…

部署YUM仓库以及NFS共享服务

YUM仓库部署 一.YUM概述 YUM仓库源是一种软件包管理工具,用于在Linux系统上安装、更新和删除软件包。YUM仓库源包含了软件包的元数据信息和实际的软件包文件。用户可以通过配置YUM仓库源,从中下载和安装软件包。 常见的YUM仓库源包括: 本…

pip install dotenv出现error: subprocess-exited-with-error的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

springboot+vue+elementui实现校园互助平台大作业、毕业设计

目录 一、项目介绍 二、项目截图 管理后台 1.登录(默认管理员账号密码均为:admin) 2. 用户管理 ​编辑 3.任务管理 互助单(学生发布) 行政单(教师发布) ​编辑 审核(退回需…

36.Docker-Dockerfile自定义镜像

镜像结构 镜像是将应用程序及其需要的系统函数库、环境、配置、依赖打包而成。 镜像是分层机构,每一层都是一个layer BaseImage层:包含基本的系统函数库、环境变量、文件系统 EntryPoint:入口,是镜像中应用启动的命令 其他:在…

电脑c盘太满了,如何清理 电脑杀毒软件哪个好用又干净免费 电脑预防病毒的软件 cleanmymacX有必要买吗 杀毒软件排行榜第一名

杀毒软件通常集成监控识别、病毒扫描和清除、自动升级、主动防御等功能,有的杀毒软件还带有数据恢复、防范黑客入侵、网络流量控制等功能,是计算机防御系统的重要组成部分。 那么,对于Mac电脑用户来说,哪款电脑杀毒软件更好呢&a…

PCB光控打孔机第二版程序(一)

/*PCB机程序 XY同时启动 L9751 CODE61068 2018 6 19 08:00 固定位置释放吸盘*/ /*修正寻点第十二条结束调用计算坐标L5091,自动运行Y计算L6280 6281***/ /*** 开外部中断2关闭定时器2XY轴输出信号,自动运行循环检测外部中断高电平重启XY轴输出信号 增加寻…

LeetCode 难题解析 —— 正则表达式匹配 (动态规划)

10. 正则表达式匹配 思路解析 这道题虽然看起来不难理解,但却存在多种可能,当然这种可能的数量是有限的,且其规律对于每一次判别都使用,所以自然而然就想到用 动态规划 的方法啦 接下来逐步分析可能的情况: &#x…

探索中位数快速排序算法:高效寻找数据集的中间值

在计算机科学领域,寻找数据集的中位数是一个常见而重要的问题。而快速排序算法作为一种高效的排序算法,可以被巧妙地利用来解决中位数查找的问题。本文将深入探讨中位数快速排序算法的原理、实现方法以及应用场景,带你领略这一寻找中间值的高…

[UDS][OTA] 自定义 IntelHEX (IHEX) format read/write library in C

参考修改 参考github的MIT协议开源项目 ihex 改写的代码 https://gitee.com/liudegui/intelhex-c 修改点: 修改Makefile脚本,支持x86_X64平台和aarch64平台将默认读取行长度设置为16位删除与ihex和bin之间的转换无关的示例代码 十六进制描述 HEX格式…

C++容器——deque

deque容器 定义:动态数组,是一种双向开口的线性容器,意味着你不仅可以像在普通队列的末尾添加和移除元素,还可以在前端执行这些操作。 与其他容器相比不同的点: 与vector的主要区别: 连续性:…

基于 Spring Boot 博客系统开发(六)

基于 Spring Boot 博客系统开发(六) 本系统是简易的个人博客系统开发,为了更加熟练地掌握 SprIng Boot 框架及相关技术的使用。🌿🌿🌿 基于 Spring Boot 博客系统开发(五)&#x1f…

商标不做检索分析,直接申请通过率很低!

今天有个网友拿到驳回通知书找到普推知产老杨,让分析驳回通过率如何,他主要两个文字商标和两个图形商标,文字商标都是两个字的,两个字的商标名称基本都有相同或高近,引用了好几个高度近似,直接做驳回复审通…

Unity 性能优化之光照优化(七)

提示:仅供参考,有误之处,麻烦大佬指出,不胜感激! 文章目录 前言一、测试目的一、实时光源是什么?二、开始测试1.场景中只有一个光照的数值情况2.添加4个点光源后4.结果 总结 前言 实时光源数量越多&#x…

【前端】创建跳动字符效果的前端技术实现

创建跳动字符效果的前端技术实现 在前端开发中,动态视效能够显著增强用户体验。本文介绍一种实现字符跳动效果的技术方案,通过简单的HTML、CSS和JavaScript代码,你可以为网页文本添加生动的交互动画。这种效果可以用于吸引用户注意、增强品牌…

<网络安全>《77 概念讲解<第十课 物联网常用协议-(近距离通信)感应层协议>》

协议简称全称名称内容说明RFIDRadio Frequency Identification射频识别阅读器与标签之间进行非接触式的数据通信,达到识别目标的目的。RFID的应用非常广泛,典型应用有动物晶片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。完整的RF…