NLP论文速读(MetaMetrics)|使用人类偏好校准生成任务的度量

news2025/2/28 12:50:25

论文速读|METAMETRICS: CALIBRATING METRICS FOR

GENERATION TASKS USING HUMAN PREFERENCES

论文信息:

简介:

        本文探讨了在自然语言处理(NLP)和其他生成任务中,如何评估模型输出的质量以确保其与人类偏好一致。传统的评估指标(如BLEU分数)往往不能全面捕捉语言的多样性和复杂性,导致评估结果与人类判断不一致。随着技术的进步,如强化学习与人类反馈(RLHF)的结合,确保生成输出与人类偏好一致变得越来越重要。然而,现有的评估指标通常在特定领域表现良好,但在其他领域则不尽如人意。因此,需要一种新的方法来系统地校准指标,使其更符合人类偏好。

        本文的动机是基于以下几点:传统的评估指标(如BLEU和BERTScore)在某些情况下无法准确反映生成内容的质量。随着NLP任务的复杂性增加,需要一种更灵活和可扩展的评估方法。人类偏好的多样性和复杂性要求评估指标能够捕捉多个维度的质量。现有指标的参数化和实现多样性导致评估结果的不一致性。

论文方法:

        本文提出了一种名为METAMETRICS的元指标(meta-metric),旨在通过结合多个现有指标来优化其与人类偏好的一致性。METAMETRICS通过监督学习的方式,结合多个指标的分数来计算一个元指标分数,该分数与人类偏好评分的对齐程度作为优化目标。该方法包括两个主要部分:指标的标准化和组合以及优化过程

        指标的标准化和组合

        1)指标函数定义:

        定义θi为一个指标函数,将样本输入x映射到分数ˆyi。对于基于参考的指标,数据在x = (xhyp, xref)的上下文中进行评估,其中xhyp和xref分别对应假设文本和参考文本。对于无参考的指标,仅使用xhyp。

        2)元指标函数:

        定义Φ为计算标量元指标分数ˆyMM的函数。METAMETRICS θMM用于计算目标值ρ(ˆyMM, z),其中ρ是衡量与z ∈ R(人类偏好评分)对齐程度的函数。

        优化过程

        1)目标函数:

        目标是校准θMM,以最大化目标校准函数ρ(ˆyMM, z),其中z表示人类评估分数。

        2)权重学习:

        通过学习每个指标的权重wi来最大化ρ(ˆyMM, z)。每个指标的分数范围可能不同,因此需要标准化这些指标到一个共同的0到1的尺度。

        3)优化方法:

        本文使用贝叶斯优化(BO)和提升方法(Boosting)来训练METAMETRICS。BO通过构建一个高斯过程(GP)的后验分布来优化函数,而提升方法通过迭代剪枝来提高效率。

论文实验:

        根据Table 1的内容,本文的实验部分主要集中在评估METAMETRICS在文本摘要任务上的表现。

        METAMETRICS表现:METAMETRICS在所有评估指标中表现最佳,超过了包括所有集成模型和最佳自动指标在内的所有基线模型。

        具体指标对比:

        BLEU:在连贯性、一致性和流畅性方面的Kendall相关系数分别为0.110、0.126和0.113,平均相关系数为0.157。

        BERTScore (f1):在相关性方面的Kendall相关系数为0.181,平均相关系数为0.172。

        LLM-based Metrics:如BARTScore和UniEval等基于大型语言模型的指标也表现出较好的相关性。

        METAMETRICS-SUM:使用高斯过程(GP)和XGBoost方法的METAMETRICS在所有指标中表现最佳,特别是在结合LLM-based Metrics时,Kendall相关系数达到了0.609。

论文链接:

https://arxiv.org/pdf/2410.02381

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【解决】k8s使用kubeadm初始化集群失败问题整理

执行提示命令,查看报错信息 journalctl -xeu kubelet1、错误:running with swap on is no 报错 "command failed" err"failed to run Kubelet: running with swap on is no 解决: swap未禁用,需要禁用swap&…

基于贝叶斯优化LightGBM模型对医院防火隐患区域火灾风险预测

一、引言 (一)研究背景与意义 医院作为人员密集、设备复杂且存放大量易燃易爆物品的场所,防火安全至关重要。一旦发生火灾,极易造成严重的人员伤亡和财产损失。火灾风险预测能够提前识别潜在的火灾隐患区域,为制定有…

第二届CN-fnst re题wp

题目附件名称amazingbruteforce 首先查壳,发现有upx壳(主页有教程,这边就不说了),脱掉壳,64位程序,拖进ida64进行反编译,如下图 很简单的逻辑,v5一个数组,v4…

Python系统教程008-条件判断(二)

知识回顾 1、if语句的基本语法? 2、常用 的比较运算符有哪些? 3、注释的分类以及格式 4、else处理条件不满足的情况 练习: 地板上有n个石子,猫头鹰和小兔子正在玩取石子的游戏,从猫头鹰开始,轮流取石子&a…

爬虫逆向学习(十四):分享一下某数通用破解服务开发经验

阅前须知 这篇博客不是教大家怎么实现的,而且告知大家有这个东西,或者说一种趋势,借此分享自己大致的实现经验。具体的实现我也不好整理,毕竟是在别人的基础上缝缝补补。 前言 使用补环境方式破解过某数的同学都知道&#xff0…

知识分享第二十八天-数学篇一

组合.二项式定理.常见导数 组合 让我们通过一个具体的例子来理解组合(Combinations)的概念 假设你有一个装有5个不同颜色球的袋子:红、蓝、绿、黄和紫。你想从中随机抽取3个球, 不考虑顺序,那么你可以有多少种不同的…

Kruskal最小生成树算法正确性证明

Kruskal: 每次考虑最短一条边, 如果会形成回路则不选择该边, 如果不会形成回路则选择该边, 直到选出了n-1条边 要点: 每次都选择不会形成回路的最短边 数学归纳法 ① n<2时, 显然成立 ② 设n k时成立, 则当n k1时: 将图划分为 子图A(k) 和 B(1) ∵ n k时成立 ∴ A(k)可…

Liveweb视频汇聚平台支持WebRTC协议赋能H.265视频流畅传输

随着科技的飞速发展和网络技术的不断革新&#xff0c;视频监控已经广泛应用于社会各个领域&#xff0c;成为现代安全管理的重要组成部分。在视频监控领域&#xff0c;视频编码技术的选择尤为重要&#xff0c;它不仅关系到视频的质量&#xff0c;还直接影响到视频的传输效率和兼…

iPhone苹果相册视频怎么提取音频?

在数字时代&#xff0c;视频已成为我们记录生活、分享故事的重要方式。然而&#xff0c;有时候我们只想保留视频中的音频部分&#xff0c;比如一段动人的背景音乐或是一段珍贵的对话。那么&#xff0c;苹果相册视频怎么提取音频呢&#xff1f;本文将介绍三种简单且实用的方法&a…

【图像配准】方法总结

图像配准(Image registration)就是将不同时间、不同传感器&#xff08;成像设备&#xff09;或不同条件下&#xff08;天候、照度、摄像位置和角度等&#xff09;获取的两幅或多幅图像进行匹配、叠加的过程&#xff0c;就是找到1幅图像像素到另1幅图像像素间的空间映射关系它已…

专业140+总分400+北京理工大学826信号处理导论考研经验北理工电子信息与通信工程,真题,大纲,参考书。

考研总分400&#xff0c;专业826信号处理导论&#xff08;信号与系统和dsp&#xff09;140&#xff0c;成功上岸北理工&#xff0c;虽然已经一段时间&#xff0c;但是后劲很大&#xff0c;每每回想还是昨日事&#xff0c;群里同学多次要求分享自己的一些经验&#xff0c;感谢大…

ReactPress最佳实践—搭建导航网站实战

Github项目地址&#xff1a;https://github.com/fecommunity/easy-blog 欢迎Star。 近期&#xff0c;阮一峰在科技爱好者周刊第 325 期中推荐了一款开源工具——ReactPress&#xff0c;ReactPress一个基于 Next.js 的博客和 CMS 系统&#xff0c;可查看 demo站点。&#xff08;…

Windows 环境实战开源项目GFPGAN 教程

GFPGAN GFPGAN&#xff08;Generative Facial Prior-GAN&#xff09;是由腾讯ARC&#xff08;Applied Research Center&#xff09;开发的一种实用的真实世界人脸修复算法。它专门设计用于人脸图像的生成和优化&#xff0c;尤其在低质量人脸图像的超分辨率恢复方面表现出色。以…

链表的应用

尾删 int tail_del (linkListPtr S) { if(NULL S || empty(S)) { printf("失败\n"); return 0; } linkListPtr q S; for(int i0 ; i<S->len-1;i) { qq->next; } free(q->next); q->n…

一个小工具

院内感染监控系统 开发工具Delphi7 报表工具FastReport unit U_Ymjg;interfaceusesWindows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,Dialogs, RzButton, ExtCtrls, RzPanel, ImgList, Grids, RzGrids, StdCtrls,RzCmboBx, DB, ADODB;typeTFrm_ym…

Python:程序中如何引用环境变量

应用场景&#xff1a;具有安全性的信息&#xff08;如密钥&#xff09;&#xff0c;为方式代码提交被同时提交到公共环境&#xff08;如git&#xff09;&#xff0c;可以通过环境变量配置后&#xff0c;在代码中直接引用。 优点&#xff1a;安全、复用性强、持久化&#xff08…

电力场景绝缘子缺陷识别分割数据集labelme格式1099张3类别

数据集格式&#xff1a;labelme格式(不包含mask文件&#xff0c;仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数)&#xff1a;1099 标注数量(json文件个数)&#xff1a;1099 标注类别数&#xff1a;3 标注类别名称:["brokenpart","brokeninsulator…

C++ -- 哈希表封装实现unordered_map 和 unordered_set

本章内容分为源码看框架讲解和结构模拟实现两部分&#xff0c;源码框架是让我们了解容器结构在设计时的思路&#xff0c;模拟实现才是重点。因此如果在看源码结构式感到疑惑&#xff0c;不妨继续往下看&#xff0c;相信一切都会慢慢了解~ 源码及框架分析 在C98 / SGI-STL30版本…

修改vscode中emmet中jsx和tsx语法中className的扩展符号从单引号到双引号 - HTML代码补全 - 单引号双引号

效果图 实现步骤 文件 > 首选项 > 设置搜索“”在settings.json中修改&#xff0c;增加 "emmet.syntaxProfiles": {"html": {"attr_quotes": "single"},"jsx": {"attr_quotes": "double","…

CSS学习记录12

CSS浮动 CSSfloat属性规定元素如何浮动 CSSclear属性规定哪些元素可以在清除的元素旁边以及在哪一侧浮动。 float属性 float属性用于定位和格式化内容&#xff0c;例如让图像向左浮动到容器的文本那里。 float属性可以设置以下值之一&#xff1a; left - 元素浮动到其容器…