MT-Pref数据集:包含18种语言的18k实例,涵盖多个领域。实验表明它能有效提升Tower模型在WMT23和FLORES基准测试中的翻译质量。

news2024/10/23 15:12:07

2024-10-10,由电信研究所、里斯本大学等联合创建MT-Pref数据集,它包含18种语言方向的18k实例,覆盖了2022年后的多个领域文本。通过在WMT23和FLORES基准测试上的实验,我们展示了使用MT-Pref数据集对Tower模型进行对齐可以显著提高翻译质量。

一、研究背景:

大型语言模型在机器翻译中的使用受到了研究社区的广泛关注。这些模型通常使用单个人参考翻译进行微调,但这可能不足以进一步提升翻译质量,因为对于给定的源文本,可能存在多种有效的翻译,其中一些可能比其他的更受偏好。

目前遇到困难和挑战 :

1、现有的数据集通常只包含一两模型的翻译输出,限制了其多样性和适用性。

2、这些数据集要么完全自动生成,要么完全基于人类反馈,前者缺乏关键验证,后者资源有限且难以扩展。

3、自动评估指标可能无法完全符合人类的预期,而人类评估虽然质量高,但成本高且难以大规模实施。

数据集地址:MT-PREF|机器翻译数据集|偏好分析数据集

二、让我们来一起看一下MT-Pref

在机器翻译领域,与人类偏好一致是开发准确、安全的大型语言模型的重要步骤。然而,基于人类反馈的偏好数据获取和整理成本非常高。通过结合了自动指标和人类评估的优势,创建的新的高质量偏好数据集MT-Pref(Metric-induced Translation Preference)。

数据集包含了来自多个高质量机器翻译系统生成的翻译的句子级质量评估,这些评估由专业语言学家提供。数据集覆盖了18种语言方向,文本来源多样,时间跨度为2022年后。

数据集构建 :

数据集的构建首先收集了专业语言学家对多个高质量机器翻译系统生成的翻译进行的句子级质量评估,然后使用这些评估来测试当前自动指标恢复这些偏好的能力。基于这一分析,研究者使用xComet-xl和xComet-xxl指标的组合来筛选出最受欢迎的和最不受欢迎的翻译。

数据集特点 :

1、包含18种语言方向,覆盖多种领域。

2、 包含18k实例,每个实例都经过专业语言学家的评估。

3、使用xComet-xl+xxl指标来诱导偏好,确保与人类评估的高相关性。

数据集可以用于训练和微调机器翻译模型,以提高翻译质量并使其更符合人类的偏好。研究者可以使用这些数据来训练偏好学习算法,如对比偏好优化(CPO)

基准测试 :

在WMT23和FLORES基准测试中,使用MT-Pref数据集进行微调的模型显示出了显著的翻译质量提升。

不同系统之间的成对偏好:Google 和 GPT-4 翻译比开源替代方案更受欢迎。

使用 MT-Pref 进行 CPO 微调可以提高 FLORES 上塔模型的翻译质量

三、让我们展望MT-Pref数据集的应用:

比如,我在一个多语言网站工作。

我的工作是确保网站上的各种产品描述、用户指南和新闻稿在翻译成不同语言后,不仅准确无误,还要保持原有的风格和语气。这可不是一件容易的事情哦。常使用的是翻译系统,虽然翻译得还算准确,但是有时候就像是机器人写出来的,缺乏那种“人味儿”。比如,如果原文里有些幽默的语句,翻译后的版本可能就变得干巴巴的,没有表达出作者的心境。

自从使用基于MT-Pref数据集训练的翻译系统后,似乎变得有些不一样了。

这个数据集厉害的地方在于,它能够教会翻译系统理解人类的偏好,知道什么样的翻译更受人喜欢。

就拿我们网站上的一款新咖啡机的介绍来说吧。原文里有句话是这样的:“这款咖啡机不仅能让你的早晨充满咖啡香,还能让你的家变成一个小小的咖啡馆。”用我们以前的翻译系统,可能就直接翻译成:“这个咖啡机可以让你的家早上充满咖啡的味道,并且让你的家变成一个小咖啡馆。”虽然意思没错,但是那种温馨的感觉就没了。

好在使用智能系统,翻译出来的可能就是:“这台咖啡机不仅能为你的清晨带来浓郁的咖啡香气,还能瞬间把你的客厅变成一个温馨的小咖啡馆。”这样的翻译不仅保留了原文的意境,还增加了一些让人会心一笑的细节,让产品介绍更加吸引人。

而且,这个系统还能根据不同的语言习惯,做出相应的调整。比如,对于西班牙语的用户,它可能会加入一些热情洋溢的词汇,让整个介绍更加贴近当地文化。对于德语用户,它可能会使用一些更精确的描述词汇,让产品介绍显得更加专业。

现在网站内容不仅在不同语言之间保持了高度的一致性,还提高了翻译的质量和风格上的匹配度。这让不同语言的用户都能获得更好的阅读体验,也让我们的网站显得更加专业和贴心。

来吧,让我们走进:MT-PREF|机器翻译数据集|偏好分析数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2221671.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

React实现购物车功能

今日学习React的useReducer,实现了一个购物车功能 文章目录 目录 效果展示 逻辑代码 CSS代码 效果展示 逻辑代码 import {useReducer} from "react"; import ./index.css; import { message} from antd;export function ShoppingCount(){// 初始化购…

钡铼技术边缘计算2DIN2DO工业无线路由器R40A

R40A不仅具备了传统工业无线路由器的基本功能,如4G网络连接、稳定的数据传输等,还创新性地整合了可编程逻辑控制器(PLC)功能、多种工业协议转换能力以及数据采集终端的功能。 强大的边缘计算能力 随着物联网技术的发展&#xff…

STM32_实验5_中断实验

通过外部中断来检测四个按键按下的状态: WK_UP 控制蜂鸣器响和停 KEY0 控制 LED_R 互斥点亮 KEY1 控制 LED_G 互斥点亮 KEY2 控制 LED_B 互斥点亮。 中断的基本概念: 中断请求(IRQ): 当发生某个特定事件(例…

如何通过谷歌外推占据搜索引擎首页?

外贸企业在推广过程中,如何在谷歌搜索引擎中占据有利位置,获取更多曝光,GLB谷歌霸屏服务就可以派上用场。它通过高效的品牌外推策略,可以让你的企业信息在谷歌中实现“霸屏”效果,特别是长尾关键词的全面覆盖 很多企业…

如何实现安川MP3300运动控制器与西门子1200系列PLC进行ModbusTCP通讯

在工业自动化中,实现不同品牌、不同型号设备之间的通讯是确保生产流程顺畅、高效运行的关键。本文详细介绍了安川MP3300运动控制器与西门子1200系列PLC进行ModbusTCP通讯的具体方法。 一.软硬件需求 1.一台安川MP3300CPU301,其IP地址是192.…

android11 usb摄像头添加多分辨率支持

部分借鉴于:https://blog.csdn.net/weixin_45639314/article/details/142210634 目录 一、需求介绍 二、UVC介绍 三、解析 四、补丁修改 1、预览的限制主要存在于hal层和framework层 2、添加所需要的分辨率: 3、hal层修改 4、frameworks 5、备…

OceanBase 首席科学家阳振坤:大模型时代的数据库思考

2024年 OceanBase 年度大会 即将于10月23日,在北京举行。 欢迎到现场了解更多“SQL AI ” 的探讨与分享! 近期,2024年金融业数据库技术大会在北京圆满举行,聚焦“大模型时代下数据库的创新发展”议题,汇聚了国内外众多…

Java的评论大冒险:用代码征服API数据

在一个充满数字奥秘的虚拟世界里,Java勇士正准备踏上他的新征程:获取商品评论的API数据。这不仅是一次技术的挑战,更是一次与时间赛跑的较量。Java勇士,这位编程界的探险家,打开了他的IDE,准备开始这场冒险…

什么是感知与计算融合?

感知与计算融合(Perception-Computing Fusion)是指将感知技术(如传感器、摄像头等)与计算技术(如数据处理、人工智能等)有机结合,以实现对环境的更深层次理解和智能反应的过程。该技术广泛应用于…

进程间通信大总结Linux

目录 进程间通信介绍 进程间通信目的 进程间通信发展 进程间通信分类 管道 System V IPC POSIX IPC 管道 什么是管道 匿名管道 用fork来共享管道原理 站在文件描述符角度-深度理解管道 管道读写规则 管道特点 命名管道 创建一个命名管道 匿名管道与命名管道的区…

【leetcode|哈希表、动态规划】最长连续序列、最大子数组和

目录 最长连续序列 解法一:暴力枚举 复杂度 解法二:优化解法一省去二层循环中不必要的遍历 复杂度 最大子数组和 解法一:暴力枚举 复杂度 解法二:贪心 复杂度 解法三:动态规划 复杂度 最长连续序列 输入输…

长短期记忆网络(Long Short-Term Memory,LSTM)

简介:个人学习分享,如有错误,欢迎批评指正。 长短期记忆网络(Long Short-Term Memory,简称LSTM)是一种特殊的循环神经网络(Recurrent Neural Network,简称RNN)架构&#…

网络安全中的日志审计:为何至关重要?

在数字化时代,网络安全已成为企业和组织不可忽视的重要议题。随着网络攻击手段的不断进化,保护信息系统和数据安全变得日益复杂和具有挑战性。在这种背景下,日志审计作为一种关键的信息安全和网络管理工具,发挥着至关重要的作用。…

RHCE——例行性工作 at、crontab

一.单一执行的列行型工作:仅处理执行一次就结束了 1.at命令的工作过程 (1)/etc/at.allow,写在该文件的人可以使用at命令 (2)/etc/at.deny,黑名单 (3)两个文件如果都…

【Spring篇】Spring的Aop详解

🧸安清h:个人主页 🎥个人专栏:【计算机网络】【Mybatis篇】【Spring篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🎯初始Sprig AOP及…

SVM(支持向量机)

SVM(支持向量机) 引言 支持向量机(Support Vector Machine,SVM),可以用来解答二分类问题。支持向量(Support Vector):把划分数据的决策边界叫做超平面,点到超平面的距离叫做间隔。在SVM中,距离超平面最近…

京东笔试题

和谐敏感词 🔗 题目地址 🎉 模拟 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);int n scanner.nextInt();String s scanner.next();String[] words new String[…

Mapbox GL 加载GeoServer底图服务器的WMS source

貌似加载有点慢啊!! 1 这是底图 2 这是加载geoserver中的地图效果 3源码 3.1 geoserver中的网络请求 http://192.168.10.10:8080/geoserver/ne/wms?SERVICEWMS&VERSION1.1.1&REQUESTGetMap&formatimage/png&TRANSPARENTtrue&STYL…

Linux--epoll(ET)实现Reactor模式

Linux–多路转接之epoll Reactor反应堆模式 Reactor反应堆模式是一种事件驱动的设计模式,通常用于处理高并发的I/O操作,尤其是在服务器或网络编程中。 基本概念 Reactor模式又称之为响应器模式,基于事件多路复用机制,使得单个…

网络与信息安全工程师最新报考介绍(工信部教育与考试中心)

文章目录 前言 网络与信息安全工程师职业介绍主要的工作内容职业技能要求网络与信息安全工程师职业前景怎么样网络与信息安全工程师工作方向网络与信息安全工程师适学人群 如何入门学习网络安全 【----帮助网安学习,以下所有学习资料文末免费领取!----】…