【机器翻译方向】数据集合集！

news2026/2/15 11:38:22

本文将为您介绍经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

QUAK

发布方：

Upstage·高丽大学
发布时间：

2022
韩英合成机器翻译质量预测数据 (韩英神经机器翻译的一个合成质量估计数据集，QUAK) 是指韩语句子和英语机器翻译句子，并且每个句子的机器翻译结果的质量是OK/这是一个机器翻译质量预测模型训练数据集，它预测与坏标签。由于用相应数据学习的机器翻译质量预测模型即使没有正确的句子也能预测翻译质量，因此它可以应用于没有正确句子的现实问题。OK/BAD tag对每个单词都有标记，以指示机器翻译结果中的哪些标记 (单词) 被错误翻译，对齐的源标记也被标记，因此即使不知道翻译语言的用户也可以知道哪些单词被错误翻译。
简介：

NumGLUE 是一个多任务基准测试，用于评估人工智能系统在八个不同任务上的性能，其核心需要简单的算术理解。
下载地址：

https://github.com/AIChallenger/AI_Challenger_2017
论文地址：

https://arxiv.org/pdf/1711.06475.pdf

HumanMT

发布方：

海德堡大学·马尼拉雅典耀大学
发布时间：

2018
简介：

HumanMT 是人工评分和机器翻译更正的集合。它由两部分组成：第一部分包含五分和成对句子级别的评分，第二部分包含错误标记和更正。详情如下所述。 I. 句子级评分这是对 TED 演讲的 1000 个德英机器翻译的五分和成对评分的集合（IWSLT 2014）。收集评级的目的是评估机器翻译质量评级的可靠性和可学习性，以改进具有人工强化的神经机器翻译模型（参见出版物）。二、错误标记和更正这是对 30 个选定的 TED 演讲（IWSLT 2017）的 3120 个英语-德语机器翻译句子的单词级错误标记和后期编辑/更正的集合。每个句子都从人工注释者那里得到更正或错误标记。收集这些数据的目的是比较注释成本和质量，以及注释模式之间下游机器翻译改进的潜力（参见出版物）。
下载地址：

https://www.cl.uni-heidelberg.de/statnlpgroup/humanmt/
论文地址：

https://arxiv.org/pdf/1805.10627v3.pdf

WMT 2014

38万组维汉平行语料数据

IWSLT 2019

GeBioCorpus

FLoRes (Facebook Low Resource MT Benchmark)

DiaBLa

发布方：

爱丁堡大学·巴黎萨克雷大学·南巴黎大学
发布时间：

2019
简介：

一个新的英语-法语测试集，用于评估机器翻译 (MT) 的非正式书面双语对话。测试集包含以英语和法语为母语的人之间的 144 个自发对话（5,700 多个句子），由一系列角色扮演设置中的两个神经 MT 系统之一介导。对话伴随着机器翻译质量的细粒度句子级判断，由对话参与者自己产生，以及人工规范化的版本和后验产生的参考翻译。
下载地址：

https://github.com/rbawden/DiaBLa-dataset
论文地址：

https://arxiv.org/pdf/1905.13354v1.pdf

FLORES-101

发布方：

Facebook AI Research
发布时间：

2021-01-01
简介：

FLORES 评估基准由从英语维基百科中提取的 3001 个句子组成，涵盖各种不同的主题和领域。这些句子已由专业翻译人员通过严格控制的过程翻译成 101 种语言。生成的数据集可以更好地评估低资源语言的长尾模型质量，包括评估多对多多语言翻译系统，因为所有翻译都是多语言对齐的。通过公开发布如此高质量和高覆盖率的数据集，我们希望促进机器翻译社区及其他领域的进步。论文：低资源和多语言机器翻译的 FLORES-101 评估基准
下载地址：

https://github.com/facebookresearch/flores?fbclid=IwAR0nwCjtEEcowZOsIqNe_Ib9LpEuKixTPikf3I9G_3CzlWcG23qjd1G6tmE
论文地址：

https://arxiv.org/pdf/2106.03193v1.pdf

WMT 2020

发布方：

约翰霍普金斯大学·微软·爱丁堡大学·阿姆斯特丹大学·谢菲尔德大学·加拿大国家研究委员会·罗彻斯特理工学院·加泰罗尼亚理工大学·东京大学·查理大学·都柏林三一学院·约瑟夫·斯蒂芬研究所·Wipro AI Labs·Nippon Telegraph and Telephone Corporation
发布时间：

2020
简介：

WMT 2020 是第五届机器翻译会议共享任务中使用的数据集集合。该会议建立在一系列关于统计机器翻译的年度研讨会和会议的基础上。会议共有十项共同任务：新闻翻译任务，生物医学翻译任务，类似的语言翻译任务，无监督且资源极少的翻译任务，自动后期编辑任务，一个度量任务（在给定参考翻译的情况下评估 MT 质量），质量评估任务（评估 MT 质量，无需访问任何参考），并行语料库过滤和对齐任务，终身学习 MT 任务，聊天翻译任务。
下载地址：

https://www.statmt.org/wmt20/
论文地址：

https://aclanthology.org/2020.wmt-1.1.pdf

PheMT

发布方：

日本理化学研究所先进智能研究中心·Tohoku University·Nippon Telegraph and Telephone Corporation
发布时间：2020
简介：

PheMT 是一个现象级数据集，旨在评估日英机器翻译系统的鲁棒性。该数据集基于 MTNT 数据集，对 UGC 中常见的四种语言现象进行了附加注释；专有名词、缩写名词、口语表达和变体。冷却 2020。
下载地址：

https://github.com/cl-tohoku/PheMT
论文地址：

https://arxiv.org/pdf/2011.02121v1.pdf

APE (Automatic Post-Editing)

发布方：纽约大学·Unbabel

发布时间：2020
简介：

APE 可用于评估机器翻译自动后期编辑 (APE)，这是通过自动修复错误来改进黑盒 MT 系统输出的任务。后期编辑文本的行为可以完全指定为给定位置的一系列删除和插入操作。
下载地址：

https://github.com/antoniogois/keystrokes_ape
论文地址：

https://arxiv.org/pdf/2004.14120v2.pdf