【机器翻译方向】数据集合集!

news2025/1/24 14:47:08

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

QUAK

  • 发布方:

    Upstage·高丽大学

  • 发布时间:

    2022

  • 韩英合成机器翻译质量预测数据 (韩英神经机器翻译的一个合成质量估计数据集,QUAK) 是指韩语句子和英语机器翻译句子,并且每个句子的机器翻译结果的质量是OK/这是一个机器翻译质量预测模型训练数据集,它预测与坏标签。由于用相应数据学习的机器翻译质量预测模型即使没有正确的句子也能预测翻译质量,因此它可以应用于没有正确句子的现实问题。OK/BAD tag对每个单词都有标记,以指示机器翻译结果中的哪些标记 (单词) 被错误翻译,对齐的源标记也被标记,因此即使不知道翻译语言的用户也可以知道哪些单词被错误翻译。

  • 简介:

    NumGLUE 是一个多任务基准测试,用于评估人工智能系统在八个不同任务上的性能,其核心需要简单的算术理解。

  • 下载地址:

    https://github.com/AIChallenger/AI_Challenger_2017

  • 论文地址:

    https://arxiv.org/pdf/1711.06475.pdf

2

HumanMT

  • 发布方:

    海德堡大学·马尼拉雅典耀大学

  • 发布时间:

    2018

  • 简介:

    HumanMT 是人工评分和机器翻译更正的集合。它由两部分组成:第一部分包含五分和成对句子级别的评分,第二部分包含错误标记和更正。详情如下所述。 I. 句子级评分这是对 TED 演讲的 1000 个德英机器翻译的五分和成对评分的集合(IWSLT 2014)。收集评级的目的是评估机器翻译质量评级的可靠性和可学习性,以改进具有人工强化的神经机器翻译模型(参见出版物)。二、错误标记和更正这是对 30 个选定的 TED 演讲(IWSLT 2017)的 3120 个英语-德语机器翻译句子的单词级错误标记和后期编辑/更正的集合。每个句子都从人工注释者那里得到更正或错误标记。收集这些数据的目的是比较注释成本和质量,以及注释模式之间下游机器翻译改进的潜力(参见出版物)。

  • 下载地址:

    https://www.cl.uni-heidelberg.de/statnlpgroup/humanmt/

  • 论文地址:

    https://arxiv.org/pdf/1805.10627v3.pdf

3

WMT 2014

  • 发布方:

    约翰霍普金斯大学·Google·爱丁堡大学·阿姆斯特丹大学·谢菲尔德大学·查理大学·都柏林城市大学·Microsoft Research

  • 发布时间:

    2013-12

  • 简介:

    英语-德语和英语-捷克语的神经机器翻译

  • 下载地址:

    https://www.statmt.org/wmt14/index.html

4

38万组维汉平行语料数据

  • 发布方:

    数据堂(北京)科技股份有限公司

  • 简介:

    38 万维语及其平行对应的汉语文本,并进行数据清洗脱敏质检,可作为文本类数据分析的基础语料库,用于机器翻译等领域

  • 下载地址:

    https://www.datatang.com/dataset/194?source=openxlab

5

IWSLT 2019

  • 发布方:

    谢菲尔德大学·伦敦帝国理工学院·阿利坎特大学

  • 发布时间:

    2019    

  • 简介:

    IWSLT 2019 数据集包含源文本、机器翻译文本、参考文本和后期编辑文本,可用于量化和评估自动 MT 后的后期编辑工作。

  • 下载地址:

    https://github.com/carolscarton/iwslt2019

  • 论文地址:

    https://arxiv.org/pdf/1910.06204v1.pdf

6

GeBioCorpus

  • 发布方:

    加泰罗尼亚理工大学·TALP Research Center

  • 发布时间:

    2020

  • 简介:

    用于机器翻译评估的高质量数据集,旨在成为首批非合成性别平衡测试数据集之一。

  • 下载地址:

    https://github.com/PLXIV/Gebiotoolkit

  • 论文地址:

    https://arxiv.org/pdf/1912.04778v1.pdf

7

FLoRes (Facebook Low Resource MT Benchmark)

  • 发布方:

    Facebook Research

  • 发布时间:

    2019

  • 简介:

    FLoRes 是一个基准数据集,用于根据维基百科翻译的句子,在英语和四种低资源语言(尼泊尔语、僧伽罗语、高棉语和普什图语)之间进行机器翻译。

  • 下载地址:

    https://github.com/facebookresearch/flores/

  • 论文地址:

    https://aclanthology.org/D19-1632.pdf

8

DiaBLa

  • 发布方:

    爱丁堡大学·巴黎萨克雷大学·南巴黎大学

  • 发布时间:

    2019

  • 简介:

    一个新的英语-法语测试集,用于评估机器翻译 (MT) 的非正式书面双语对话。测试集包含以英语和法语为母语的人之间的 144 个自发对话(5,700 多个句子),由一系列角色扮演设置中的两个神经 MT 系统之一介导。对话伴随着机器翻译质量的细粒度句子级判断,由对话参与者自己产生,以及人工规范化的版本和后验产生的参考翻译。

  • 下载地址:

    https://github.com/rbawden/DiaBLa-dataset

  • 论文地址:

    https://arxiv.org/pdf/1905.13354v1.pdf

9

FLORES-101

  • 发布方:

    Facebook AI Research

  • 发布时间:

    2021-01-01

  • 简介:

    FLORES 评估基准由从英语维基百科中提取的 3001 个句子组成,涵盖各种不同的主题和领域。这些句子已由专业翻译人员通过严格控制的过程翻译成 101 种语言。生成的数据集可以更好地评估低资源语言的长尾模型质量,包括评估多对多多语言翻译系统,因为所有翻译都是多语言对齐的。通过公开发布如此高质量和高覆盖率的数据集,我们希望促进机器翻译社区及其他领域的进步。论文:低资源和多语言机器翻译的 FLORES-101 评估基准

  • 下载地址:

    https://github.com/facebookresearch/flores?fbclid=IwAR0nwCjtEEcowZOsIqNe_Ib9LpEuKixTPikf3I9G_3CzlWcG23qjd1G6tmE

  • 论文地址:

    https://arxiv.org/pdf/2106.03193v1.pdf

10

WMT 2020

  • 发布方:

    约翰霍普金斯大学·微软·爱丁堡大学·阿姆斯特丹大学·谢菲尔德大学·加拿大国家研究委员会·罗彻斯特理工学院·加泰罗尼亚理工大学·东京大学·查理大学·都柏林三一学院·约瑟夫·斯蒂芬研究所·Wipro AI Labs·Nippon Telegraph and Telephone Corporation

  • 发布时间:

    2020

  • 简介:

    WMT 2020 是第五届机器翻译会议共享任务中使用的数据集集合。该会议建立在一系列关于统计机器翻译的年度研讨会和会议的基础上。 会议共有十项共同任务: 新闻翻译任务, 生物医学翻译任务, 类似的语言翻译任务, 无监督且资源极少的翻译任务, 自动后期编辑任务, 一个度量任务(在给定参考翻译的情况下评估 MT 质量), 质量评估任务(评估 MT 质量,无需访问任何参考), 并行语料库过滤和对齐任务, 终身学习 MT 任务, 聊天翻译任务。

  • 下载地址:

    https://www.statmt.org/wmt20/

  •  论文地址:

    https://aclanthology.org/2020.wmt-1.1.pdf

11

PheMT

  • 发布方:

    日本理化学研究所先进智能研究中心·Tohoku University·Nippon Telegraph and Telephone Corporation

  • 发布时间:2020

  • 简介:

    PheMT 是一个现象级数据集,旨在评估日英机器翻译系统的鲁棒性。该数据集基于 MTNT 数据集,对 UGC 中常见的四种语言现象进行了附加注释;专有名词、缩写名词、口语表达和变体。冷却 2020。

  • 下载地址:

    https://github.com/cl-tohoku/PheMT

  •  论文地址:

    https://arxiv.org/pdf/2011.02121v1.pdf

12

APE (Automatic Post-Editing)

  • 发布方:纽约大学·Unbabel

    发布时间:2020

  • 简介:

    APE 可用于评估机器翻译自动后期编辑 (APE),这是通过自动修复错误来改进黑盒 MT 系统输出的任务。后期编辑文本的行为可以完全指定为给定位置的一系列删除和插入操作。

  • 下载地址:

    https://github.com/antoniogois/keystrokes_ape

  •  论文地址:

    https://arxiv.org/pdf/2004.14120v2.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

erlang学习:erlang学习:书上案例22.6练习题3

初步实现了书上案例第二,三问的要求,对输出结果有部分偏差,没有实现对已完成任务状态的记录,因此已完成任务输出无论如何都是0,明天会在record中加一个字段进行已完成任务状态的记录 (2) 添加一个名为job_centre:stati…

业绩回暖的小鹏,何时能够迈过月销2万的“及格线”?

古罗马哲学家塞涅卡在他的《论天命》中曾写下这么一句话:“英勇的士兵能够从战斗的胜利中获得喜悦,而伟大的人能够从逆境中得到欢乐。” 对于企业来说,身处逆境不一定能得到欢乐,但是走出逆境一定振奋人心。 8月20日&#xff0c…

【原创教程】电气电工10:接压线端子

电气电工这些知识点,我们描述的比较细,虽然看起来比较简单,但是它是后面我们技能提升的基础,如果我们后面学电气工程师相关知识,这些都属于基本功。 接着我们来看一下接线端子 一、接线端子 接线端子的介绍: 接线端子是一种用于连接电线的设备,它能够将电线的导体与…

vue3 bug记录

项目场景: vue2.7 使用vue的ref,报错 Avoid adding reactive properties to a Vue instance or its root $data at runtime - declare it upfront in the data option. 原因分析: 表单组件使用了同名的ref,需要删掉

基于Modbus的MFC智能控制

1. 系统概述 利用LabVIEW通过Modbus 485协议实现对七星(Sevenstar)品牌质量流量控制器(MFC)的智能化控制。该系统将自动控制多个MFC的流速,实时监控其状态,并根据需要进行调整。 2. 硬件配置 MFCs: 七星品…

qt+ffmpeg报错non-existing PPS 0 referenced,如何解决???

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

LeetCode61.旋转链表

本题有两种做法:迭代和递归 本题的本质是:将链表中后k个结点变为前k个,然后将头结点连接到尾节点 迭代 考察知识: 边界条件判断链表倒k结点寻找Get思想:结环 /*** Definition for singly-linked list.* public cla…

基于51单片机的自动窗帘控制proteus仿真

地址:https://pan.baidu.com/s/1l7MGgoPD5Q58ANR1djYWow 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C52/AT89C51是一款经典的8位单片机,是意法半导体(STMicroelectron…

【vue3+Typescript】手撸了一个轻量uniapp导航条

最近公共组件写到导航条,本来打算拿已有的改。看了下uniapp市场上已有的组件,一是不支持vue3typescript,二是包装过重。索性自己手撸了一个导航条,不到100行代码全部搞定,因为自己的需求很简单: 1&#xf…

深度学习----------------------残差网络ResNet

目录 ResNet加更多的层总是改进精度吗?残差块ResNet块细节不同的残差块ResNet块ResNet架构总结 ResNet代码实现残差块输入和输出形状一致增加输出通道数的同时,减半输出的高和宽ResNet模型观察ResNet中不同模块的输入形状是如何变化的训练模型 问题ResNe…

JRE和JDK概念区分

1.JRE Java Runtime Environment:java运行环境。JVMJava类库。开发好的java程序,直接运行,可只安装JRE。 2.JDK Java Development Kit:java软件开发工具包。JREJava开发工具。编译、运行java代码。 3.总结 JRE就是运行Java字…

制作网页底部以及<footer>置底

目录 前言 页脚置底 页脚置底的几种方法 使用calc()设置内容高度 使用flex布局 将内容部分的margin-bottom改为负值【不推荐】 一个网页底部Demo HTML部分: CSS部分: 效果: 其他说明 margin负值特性 下面以一个具体的例子来说明…

Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具[Python代码]

Edge-TTS,由微软推出的这款免费、开源的AI工具,为用户带来了丰富多样的中文语音体验。它不仅支持多种中文语音语色,还能实现流畅自然的语音合成。Edge-TTS凭借其高度可定制化的特点,广泛应用于智能助手、语音播报、教育培训等领域…

加速自动驾驶模型迭代,数据存算一体是关键

自动驾驶的每一个业务阶段都会涉及到 AI 深度学习算法和算力的参与,机器视觉,深度学习,传感器技术等均在自动驾驶领域发挥着重要的作用。自动驾驶系统不断迭代的前提是算法的持续优化,目前,自动驾驶发展的瓶颈主要在于…

【笔记】0基础python学爬虫(未完)

(一)用requests发送get请求 安装好pycharm(跳过) 在本地控制台输入pip install requests 安装requests模块 with防止资源浪费 不论f文件有没有执行成功最后都会关闭 请求获取url resp requests.get(url) resp.text获取源代码…

Redis的持久化、主从架构、哨兵高可用架构

目录 1.Redis持久化 1.1 RDB快照 1.2AOF 1.3混合持久化 2.Redis主从架构 2.1主从工作原理 2.1.1全量复制 2.1.2增量复制 3.Redis哨兵高可用架构 3.1哨兵架构模型 3.2哨兵模式的作用 3.3故障转移机制 3.4主节点选举机制 4.Redis管道-pipeline 1.Redis持久化 有两种…

MyBatis-Plus 一、(基础应用)

MyBatis-Plus(简称 MP)是一个 MyBatis (opens new window)的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。 mybatis 、mybatis-plus 二者区别: MyBatis: 所有SQL语句全部自己写手动解析实…

EPCE-HDR

【GitHub】 【Paper】 摘要 由于相机能力的限制,数字图像通常比真实场景辐射更窄的动态光照范围。为了解决这个问题,高动态范围(HDR)重建被提出,以恢复动态范围,更好的表示真实世界的场景。然而&#xff0c…

haproxy编译安装

一、haproxy简介 HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载均衡,以及基于TCP和HTTP的应用程序代理。 HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。HAProxy运行在当前的硬…

Ubuntu 22.04中MySQL 8 设置忽略大小

Ubuntu 22.04中MySQL 8 设置忽略大小 一、解决完整流程 //根据官网内容说的大概意思就是不能安装完了修改忽略大小写了,只能在初始化的时候做修改。我用的版本是8.0.39//更新软件包 1、sudo apt update //安装MySQL 如果安装了可以忽略这个步骤 2、sudo apt insta…