巴别塔再现?高质量端到端数据助力Meta推出AI模型SeamlessM4T

news2024/12/24 21:53:08

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事:在古代,人们说着同一种语言,决定建造一座高耸入云,塔顶能触及天堂的塔,被称为巴别塔,以彰显人类的力量和创造力。然而上帝看到人类的意图,并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同,使他们无法相互理解。这导致了混乱和分裂,无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日,Meta推出AI模型SeamlessM4T,该模型可翻译和转录近百种语言,似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

 

Meta 表示,SeamlessM4T可以在近 100 种语言之间进行文本到语音的翻译,并支持 36 种语言的完全语音到语音翻译,而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。这项技术相比于传统的文本翻译,最大的价值和挑战,在于可以直接对人类的语音进行端到端的翻译,从一种语言的语音直接翻译到另一种语言。这就可以使得人和人直接通话,不再需要复杂的中间模块来转换。

支持SeamlessM4T的模型进行语音到语音翻译需要大量高质量端到端数据。而数据资源稀缺也是端到端语音翻译方法最大的挑战之一。更具体地来说,是因为语音翻译数据集构建流程复杂、成本高:在获取授权音频的前提下进行对应的转写和翻译。接着需要对音频、转写和翻译进行切分,最后还要对齐以及过滤以获得有效的数据。

晴数智慧布局对话式AI数据集多年,关注到大模型带来了大规模的对话式场景落地,在3年前开始规划语音翻译数据集产品设计。高质量的语音翻译数据集成为基础能力制约的关键。晴数智慧并设计生产了各个语言(方言)的端到端翻译数据集:MagicData-CLAM-E2E数据集。今天,当所有的AIoT设备和人类对话的时候,我们可以基于这样的高质量语音翻译数据集,完成多语言间的自然转换。通天巴别塔的道路即在脚下。

晴数智慧MagicData-CLAM-E2E数据集样例展示:

上海话-中文普通话

WAV

TRANSCRIPTION

姑娘,吾敬侬是条汉子!

TRANSLATION

妹子,我敬你是条汉子!

广式粤语-中文普通话

WAV

TRANSCRIPTION

我手机坏咗,唔可以上网啦,第日啦瞓啦

TRANSLATION

我手机坏了,不能上网了,来日吧,睡了

英语-中文 (MDT2019S004)

WAV

TRANSCRIPTION

It is on a two-hectare farm in southern California.

TRANSLATION

它位于加利福尼亚南部的一个占地两公顷的农场上。

西班牙语-中文 (MDT2018S021)

WAV

TRANSCRIPTION

Mi abuelo llegó a ganar un café a las cartas.

TRANSLATION

我的祖父甚至在牌桌上赢了一杯咖啡。

晴数智慧希望能通过高质量MagicData-CLAM系列数据集帮助更多企业科研机构用高效、低成本地构筑高性能端到端语音翻译模型,打造AI时代的巴别塔。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/928813.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据科学 × 临床医学丨和鲸打造可供科研多角色协同的低代码研究平台

领域背景:临床研究的“多角色”性 临床研究是以疾病的诊断、治疗、预后和病因为主要研究内容,以患者为主要研究对象的科学研究活动。现代临床研究项目的开展具有“多角色”参与的特性,除了发起项目的 PI 外,项目的核心团队可能还…

14-模型 - 增删改查

增: # 1. 找到模型类并创建对象 user User() # 2. 给对象的属性赋值 user.username username user.password password user.phone phone # 3. 将user对象添加到session中 (类似缓存) db.session.add(user) # 4. 提交数据 db.session.commit() 删: # 两种删除:# 1. 逻辑删…

C++核心编程:类和对象

总览 C 面向对象的三大特性: 封装,继承,多态 C认为 万事万物都皆为对象,对象上有其属性和行为 封装 封装的意义 封装是C面向对象的三大特征之一 封装的意义: 将属性和行为作为一个整体,表现生活中的事…

芯科科技推出专为Amazon Sidewalk优化的全新片上系统和开发工具,加速Sidewalk网络采用

芯科科技为Sidewalk开发提供专家级支持 中国,北京 - 2023年8月22日 – 致力于以安全、智能无线连接技术,建立更互联世界的全球领导厂商Silicon Labs(亦称“芯科科技”,NASDAQ:SLAB)今日在其一年一度的第四…

安防监控平台EasyCVR视频汇聚平台增加首页告警类型的详细介绍

安防监控/视频集中存储/云存储EasyCVR视频汇聚平台,可支持海量视频的轻量化接入与汇聚管理。平台能提供视频存储磁盘阵列、视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、服务器集群、语音对讲、云台控制、电子地图、平台级联、H.265自动转码等…

kubernetes--技术文档--可视化管理界面dashboard安装部署

阿丹: 使用官方提供的可视化界面来完成。 Kubernetes Dashboard是Kubernetes集群的Web UI,用户可以通过Dashboard进行管理集群内所有资源对象,例如查看资源对象的运行情况,部署新的资源对象,伸缩Deployment中的Pod数量…

SAP 之如何定义功能范围Function Area

目录 目录 前言 一、注意点 二、使用步骤 1. Step by step 2. 其它功能 总结 前言 在SAP中,FA功能范围是一个组织单元,一般根据活动对产生的运营费用进行分类。例如生产、管理、销售、研发等,可以分配给成本中心Cctr、GL总账科目、Ord…

电压放大器的用途有哪些

电压放大器是一种常见的电子设备,用于将输入信号的电压放大到所需的输出电压水平。它在各种领域中都有广泛的应用。下面西安安泰电子将介绍电压放大器的主要用途。 音频放大:电压放大器在音频领域中扮演着重要角色。音频放大器是电压放大器的一种特殊形式…

支付事-乐刷支付母公司移卡发布2023年中期业绩报告

8月24日晚间,乐刷支付母公司移卡发布2023年中期业绩报告。 2023年上半年,移卡实现收入20.62亿元,同比增长25.6%;经调整EBITDA2.91亿元;同比增长317.4%。业绩表现优异主要来源于主营支付业务的大幅增长。 中期业绩报告…

MIA文献阅读 —— 深度学习在医学图像分析中的最新进展及临床应用【2022】

目录 0 摘要1 引言2 深度学习方法概述2.1 监督式学习2.2 无监督学习2.2.1 自编码器 (Autoencoders)2.2.2 生成对抗网络(GANs)2.2.3 自监督学习 2.3. 半监督学习2.4 提高性能的策略2.4.1 注意力机制2.4.2 领域知识2.4.3 估计的不确定性 3 深度学习应用3.1 分类3.1.1 监督分类3.1…

Camunda 7.x 系列【28】定时器启动事件

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot 版本 2.7.9 本系列Camunda 版本 7.19.0 源码地址:https://gitee.com/pearl-organization/camunda-study-demo 文章目录 1. 前言2. 概述3. 案例演示3.1 建模3.2 固定时间日期3.2 持续时间3.3 重复间隔1. 前言 Sta…

qml相关知识1

qml相关知识1 QtQuick.Controls 哪个版本支持TreeModel 和 TreeItemqt5.12开始,TreeItem 类被删除,无法使用delegate 什么时候可以用Qt5.15中没有 import QtQuick.Controls 1吗,哪个版本有control1qml如何两种版本的controls混用(…

2023中国算力大会 | 中科驭数加入DPU推进计划,探讨DPU如何激活算网融合新基建

8月18日,由工业和信息化部、宁夏回族自治区人民政府共同主办的2023中国算力大会在宁夏银川隆重召开。作为DPU算力基础设施领军企业,中科驭数产品运营部副总经理曹辉受邀在中国信通院承办的算网融合分论坛发表主题演讲《释放极致算力 DPU激活算网融合新基…

SMC状态机 讲解1 XX.sm文件详解

SMC状态机 讲解1.4 XX.sm文件 1、Task类2、FSM任务3、创建SMC.sm文件4、定义FSM状态5、定义转换 transition6、定义FSM转换动作7、定义FSM默认转换8、定义状态Entry/Exit 动作9、连接Task与Task FSM 1、Task类 SMC为对象(不是进程或应用程序,而是单个对象)生成有限…

IT运维:使用数据分析平台监控DELL服务器

概述 在企业日常运维中,我们有着大量的服务器设备,设备故障一般可以通过常用的监控软件实现自动告警,但如果在管理运维中我们要做的不仅仅是发现故障,处理硬件故障,我们还需要进一步的了解,今年一共出现了多…

【Linux应用部署篇】在CSDN云IDE平台部署Etherpad文档编辑器

【Linux应用部署篇】在CSDN云IDE平台部署Etherpad文档编辑器 一、CSDN云IDE平台介绍1.1 CSDN云IDE平台简介1.2 CSDN云IDE平台特点 二、本次实践介绍2.1 本次实践介绍2.2 Etherpad简介 三、登录CSDN云IDE平台3.1 登录CSDN开发云3.2 登录云IDE3.3 新建工作空间3.4 进入工作空间 四…

【测试流程】敏捷软件测试流程分享

一、背景 分享一套高效可靠的软件测试流程,目的是更好的保障产品质量,更高效的完成测试任务,提供给需要的朋友。 二、软件测试流程

Web端报错

Chunk-vendors.2a8c602b.js:48混合内容:位于‘https://3323.sfdy13168.com/#/goodsManage’的页面通过HTTPS加载,但请求了不安全的XMLHttpRequest端点‘http://110.42.2.202:8087/file/upload’.。此请求已被阻止;内容必须通过HTT…

STM32CubeIDE(Timer)

目录 一、基本定时器 1、TIM6和TIM7简介 2、TIM6和TIM7主要特性 3、CubeMX配置 4、代码编写 二、通用定时器 1、简介 2、主要功能 3、生成PWM波 3.1 固定占空比 3.2 可变占空比 4、输出比较 5、输入PWM 5.1 CubeMX配置 5.2 代码编写 一、基本定时器 1、TIM6和TI…

IO多路转接(复用)多线程 select 并发

1.select // sizeof(fd_set) 128 1024 #include <sys/time.h> #include <sys/types.h> #include <unistd.h> #include <sys/select.h> int select(int nfds, fd_set *readfds, fd_set *writefds,fd_set *exceptfds, struct timeval *timeout);- 参数…