跨语种「AI同传」颠覆语音翻译!Meta谷歌连发重大突破

news2024/11/29 0:39:29

Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。

就在Meta AI成立10周年之际,研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」(Seamless Communication)模型。

图片

作为首个开源的「大一统模型」,Seamless集成了其他三款SOTA模型的全部功能(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2),可以实时进行更自然、更真实的跨语言交流。

甚至可以说,它从本质上实现了通用语音翻译器(Universal Speech Translator)的概念。

图片

紧接着,谷歌也分享了自己在无监督语音翻译的突破——Translation 3。

通过利用SpecAugment、MUSE嵌入和反向翻译,Translatotron 3在翻译词汇的同时,更能处理停顿、语速、说话者身份等非文本语音细微差异。

不仅如此,Translatotron 3在还可以直接从单语数据学习,摆脱了对并行数据的依赖。

图片

论文地址:https://arxiv.org/abs/2305.17547

结果显示,在翻译质量、说话者相似性和语音自然度方面表现出色,Translation 3都超越了传统系统。

探索沟通的未来,Translatotron 3或将以前所未有的效率和准确性打破语言障碍。

Seamless:「无缝」语音翻译大一统

Seamless将SeamlessM4T v2的高质量和多语言、SeamlessStreaming的低延迟和SeamlessExpressive的表达一致性,全部融合到了一个统一的系统之中。

由此,Seamless也为了第一个能够同时保持声音风格和语调的流式翻译模型。

图片

SeamlessExpressive:完美保留语音语调

虽然现有的翻译工具能熟练地捕捉对话内容,但它们的输出通常依赖于单调的机器人文本到语音系统。

相比之下,SeamlessExpressive则可以保留语音的细微差别,如停顿和语速,以及声音风格和情感基调。

为了在不同语言中保留说话者的语音风格,研究人员在SeamlessM4T v2基础模型中加入了表现力编码器。这一过程可确保单元生成遵循预期的语速和节奏。

此外,将SeamlessM4T v2中的HiFi-GAN单元声码器替换为以源语音为条件的表现力单元到语音生成器,可实现音调、情感和风格的无缝传输。

图片

SeamlessStreaming:AI版「同声传译」

SeamlessStreaming是首个大规模多语言模型,其翻译延迟时间约为两秒,准确度几乎与离线模型相同。

SeamlessStreaming以SeamlessM4T v2为基础,支持近100种输入和输出语言的自动语音识别和语音到文本翻译,以及近100种输入语言和36种输出语言的语音到语音翻译。

Meta AI最先进的流模型SeamlessStreaming能够智能地决定何时有足够的语境来输出下一个目标文本或语音片段。

SeamlessStreaming学习到的读/写策略,会根据部分音频输入来决定是「写」并生成输出,还是「读」并继续等待更多输入。并且,还可以自适应不同的语言结构,从而在许多不同的语言对中发挥更强的性能。

图片

SeamlessM4T v2:更高质量、更高精度

2023年8月,Meta AI推出了第一版SeamlessM4T——一个基础多语言和多任务模型,可为跨语音和文本的翻译和转录提供SOTA的结果。

在此基础上,研究人员于11月推出了改进版的SeamlessM4T v2,作为全新SeamlessExpressive和SeamlessStreaming模型的基础。

升级后的SeamlessM4T v2采用非自回归文本到单元解码器,从而提高了文本和语音输出之间的一致性。

其中,w2v-BERT 2.0编码器是在450万小时的语音数据基础上训练出来的。相比之前,第一版的训练数据只有100万小时。

此外,SeamlessM4T v2还通过全新的SeamlessAlign,为低资源语言补充了更多数据。

评估结果显示,SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任务上的表现,明显优于之前的SOTA模型。

图片

SeamlessAlignExpressive

基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作,Meta AI推出了首个表达式语音对齐程序——SeamlessExpressive。

从原始数据开始,富有表现力的对齐程序会自动发现成对的音频片段,这些片段不仅具有相同的含义,而且具有相同的整体表现力。

基于此,Meta还创建了第一个用于基准测试的多语言音频对齐的大型基准测试数据集——SeamlessAlignExpressive。

图片

Translatotron 3:引领无监督语音翻译新时代

谷歌联合DeepMind提出的无监督语音到语音翻译架构Translatotron 3,不仅为更多语言对之间的翻译,还为停顿、语速和说话人身份等非文本语音属性的翻译打开了大门。

这种方法不用对目标语言进行任何直接的监督,而且可以在翻译过程中保留源语音的其他特征(如语调、情感等)。

图片

Translatotron 3在保留源语音其他特征(如语调、情感等)的同时,无需对目标语言进行任何直接的监督,并且还

摒弃了对双语语音数据集的需求。

其设计包含三个关键方面:

1. 使用SpecAugment将整个模型作为mask自动编码器进行预训练

SpecAugment是一种简单的语音识别数据增强方法,可在输入音频(而非原始音频本身)的对数梅尔频谱图上进行操作,从而有效提高编码器的泛化能力。

2. 基于MUSE的无监督嵌入映射

多语言无监督嵌入是在未配对的语言上进行训练的,可以让模型学习源语言和目标语言之间共享的嵌入空间。

3. 基于反向翻译的重构损失

这种方法可以完全采用无监督的方式,来训练编码器-解码器S2ST模型。

效果展示(西班牙语-英语)

输入

CommonVoice11 Input

CommonVoice11 Synthesized Input

Conversational Input

TTS合成

CommonVoice11 TTS

CommonVoice11 Synthesized TTS

Conversational TTS

Translatotron 3

CommonVoice11 Translation 3

CommonVoice11 Synthesized Translation 3

Conversational Translation 3

结构

Translatotron 3采用共享编码器对源语言和目标语言进行编码。其中,解码器由语言解码器、声音合成器(负责翻译语音的声音生成)和单一注意力模块组成。

相比于上一代Translatotron 2,Translatotron 3配备有两个解码器,一个用于源语言,另一个用于目标语言。

在训练过程中,研究人员使用单语语音-文本数据集(这些数据由语音-文本对组成;并且没有进行翻译)。

编码器

编码器的输出分为两部分:第一部分包含语义信息,第二部分包含声学信息。

其中,前半部分的输出被训练成输入语音频谱图文本的MUSE嵌入。后半部分在没有MUSE损失的情况下进行更新。

值得注意的是,源语言和目标语言共享同一个编码器。

基于MUSE嵌入的多语言性质,编码器能够学习源语言和目标语言的多语言嵌入空间。

这样一来,编码器就能将两种语言的语音编码到一个共同的嵌入空间中,而不是为每种语言保留一个单独的嵌入空间,从而更高效、更有效地对输入进行编码。

解码器

解码器由三个不同的部分组成,即语言解码器、声音合成器和注意力模块。

为了有效处理源语言和目标语言的不同属性,Translatotron 3配备有两个独立的解码器,分别用于源语言和目标语言。

训练

训练由两个阶段组成:(1)自动编码与重构;(2)反向翻译。

第一个阶段中,使用MUSE损失和重构损失对网络进行训练,从而将输入内容自动编码到多语言嵌入空间,确保网络生成有意义的多语言表征。

在第二阶段中,利用反向翻译损失进一步训练网络翻译输入频谱图。为了减轻灾难性遗忘的问题,并确保潜空间是多语言的,此阶段依然采用MUSE损失和重构损失。

为了确保编码器学习输入的有意义属性,而不是简单地重构输入,研究人员在两个阶段都对编码器输入应用了 SpecAugment。事实证明,通过增强输入数据,可以有效提高编码器的泛化能力。

- MUSE损失:MUSE损失衡量的是输入频谱图的多语言嵌入与反向翻译频谱图的多语言嵌入之间的相似性。

- 重构损失: 重构损失衡量的是输入频谱图与反向翻译频谱图之间的相似度。

图片

性能

评估中包括Common Voice 11数据集,以及从对话和Common Voice 11数据集衍生出的两个合成数据集。

其中,翻译质量是通过翻译语音的ASR(自动语音识别)转录的BLEU(越高越好)与相应的参考翻译文本进行比较来衡量的。而语音质量则通过MOS分数来衡量(越高越好)。此外,说话人相似度是通过平均余弦相似度来衡量的(越高越好)。

由于Translatotron 3是一种无监督方法,因此研究人员使用了由ASR、无监督机器翻译(UMT)和 TTS(文本到语音)组合而成的级联S2ST系统作为基准。

结果显示,Translatotron 3在翻译质量、说话者相似性和语音质量等各方面的表现都远远优于基线,在会话语料库中的表现尤为突出。

此外,Translatotron 3实实现了与真实音频样本相似的语音自然度(以MOS衡量,越高越好)。

图片

图片

图片

参考资料:

https://ai.meta.com/research/seamless-communication/

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1286381.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python中的输入输出

文章目录 输入函数input()例子1.如何输入获得两个字符串?(若输入abc def或abc,def)2.如何输入获得两个整数?(若输入34,567)3.如何输入后获得一个元素均为数值型的列表?(若输入12,3.4,567或[12,3.4,567]) 输出输出函数print()pr…

第十六届山东省职业院校技能大赛 中职组网络建设与运维赛项样题

第十六届山东省职业院校技能大赛 中职组网络建设与运维赛项样题 赛题说明 一、竞赛项目简介 “网络建设与运维”竞赛共分为以下三个模块: > 网络理论测试: > 网络建设与调试; > 服务搭建与运维。 模块 比赛时长 分值 模块一 网络…

【恋上数据结构】二叉堆学习笔记

二叉堆 需求分析 Top K 问题 什么是 Top K 问题? 从海量数据中找出前 K 个数据。 比如:从 100 万个整数中找出最大的 100 个整数Top K 问题的解法之一:可以用数据结构 “堆” 来解决。 堆 堆是一种【完全二叉树】,可以分为【…

Hadoop学习笔记(HDP)-Part.07 安装MySQL

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

手动创建spring bean并注入

文章目录 前言一、jar包中,相同class不同类加载器加载的时候是同一个class嘛?二、利用ConfigurableListableBeanFactory手动注册bean注册bean,并自动注入依赖bean根据类型获取注入的bean,两个bean是一个吗? 三、同一份字节码,class隔离,bean隔离总结 前言 注入一个…

Linux的IO模型——阻塞IO

当要读数据recvfrom时,其实就需要两个阶段,一是将硬盘数据读到内核缓冲区,二是将内核缓冲区数据拷贝到用户缓冲区。而阻塞IO就是在两个阶段中用户进程都必须阻塞等待。

ES通过抽样agg聚合性能提升3-5倍

一直以来,es的agg聚合分析性能都比较差(对应sql的 group by)。特别是在超多数据中做聚合,在搜索的条件命中特别多结果的情况下,聚合分析会非常非常的慢。 一个聚合条件:聚合分析请求的时间 search time a…

网页开发 CSS

目录 CSS 概述 CSS 引入方式 CSS 选择器 基本选择器 组合选择器 伪类选择器 样式继承 选择器优先级 CSS 属性操作 文本属性 背景属性 边框属性 列表属性 dispaly属性 盒子模型(重点) float属性(重点) CSS 概述 C…

基于go文件同步工具的升级迭代

介绍 同样,该工具适用于多个项目不同版本的维护,文件更新和新增的同步(自动创建目录),支持自动提交svn。 升级迭代 之前的文件同步工具,依赖chrome和http包,有时候js加载页面不太稳定,所以有空闲就升级迭…

leetcode115.从中序与后序遍历序列构造二叉树,手把手带你构造二叉树(新手向)

构造二叉树是树问题中的难点(相对于遍历二叉树),一开始做的读者会感觉无从下手,这道题在训练营专栏里讲过,是四道题一起讲的,但是现在看来讲的并不全面、具体,所以想单独出一期再来讲一下如何构…

老师怎样克服公开课的心理恐惧?

公开课是老师进修学习和交流教学经验的必要手段,但是,很多老师在面对公开课时会出现心理恐惧,在讲台上发挥不自如,影响教学效果。下面就是一些克服公开课心理恐惧的方法: 一、充分准备 准备充分是心理恐惧的最好解决方…

2023.12.4 关于 Spring Boot 统一异常处理

目录 引言 统一异常处理 异常全部监测 引言 将异常处理逻辑集中到一个地方,可以避免在每个控制器或业务逻辑中都编写相似的异常处理代码,这降低了代码的冗余,提高了代码的可维护性统一的异常处理使得调试和维护变得更加容易,通…

deepflow本地部署过程

本地服务器配置,32C,48G内存 整个过程需要配置k8s,安装helm, 安装grafana, 安装deepflow以及deepflow-ctl,以及部署demo 在采用sealos进行ALL-IN-ONE部署之前, grafana 先安装它 wget -q -O /usr/share/keyrings/gr…

VSCode + gdb + gdbserver调试ARM程序

在开发ARM嵌入式端C/C程序时,一般会在PC上编写代码,在Linux服务器上编译,然后将程序复制或挂载到ARM开发板上运行。如果程序出了问题,在不使用gdb的情况下,经常在代码中添加打印,编译,然后在开发…

nodejs+vue+ElementUi小区社区公寓宿舍智能访客预约系统

该系统将采用B/S结构模式,前端部分主要使用html、css、JavaScript等技术,使用Vue和ElementUI框架搭建前端页面,后端部分将使用Nodejs来搭建服务器,并使用MySQL建立后台数据系统,通过axios完成前后端的交互,…

内网渗透Dump Hash之NTDS.dit

Ntds.dit 在活动⽬录中,所有的数据都保存在域控的ntds.dit⽂件中。 ntds.dit是⼀ 个⼆进制⽂件,⽂件路径为域控的%SystemRoot%\ntds\ntds.dit。NTDS.dit 包 含不限于⽤户名、散列值、组、GPP、OU等活动⽬录的信息。系统运维⼈员可以使⽤VSS实 现对该⽂件…

金蝶云星空单据编辑界面,不允许批量填充操作【分条件】

文章目录 金蝶云星空单据编辑界面,不允许批量填充操作【分条件】前提说明案例演示开发设计测试填充值清空值 金蝶云星空单据编辑界面,不允许批量填充操作【分条件】 前提说明 上一个文章的设计,不管是填充值,还是清空值都一律不…

【matlab程序】matlab画螺旋图|旋转图

%% 数学之美====》螺旋线 % 海洋与大气科学 % 20231205 clear;clc;close all; n=10; t=0:0.01:2pin; R=1; xx=nan(length(t),1);yy=nan(length(t),1); for i=1:length(t) xx(i)=Rcos(t(i)); yy(i)=Rsin(t(i)); R=R+1; end figure set(gcf,‘position’,[50 50 1200 1200],‘col…

基于PIPNet的人脸106关键点检测

做美颜需要使用到人脸关键点,所以整理了一下最近的想法。 按模型结构分类: 1.Top-Down: 分为两个步骤,首先,对于原始输入图片做目标检测,比如做人脸检测,将人脸区域抠出,单独送进关键点检测模…

sql-SQL练习生

推荐一款inscode内的模板SQL练习生,此文附带目前所有题的答案 如有错误欢迎斧正~ https://inscode.csdn.net/TPEngineer/SQLBoy 为了更好的体验,请按下面的方法打开: 1.运行一下 2.等待加载 3.在网页打开 温馨提醒:此处做题不会保…