「ACL 2023」发榜!火山语音推出业内首个借助视频信息的端到端语音翻译模型

news2024/11/14 2:02:27

日前 ACL 2023的论文录用结果公布,火山语音团队多篇论文成功入选,内容涵盖音频合成、歌声合成以及语音翻译等多个前沿技术领域的创新突破。ACL(Annual Meeting of the Association for Computational Linguistics)每年由国际计算语言学协会举办,是自然语言处理与计算语言学领域最高级别的学术会议,也是中国计算机学会(CCF)A类推荐会议,在世界范围内享有极高声誉,并受到全球各地语言领域人士的广泛关注。

图片来源:https://2023.aclweb.org/

结合视觉信息的端到端语音翻译

( AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation)

  论文链接:https://arxiv.org/abs/2305.15403

研究背景:众所周知,语音到语音翻译(S2ST)对于打破语言壁垒与沟通障碍非常有益。近年来业内利用自监督模型获得的离散单元,构建无文本且端到端的 S2ST 系统逐渐成为主流,但当前的S2ST模型在带噪的环境中仍然存在明显退化,并且无法翻译视觉语音(即唇动)。在这项工作提升中,火山语音团队联合浙江大学提出了AV-TranSpeech,业内首个借助视频信息的无文本语音到语音翻译(AV-S2ST)模型,通过视觉信息补充音频流,以提高系统的稳健性,并开辟了一系列应用前景,例如口述、为档案电影配音等。

方法介绍:为了缓解AV-S2ST数据稀缺,团队率先探索使用无标记音视频数据进行自监督预训练,以学习上下文表示;此外使用在纯音频语料库上训练的S2ST模型引入跨模态蒸馏,进一步降低对视觉数据的要求。在两种语言对的实验结果表明,无论噪声类型如何,AV-TranSpeech在所有设置下都优于纯音频模型,尤其是在低资源数据(10小时、30小时)下,跨模态蒸馏可提高7.6 个BLEU点。“如图所示,我们使用自监督HuBERT来获得目标语音的离散单元;建立视听语音到单元转换(AV-S2UT)和应用单独训练的基于单元的声码器以将转换的单元转换成波形。”火山语音团队表示。

为了缓解音频和视频表示之间的长度不匹配,团队还添加了一个随机初始化的模态适配器层,该层由音频和视频流之间的步长为2的单个一维卷积层组成。“为了防止模型在联合模型中过度依赖音频流,我们在融合音频和视觉输入之前,包括一个概率为p=50%的模态Dropout,迫使视觉编码器学习上下文表示。”

图1:AV-TranSpeech模型架构图

呈现效果:总结翻译准确性和语音自然度,火山语音发现:大规模多模式预训练在很大程度上提高了性能,这主要是因为LRS3-T是一个具有挑战性的数据集,有很大一部分视频是从TED演讲中收集的,显示了在不依赖中间文本或辅助多任务训练下S2ST的难度。此外,视觉模态的引入能够带来平均2.0个 BLEU点的增益,即用视觉信息补充音频流,开辟了一系列实际应用,比方说实现无声听写或为档案无声电影配音。对于语音质量,由于团队应用了公开可用的预训练单元声码器,该声码器主要控制输出语音的自然度并保持不变,AV-TranSpeech表现出高质量的语音生成。

利用文本-语音对比学习提出针对语音合成的韵律文本表征 

(CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training)

论文链接:https://arxiv.org/abs/2305.10763

研究背景:提高文本表征是实现富有韵律的语音合成系统的重要途径,然而现有的工作通常采用基于语言模型 (BERT) 的文本表征来提升合成语音的韵律的方法,这就带来了使用预测掩码标记(masked token prediction)任务进行预训练,更关注的却是文本的语义信息而非语音的韵律,从而导致训练效率低以及韵律建模困难等问题。

方法介绍:基于上述观察,火山语音团队联合浙江大学提出了CLAPSpeech,这是一个跨文本-语音模态的对比预训练方法。与现有工作不同,它从相同文本标记在不同语境下的韵律变化中学习,因而能够显式高效地从文本中提取韵律相关的信息。具体而言,首先我们巧妙设计一个文本编码器和韵律编码器,鼓励模型在联合跨模态空间中将文本上下文与其对应的韵律模式连接起来;第二团队引入了多尺度预训练方案,以在音素、词汇等不同层次上捕获韵律模式;最后展示了如何将CLAPSpeech整合到现有的TTS模型中以获得更好的韵律。

图2: CLAPSpeech的文本-语音跨模态对比学习训练流程

呈现效果:在两个1000小时级别的中英文语音合成数据集完成的实验均表明,采用CLAPSpeech提供的文本表征可以显著提升现有TTS方法的韵律建模;实验同时还证明了CLAPSpeech的泛化能力,可以适应多语言和多说话人的复杂语音合成任务。现有的语音合成、歌声合成等系统都可以很方便地使用CLAPSpeech预训练模型的文本表征以提升合成音频的韵律自然程度。

基于跨模态对齐的从语音到歌声转换

( AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment)

论文链接:https://arxiv.org/abs/2305.04476

研究背景:从语音到歌声转换(Speech-to-Singing,STS)任务的目标是将语音样本转换为内容(歌词)一致的歌声样本,同时保证说话人的音色不变。在转换的过程中,需要提供目标音高作为转换的参考,相关的研究与技术不仅有助于探索人类声音的合成规律,也对计算机辅助音乐制作等领域有帮助。通常STS任务与传统人声转换任务(Voice Conversion,VC)不同的一点是其需要转换两个独立特征:第一个是节奏,即时间模态,是音素在时域上的排列方式;第二个是音高,即频率模态。以往的STS方法侧重于音高的转换,忽略了音素位置在语音和歌声两者之间的差距,这会导致合成的音素含混不清、顺序混乱,同时由于歌曲制作中常见的一字多音等情况,字符序列在给定的音高序列中的位置分配情也是是一个复杂的概率分布。

图3:AlignSTS模型架构图

方法介绍:对此,本方法提出了跨模态对齐的解决方案。重要的一点,团队提出了一个更简洁高效的时间模态表示,即节奏特征。该特征被用于缩小语音内容和目标音高之间的模态差异,可被视为一种软化的时长标注。根据经验观察,人类总能在给定歌词序列和音高序列的前提下创作出听感合理的歌词节奏,说明连接这两者的节奏特征的概率分布可被良好定义。本方法先对输入语音信息进行破坏和解耦,接着使用交叉注意力机制建模目标节奏特征,并使用节奏特征对语音特征进行重排列和重对齐,最后再使用扩散模型作为声学特征解码器以提高音质。

呈现效果:在多轮实验中,本方法在总质量MOS评分和韵律MOS评分中获得了平均0.39和0.36的提升;同时在零样本测试中,只在纯歌声数据集上训练的模型能够在未见语音数据上获得0.11的提升,展现了良好的泛化性能。

针对口吃语音提出的自动化语音编辑系统

(FluentSpeech: A Stutter-Oriented Automatic Speech Editing System)

论文链接:https://arxiv.org/abs/2305.13612

研究背景:最近基于文本的语音编辑受到业界的广泛关注,其中口吃消除作为语音编辑的一个关键子任务,有着十分广泛的应用场景,如短视频、电影、播客、YouTube视频,讲座等,能够为媒体制作人提供极大的便利。然而之前的语音编辑工作仍然存在诸多不足之处,例如:

  • 音质较低。生成的mel声谱图通常是模糊的,并且缺乏高频细节,导致修改区域出现不自然的声音;

  • 没有针对口吃语音进行设计。当需要编辑的语音充满口吃时,由于文本和口吃语音内容之间的差异,导致文本到语音的对齐过程受到影响,使得系统的鲁棒性降低;

  • 口吃区域需要手动定位,这对媒体制作人来说既费时又费力。

对此该论文首创性地针对口吃语音提出了一个自动化语音编辑系统,也就是FluentSpeech。这是首个针对口吃消除任务进行优化的语音编辑系统,可以自动检测口吃区域将其去除,并同时生成具有丰富细节的流畅语音。此外它也在其他语音编辑任务(如增、删、改等)达到了SOTA效果,能够完成多场景下的零样本语音编辑,极大节省了配音人员、媒体制作者的人力投入。

图4:FluentSpeech模型架构图

方法介绍:首先团队采用了一种上下文感知的扩散模型,该模型可以显式理解待编辑语音的上下文信息(如基频、持续时间、口吃信息等)并利用这些信息作为条件来指导扩散和反向过程,这有助于FluentSpeech生成高质量而过渡自然的结果。“为了提高对口吃语音的鲁棒性,我们在训练过程中引入了一种条件口吃预测器,该预测器定位口吃区域,并将口吃信息注入帧级隐序列,以减少文本和口吃语音之间的信息差异。”此外预测的口吃区域可以被用于自动口吃去除过程。另外还提出了一个新的数据集,称为“面向口吃的自动语音编辑数据集”,该数据集包含具有时间对齐的口吃标签的语音数据,可以用于相关语音编辑系统的训练。

呈现效果:该系统在VCTK数据集上与最新的基线系统进行了对比实验,在常规语音编辑任务中,音质主观评测MOS分数提升了0.18,说话人相似度主观评测MOS分数提升了0.15。在该论文新收集的口吃语音数据集的实验中,系统对口吃语音具有很高的鲁棒性,其口吃区域预测的帧级别准确度为80.5%,能够显著提高口吃语音的流畅性。

一直以来,火山语音团队面向字节跳动内部各业务线,提供优质的语音AI技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。自 2017 年成立以来,团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合,以实现更大的用户价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/593781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx服务器及其配置与应用

目录 一、Nginx的特点 1.高并发 2.低消耗 3.低消耗 4.高可用 5.高扩展 6.Nginx与Apache的差异 7.Nginx与Apache的区别 二、Linux中的I/O 1.I/O介绍 2.同步/异步 3.阻塞/非阻塞:关注调用者在等待结果返回之前所处的状态 三、编译安装Nginx服务 1.关闭防火墙&#…

SOLIDWORKS安装使用说明网络版

安装准备 系统要求:参考https://www.solidworks.com/sw/support/SystemRequirements.htmlSolidWorks 2017 是最蕞后一个支持win server 2008 R2 sp1的软件。 SolidWorks 2018支持win server 2012及以上的系统,但不支持win server 2019 SolidWorks 2019…

HNU-计算机系统-CSAPP作业答案

计算机系统CSAPP课后作业答案 计科210X wolf 202108010XXX 第2章 2.61 解: (!~x) || (!x) || (!~(x|0x00ffffff)) || (!(x&0x000000ff)) 或者: (!~x) || (!x) || (!~(x>>24)) || (!(x<<24)) 2.71 A. 实现的是逻辑位移,扩展后前面全是0,不符合符号扩…

Linux常见命令学习

目录 1.ls2.pwd3.cd (change directory)4.touch&&cat&&echo5.mkdir&&rm6.cp&&mv7.man8.less&&vim 1.ls 列出当前目录中包含的文件和目录~ 类似于在windows上双击某个目录&#xff0c;把他打开&#xff0c;看看目录里有啥~ ls -> l…

企业内容管理丨如何解决企业客户签收回执慢,缩短回款周期?

方案应用领域及行业 本方案适用于快消品行业的供应链管理和财务管理 方案应用背景 由于动产物权的政策变化&#xff0c;物权转移从交付时才开始发生效力。也就是说&#xff0c;新政之前&#xff0c;企业发出商品&#xff0c;开出销售发票&#xff0c;即可申请货物回款&#…

C# webapi接口传输byte[]数据,报错:415 Unsupported Media Type

最近需要做上传文件操作。 由于历史原因&#xff0c;以前的接口使用了这样的入参&#xff1a; 代码如下&#xff1a; /// <summary> /// 上传文件 /// </summary> [HttpPost] public Result<UploadImageResult> UploadFile(byte[] bytes, string extName, s…

html框架-----标签(上)

目录 前言&#xff1a; 标签简介 1. HTML的基本结构 (1)html标签 (2)head标签 &#xff08;3&#xff09;body标签 2. 标题标签 3. 段落标签 4. 文本格式化标签 前言&#xff1a; 现在学前端工程师的都很难找工作&#xff0c;懂的都懂了&#xff0c;因为学前端一般去做那…

console.log是异步还是同步?为什么console.log有时候不准

console.log是异步还是同步 在前端开发中&#xff0c;控制台console.log通常是同步的。这意味着&#xff0c;当代码执行到console.log语句时&#xff0c;它会立即写入到控制台中&#xff0c;并且JavaScript代码执行会在console.log完成后继续进行。 但是&#xff0c;在某些情况…

# croc用法实践(设备间文件或文件夹传输)

croc用法实践&#xff08;设备间文件或文件夹传输&#xff09; 文章目录 croc用法实践&#xff08;设备间文件或文件夹传输&#xff09;1 安装2 使用示例2.1 发送文件2.2 发送文件夹2.3 发送文本字符串2.4 发送时指定code&#xff0c;接收时自动【Y】&#xff0c;并保存到指定目…

《MySQL(一):基础篇-MySQL概述》

文章目录 1. MySQL概述1.1 数据库相关概念1.2 MySQL数据库1.2.1 版本1.2.2 下载1.2.3 安装1.2.4 启动停止1.2.5 客户端连接1.2.6 数据模型1. MySQL概述 1.1 数据库相关概念 先来了解三个概念:数据库、数据库管理系统、SQL。 而目前主流的关系型数据库管理系统的市场占有率…

ic验证的主要工作流程和验证工具是什么?

验证其实是一个“证伪”的过程&#xff0c;从流程到工具&#xff0c;验证工程师的终极目的都只有一个&#xff1a; 发现所有BUG&#xff0c;或者证明没有BUG&#xff0c;以保证芯片功能性能的正确性和可靠性。 验证环节对于一颗芯片的重要性也是不言而喻的&#xff1a; 从项…

VMware16安装Linux CentOS7完整教程(附下载地址)

一、准备工作 1.安装VMware Workstation Pro 16 &#xff08;1&#xff09;百度网盘下载地址 链接:https://pan.baidu.com/s/1jv0kQ26TLMt9MzofImRzgA?pwds0m1 提取码&#xff1a;s0m1 &#xff08;2&#xff09;VMware官网 https://www.vmware.com/cn &#xff08;2&#x…

广通优云徐育毅:筑基数字化,打造中国IT运维新范式

2023年2月&#xff0c;中共中央、国务院印发《数字中国建设整体布局规划》&#xff0c;数字技术与经济、政治、文化、社会等各领域融合愈发紧密&#xff0c;一册百花齐放、生机勃勃的数字化图卷正徐徐展开。 随着数字中国战略深入推进&#xff0c;IT运维作为核心领域受到关注。…

傻瓜式git管理。全平台,全编译器通用。github desktop+vscode

文章目录 前言Github desktop资源地址推荐理由操作介绍打开界面介绍Github账号登录Github仓库导入 从零开始新建Gitee仓库登录或注册gitee仓库Gitee新建仓库输入仓库名&#xff0c;添加gitignore,Readme什么是.gitignore什么是README 新建仓库效果github desktop使用新建本地仓…

Android播放器拖动进度条的小图预览

Android播放器拖动进度条的小图预览 背景效果图关键代码1. 获取指定位置的视频帧2. 预览图的显示和隐藏 完整代码1. xml布局文件activity_video.xml2. Activity文件VideoActivity.java 背景 我们在使用一些播放器时&#xff0c;拖动进度条会有一个预览框&#xff0c;上一篇博客…

海康、大华、tplink监控摄像头和硬盘录像机接入GB28181平台配置细节

海康、大华、tplink等各种型号监控摄像头或硬盘录像机(NVR/HVR)接入GB28181平台&#xff0c;配置过程都非常简单明了&#xff0c;但有些细节需要注意&#xff0c;避免走弯路踩泥坑。 首先要说明一点的是&#xff0c;只要监控设备和GB28181平台的网络是连通的&#xff0c;都可以…

5月第4周榜单丨飞瓜数据B站UP主排行榜单(哔哩哔哩)发布!

飞瓜轻数发布2023年5月22日-5月28日飞瓜数据UP主排行榜&#xff08;B站平台&#xff09;&#xff0c;通过充电数、涨粉数、成长指数三个维度来体现UP主账号成长的情况&#xff0c;为用户提供B站号综合价值的数据参考&#xff0c;根据UP主成长情况用户能够快速找到运营能力强的B…

chatgpt赋能python:Python中提取纯数字的方法

Python中提取纯数字的方法 在数据清洗和数据分析中&#xff0c;经常需要将文本中的数字提取出来&#xff0c;用于后续的计算或统计分析。Python作为一种流行的数据处理语言&#xff0c;提供了多种方法来完成这个任务。 方法一&#xff1a;使用正则表达式 正则表达式是一种强…

什么是精细化管理?怎样做好精细化管理?

俗话说&#xff0c;细节决定成败&#xff0c;企业管理也一样&#xff0c;精细化管理尤为重要。 01 什么是精细化管理 精细化管理是企业管理的一种理念&#xff0c;可追溯至20世纪50年代泰勒科学管理。也可以说是一种文化&#xff0c;以最大限度地减少管理所占用的资源和降低管…

超详细的 Wireshark 使用教程

一、wireshark是什么&#xff1f; wireshark是非常流行的网络封包分析软件&#xff0c;简称小鲨鱼&#xff0c;功能十分强大。可以截取各种网络封包&#xff0c;显示网络封包的详细信息。 wireshark是开源软件&#xff0c;可以放心使用。可以运行在Windows和Mac OS上。对应的…