NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

news2024/10/5 16:26:35

202d2a6c9085cbc12dc7dfa0fc48b981.gif

语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战,尤其是在域外(OOD; Out-Of-Distribution)的训练未见场景中。

与通常可控的语音合成不同,域外文本到语音的风格转换旨在迁移域外参考样本(Custom Reference)的声学风格(例如,音色、情感和韵律等),进而合成高质量、高相似度语音,主要受到两个方面的挑战:

1. 风格建模和转换:高表现力语音具有高动态范围,通常难以控制和转换。许多合成模型只学到了输入数据的平均分布,并且缺乏细粒度风格建模能力;

2. 模型泛化:当预测时参考样本的声学风格分布与训练数据存在差异时,合成语音的质量和相似性往往会显著降低。

14bbe268937ae1b89f3fea8a039e9802.png

论文标题:

GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

论文链接:

https://arxiv.org/abs/2205.07211

代码链接:

https://github.com/Rongjiehuang/GenerSpeech

在今年的人工智能顶级会议 NeurIPS 2022 上,浙江大学与 SEA AI Lab 提出了全新的可建模未见风格(音色、情感和韵律)的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题,提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器,实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模,在风格相似度上提升 1 倍偏好,解决高质量、可控性、可泛化的跨模态序列映射问题。

c77343b1981648b17523b9348f798311.png

研究背景

可泛化语音合成的旨在生成域外风格(音色、情感和韵律)的语音,面临以下挑战:1)高表现力语音中的动态风格特征难以建模;2)模型应足够鲁棒以泛化于音色、情感和韵律未见的域外语音。

研究人员提出了几种建模和传递风格属性的方法:1)全局风格转换使用基于全局特征 [1](Global Style Token)建模语音风格。2)细粒度隐变量风格则采用 VAE 来表示细粒度韵律变量,为每个音素提供不同的韵律特征。然而,这些方法在捕捉不同的风格特征方面非常有限,无法同时准确迁移的语者、情感和韵律波动。

研究人员研究了提高模型对未见风格(语者、韵律、情感等)语音泛化能力的方法:

1)数据驱动方法。提高模型鲁棒性的一种流行方法是在大数据集上进行预训练,以扩展数据分布。但这种数据饥饿的方法需要许多数据样本,这通常是昂贵的;

2)风格小样本学习 [2] 则使用有限数据进行微调来适应新数据,或是采用元学习 [3] 来适应训练中没有见过的风格。该方法依赖于一个强有力的假设,即域外语音可用于模型微调训练,而这在实践中并不总是成立的。如何通过零次样本 (Zero-Shot)学习,迁移域外未见语音的风格仍然是一个开放的问题。

431e72d27aa702826b7f4460d20fa2fa.png

整体方案思路

域外未见语音(OOD; Out-Of-Distribution)的风格迁移,旨在生成与参考语音的风格(例如,说话者身份、情感和韵律)高度相似的样本,该域外参考语音具有与训练数据不同的声学条件,是训练不可见的。

实现更好泛化性的一种直观方法,是通过解耦表示学习将模型分解为领域不可知 (Domain-Agnostic)和领域特定(Domain-Specific)的部分。因此,为了提高文本到语音合成中的通用性,我们设计了几种方法来分别建模语音中的风格不可知(语言内容)和风格特定(例如,语者、情感和韵律)成分:

1)为了提升模型泛化性,我们提出了混合风格层(MSLN)来消除语言内容表示中的风格信息。

2)为了增强建模和传递风格属性,我们引入了多级(Multi-Level)风格编码器,该编码器由语者和情感特征的全局编码器,以及细粒度风格建模的三个(帧级、音素级和词级)局部编码器组成。

3)为了重构高表现力语音样本中的细节,我们使用了基于流模型的后处理网络来微调输出,以生成细粒度、高质量样本。

2.1 可泛化文本编码器

源域和目标域之间的分布差异通常阻碍了模型的泛化能力。我们提出的混合风格层归一化来消除语音序列中的风格信息,以防止来自具有域外(OOD)自定义语音的话语的风格转换中的退化,并预测风格不可知的韵律变化。

用于说话人自适应的条件层归一化可以基于样式嵌入,自适应地执行归一化输入特征的尺度和偏移。这里,两个简单的线性层 和 将风格嵌入 作为输入,并分别输出比例和偏移向量:

428df92561e349115a28030f6455aa3c.png

为了解耦风格信息并学习风格不可知的文本表征,一个简单的解决方案是以不匹配、混淆的的风格信息为条件扰动文本序列,并阻止其生成风格一致的文本表征。我们利用领域泛化的最新进展 [4],通过扰动训练样本中的风格信息,设计了混合风格层归一化,以提升模型泛化性:

c4571d466fa599bb55f089b5f828c0fb.png

7c845a5ff858afd1821d33e5e86773e6.png

最后,我们采用音高预测器(Style-Agonistic Predictor)来预测风格不可知的韵律变化。通过在可泛化的文本编码器中使用混合风格层归一化,风格不可知(语言内容)和风格特定(例如,说话者身份、情感和韵律)信息相分离,提高语音合成模型的泛化性。

2.2 多级风格建模编码器

我们使用可泛化的 wav2vec 2.0 模型 [5] 来捕捉全局风格特征,包括语者和情感声学表征。wav2vec 2.0 是用于语音表示学习的自监督框架,遵循预训练和微调的两阶段训练过程,并已被证明其学习高判别性表征的能力。同时,我们也试验了基于 CNN 的卷积风格编码器 [6],其对语者和情感的建模表现也足够突出。

为了捕捉细粒度韵律细节,我们考虑了帧、音素和词三级别的特征。多层级的风格编码器共享相同的模型结构:输入序列经过几个卷积层后,仅在音素和词级编码器进行池化操作,以实现不同层级的风格化。随后,将学习的隐层序列通过瓶颈层进行量化,以有效地消除非韵律信息。

我们引入了风格到文本表征对齐层(Style-To-Content Alignment),以将可变长度的风格表征与文本表征对齐,用于学习风格和文本表征的时间对齐。我们采用 Scaled Dot Product 作为注意力机制模块,并堆叠多层以获得更好的对齐性能,逐渐将表征风格化。最后,我们利用音高预测器(Style-Specific Predictor)来生成风格特定的韵律变化。

高表现力语音通常包含丰富且高动态的细节,然而广泛应用的 Transformer 解码器很难生成高清晰度样本。因此为了进一步提高合成样本的质量和相似性,我们引入了基于流模型 [7] 的后处理网络来细化解码器输出。

3e44e708acb62a60b6ee67de3b3607f2.png

实验结果

当文本与参考音频一致时,我们的模型可以泛化到域外未见风格(语者、情感、韵律等)的语音。在音频质量和风格相似性方面,与基准模型相比,GenerSpeech 获得了最高的主客观评测分数。多级风格编码器帮助生成与域外参考样本的风格更匹配的语音样本,清楚地反映正确的说话人特征、音高和共振峰范围。

我们还探讨了模型在非并行风格迁移中的鲁棒性,即模型根据参考样本的韵律风格合成具有不同文本内容的语音。相对于基线,评分者更偏好于本模型合成的样本结果。所提出的多级风格编码器显著改进了模型的风格感知能力,允许在域外未见参考样本的指导下,完成任一文本的高质量、高表现力风格迁移。

outside_default.png

参考文献

outside_default.png

[1] Wang Y, Stanton D, Zhang Y, et al. Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis. In Proc. ICML 2018.

[2] Chen M, Tan X, Li B, et al. AdaSpeech: Adaptive Text to Speech for Custom Voice. In Proc. ICLR 2021

[3] Min D, Lee D B, Yang E, et al. Meta-stylespeech: Multi-speaker adaptive text-to-speech generation. In Proc. ICML 2021.

[4] Zhou K, Yang Y, Qiao Y, et al. Domain generalization with mixstyle. In Proc. ICLR 2021.

[5] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. In Proc. NeurIPS 2020.

[6] Wan L, Wang Q, Papir A, et al. Generalized end-to-end loss for speaker verification In Proc. ICASSP 2018.

[7] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.

更多阅读

1dc2ce1bdcfca2898d057a29fb597de2.png

a404af6a54eda12534ff4f7826f473bd.png

13123c12d9933d4a0709df3e831fa38f.png

b1147d7eb85a78edd693dd54269d8377.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

b62419d71268b4b304e1e3c7afdbc353.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

21b79776a520f8507f238f3d0d424090.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/84567.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]Node.js计算机毕业设计大悦城电竞赛事管理系统Express

项目运行 环境配置: Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境:最好是Nodejs最新版,我…

CV-对比学习-模型:MoCo/SimCLR/BYOL/SimSiam

很多大佬认为,深度学习的本质就是做两件事情:Representation Learning(表示学习)和 Inductive Bias Learning(归纳偏好学习)。在表示学习方面,如果直接对语义进行监督学习,虽然表现很…

海泰隐私计算能力助力实现数据“可用不可见”

一、 数据孤岛阻碍数据发展 当今时代,信息技术日新月异,人类文明正经历从信息科技(IT)时代向数据科技(DT)时代的飞速变革。数据作为基础性战略资源的地位日益凸显。然而,数据孤岛问题突出。出于对数据安全的传统保护&…

单商户商城系统功能拆解45—应用中心—积分商城

单商户商城系统,也称为B2C自营电商模式单店商城系统。可以快速帮助个人、机构和企业搭建自己的私域交易线上商城。 单商户商城系统完美契合私域流量变现闭环交易使用。通常拥有丰富的营销玩法,例如拼团,秒杀,砍价,包邮…

pikachu靶场-2 跨站脚本漏洞(xss)

跨站脚本漏洞(xss) Cross-Site Scripting 简称为“CSS”,为避免与前端叠成样式表的缩写"CSS"冲突,故又称XSS。一般XSS可以分为如下几种常见类型: 1.反射性XSS; 2.存储型XSS; 3.DOM型XSS; XSS漏洞一直被评估…

Kubernetes二进制多节点集群部署

多Maser集群架构的了解 Kubernetes作为容器集群系统,通过健康检查重启策略实现了Pod故障自我修复能力,通过调度算法实现将Pod分布式部署,并保持预期副本数,根据Node失效状态自动在其他Node拉起Pod,实现了应用层的高可用…

羧基聚乙二醇叠氮 COOH-PEG-N3/Azide的结构式

叠氮化物与炔烃之间的反应能够使羧酸PEG有效缀合到目标分子或材料上,并且产率很高。 所得羧酸可与胺,羟基和其他基团反应。 叠氮化物和羧酸之间的PEG接头具有良好的水溶性,较小的位阻和增强的稳定性。 产品名称 羧基聚乙二醇叠氮 COOH-PEG…

css div等块元素设置display:inline-block存在间隙问题

我们给块元素例如div设置display:inline-block&#xff0c;会发现元素之间存在空隙。如下图。 <div class"contain"><div id"box1"></div><div id"box2"></div><div id"box3"></div> <…

Simulink自动化-Matlab脚本自动生成Autosar RTE S/R接口及mapping

文章目录前言设计Excel模板Input/Output属性Sender/Receiver属性Matlab脚本自动创建Input/Output接口自动创建RTE Sender/Receiver port实现效果Excel设置运行新建Input与Output运行创建RTE Port及Mapping总结前言 在之前的一篇文章中&#xff0c;介绍了Autosar Parameter Por…

内网隧道各类协议方法

正+反(了解即可) 正向代理:已控服务器监听端口,通过这个端口形成一个正向的隧道,由代理机器代替主机去访问内网目标。但是内网入口一般处于DMZ区域有防火墙拦截,无法直接进入内网环境。 反向代理:由内网主机主动交出权限到代理机器,然后本地去连接形成反向代理。例如…

吉林优美姿文化:抖音账号怎么做垂直?

其实现在抖音限流看起来是一件很平常的事情&#xff0c;那么在我们抖音运营中&#xff0c;如果出现一些不合规的行为或者怎么样的&#xff0c;都会导致限流&#xff0c;严重的可能还会被限流&#xff0c;那么这时候怎么办呢&#xff1f;跟着吉林优美姿小编来一起看看吧&#xf…

MySql索引简单知识点及事务的分析

目录 索引 什么是MySql索引&#xff1f; 索引的易忽略点 基本操作&#xff1a; 查看索引 创建索引 删除索引 索引在MySql中的数据结构 事务 使用方法 事务的核心特性 隔离性 隔离的常见问题 ***MySql四个隔离级别 &#x1f4cc;————本章重点————&#x1f…

微软艰难的2022安全年回顾

©网络研究院 这些是管理员需要了解的 2022 年以来最重要的漏洞和修复。 我们即将结束 2022 年的安全年。只有时间会告诉我们 2023 年会发生什么&#xff0c;但对于 Microsoft 网络的 IT 和安全管理员来说&#xff0c;2022 年是混合攻击、本地 Exchange Server 缺陷和需要…

【Python】向量叉积和凸包 | 引射线法 | 葛立恒扫描法

猛戳&#xff01;跟哥们一起玩蛇啊 &#x1f449; 《一起玩蛇》&#x1f40d; &#x1f4ad; 写在前面&#xff1a;这个系列似乎反响不错&#xff0c; 所以我继续水下去 &#xff08;bushi&#xff09;。本篇博客是关于经典的 Cross Product and Convex Hull &#xff08;向量叉…

最大正方形问题

最大正方形问题 作者&#xff1a;Grey 原文地址&#xff1a; 博客园&#xff1a;最大正方形问题 CSDN&#xff1a;最大正方形问题 题目描述 在一个由 ‘0’ 和 ‘1’ 组成的二维矩阵内&#xff0c;找到只包含 ‘1’ 的最大正方形&#xff0c;并返回其面积。 题目链接见&am…

数字式压力闭环放大器|比例溢流阀闭环控制器

控制不同带压力反馈信号输入&#xff08;0~10V或4~20mA&#xff09;比例压力阀、比例溢流阀、比例节流阀、比例插装阀&#xff0c;带位置反馈信号输入比例流量阀等。斜坡上升和下降时间独立调整(0.05~10 s)。10V参考电压输出外部电位器控制。最大驱动电流 0.4~3A&#xff0c;最…

4个月高效学习,我是如何从手工测试做到测试开发的?

向上的路很难走&#xff0c;但一旦踏上去&#xff0c;每一步都算数&#xff01; 为什么必须转型为测试开发&#xff1f; 不懂开发的手工测试是新时代“文盲” 在移动互联网和大数据时代&#xff0c;为满足市场和业务需求&#xff0c;互联网应用既要实现产品功能快速迭代&…

java字符串中常用的10个方法

文章目录前言一、字符串的构造1.使用常量进行直接赋值构造2.使用new String对象3.使用字符数组进行构造二、字符串的比较1.比较2.equals方法比较3. compareTo方法比较4.compareToIgnoreCase(String str)方法三、字符串的查找1.charAt(int index)方法2.indexOf(String str)方法四…

网络流量分析帮助企业提升OA应用性能(二)

需求简介 某外高桥公司的OA系统是其重要的业务系统&#xff0c;OA系统负责人表示&#xff0c;部分用户反馈&#xff0c;访问OA系统时比较慢。需要通过分析系统看一下实际情况。 信息部已对企业领导定义了独立的组&#xff0c;本次要主动分析领导们的使用体验快慢。如果OA系统…

mmdetection3d S3DIS (持续更新)

Mmdetection3d集成了大量3D深度学习算法&#xff0c;其中很大一部分可以在室内三维数据集S3DIS上运行。本节重点介绍S3DIS数据集及其在mmdetection3d中的预处理程序。 1 S3DIS S3DIS&#xff08;Stanford Large-Scale 3D Indoor Spaces Dataset &#xff09;数据集是斯坦福大学…