ISCSLP 2022 | AccentSpeech—从众包数据中学习口音来构建目标说话人的口音语音合成系统

news2024/11/24 6:31:52

构建带口音的语音合成系统可以增加语音合成的多样性和趣味性。然而不是每个人都能说多种口音。为了实现口音与说话人音色的自由组合,借助迁移学习技术,为没有口音数据的说话人构建口音合成系统,是实现“口音任意说”的有效途径。但是以往大多数口音迁移技术需要一个高质量的口音语音合成数据集才能实现将口音迁移到一个没有口音的说话人上,因此实现口音迁移的数据门槛较高。

近期,由西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯 IEG 合作的论文“ AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents”被语音旗舰会议 ISCSLP 2022 接收。该论文利用低质量的众包口音数据集KeSpeech [1] ,将低质数据中的各种普通话地方口音迁移到标准普通话口音的目标说话人DB1 [2] 上,实现保留DB1音色带有各种口音的语音合成系统。  

论文题目:AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents

作者列表:张雍茂,王智超,杨培基,孙闳绅,王智圣,谢磊

论文原文:https://arxiv.org/abs/2210.17305

图1 发表论文截图

1. 背景动机

语音中包含了丰富的信息,口音(Accent)是其中的重要组成部分,反映了说话人的地域等属性。实验室之前的相关工作实现了输入任意说话人语音转换到目标说话人音色带各种口音的语音[3]

一个理想的文语转换(TTS)系统应该可以合成目标说话人音色的多种口音。为了构建口音迁移系统实现“口音任意说”的语音合成系统,通常需要高质量的棚录口音数据集,但是这样的高质量口音数据集的构建不仅需要完备的录音条件,还需要每种口音的专业录音人员,成本较高。相比高质量的带口音的语音合成数据集,低质量的众包口音数据相对容易获取。例如,KeSpeech数据集 [1]就包括了来自中国30多个城市两千多个说话人贡献的超过1500小时的口音语音数据。然而在使用这些低质数据构建口音迁移系统时会遇到两个困难:

  • 音质问题。众包数据通常在常规环境录制,录音来自各种不同设备(诸如各种型号手机),存在明显背景噪声和混响,录音信道和前处理算法也会对音质造成损伤。

  • 韵律问题。众包口音发音人根据跟定文本进行朗读,发音韵律较差,不可避免有不正常停顿、一字一顿等现象。

为了克服上述两个问题,我们通过采用噪声鲁棒的ASR系统提取的瓶颈特征(Bottleneck feature)来缓解音质问题带来的影响,并采用平行数据扩充的方式来避免建模众包数据发音人的发音韵律。

2. AccentSpeech方案

针对低质数据存在的两个问题,本文的解决方法如下。

  • 针对众包数据音质带来的问题,我们采用噪声鲁棒的ASR系统 [4] 提取的瓶颈特征 (BN) 作为中间表征来缓解噪声和混响带来的影响。由于噪声鲁棒的端到端ASR系统提取的BN特征具有一定的噪声和混响鲁棒性,所以从低质口音数据中提取的瓶颈特征能够消除这些干扰影响,只包含了语言和与发音相关的信息,低质数据中的噪声和混响对模型的影响较小。

  • 针对众包发音人的发音韵律较差的问题,我们引入了一个三段式TTS框架。首先使用目标说话人的高质量数据训练Text-to-BN (T2BN) 和 BN-to-Mel (BN2Mel) 模块,并在两个模块中间加入一个使用众包口音数据训练的BN-to-BN (BN2BN) 模块来进行口音迁移任务。我们通过数据扩充的方式生成了非口音的BN和带有口音的BN的平行数据来训练BN2BN模块。最终通过三段式框架实现了合成目标说话人带口音的语音。因为合成语音的韵律是从目标说话人的高质量数据中学习的,所以最终语音的发音韵律稳定。

AccentSpeech系统的整体模型结构如图3所示,声学模型部分由T2BN、BN2BN、BN2Mel三部分串联得到。T2BN采用FastSpeech [5] 模型结构,BN2BN采用卷积加FFT Block的结构,BN2Mel采用自回归的结构。

图3 AccentSpeech模型结构

如图4所示,模型的训练流程分为三步:

  1. 使用目标说话人高质量数据训练T2BN、BN2Mel和Vocoder三个模型;

  2. 使用文本前端和强制对齐工具得到众包口音数据的音素和时长信息,在此基础上使用第一步训练的T2BN模型构造非口音BN和带口音BN的平行数据;

  3. 使用第2步得到的平行数据训练BN2BN口音转换模型。

图4 AccentSpeech训练流程

3. 实验验证

我们在中文口音迁移任务上进行实验验证。实验使用两个开源数据进行验证,众包口音数据为KeSpeech [1],目标说话人数据为DB1。我们选用KeSpeech数据中的四川、西安、郑州三个城市的口音数据进行实验,三个城市的口音数据分别有30566、32323、21901句。目标说话人DB1的高质量普通话数据有10000句。

我们在此数据集上对比了Accent-FastSpeech、Accent-Hieratron和AccentSpeech三个系统的口音迁移效果。Accent-FastSpeech采用FastSpeech的结构并接受AccentID和SpkID来实现对口音和说话人的控制。Accent-Hieratron采用Hieratron的模型结构,包括Text2Bottleneck和Bottleneck2Mel两部分,分别负责建模口音与音色,在合成时通过口音与音色的组合来实现口音迁移。对比结果如图5所示,Accent-FastSpeech训练不收敛,Accent-Hieratron同样使用了端到端ASR系统提取的BN特征,所以音质与AccentSpeech相近,但Accent-Hieratron的发音自然度较差,这是由于众包数据是由普通人在日常状态下朗读录制的,Accent-Hieratron学到了其中的发音韵律。而AccentSpeech的韵律则更加稳定,因为BN2BN模型只会学到众包数据中的口音,而韵律来自专业目标发音人。

图5 偏好测试结果

我们还对音色相似度和音素时长进行分析,计算口音迁移之后的音频与目标说话人的音色相似度和时长MAE如表1所示。我们发现AccentSpeech和Accent-Hieratron的音色相似度相当,进行口音迁移之后相比迁移之前的音色相似度略有下降。AccentSpeech预测的时长更接近目标说话人的真实时长。

表1 客观指标

 

对预测的时长进行可视化如图6所示,可以看出Accent-Hieratron因为学到了众包数据中的发音韵律,导致预测的时长偏离目标说话人的真实时长较大,听感不自然。

图6 时长预测可视化

对扩充的数据进行可视化如图7所示,图7(a)为原始众包口音数据中的一条,可以看到音频中存在背景噪声,图7(b)为从图7(a)音频提取BN后还原的音频,可以看出背景噪声消失了,说明提取BN的过程可以有效过滤背景噪声,图7(c)为使用T2BN生成的无口音BN再还原的音频,其与图b对应的BN形成平行数据。

图7 数据扩充可视化

4. 总结

本文提出了利用众包口音数据进行口音迁移的AccentSpeech TTS模型,解决了众包口音数据中存在的低音质和发音韵律差带来的问题,实现了将低质口音数据中的口音迁移到目标说话人同时保留目标说话人音色的语音合成,降低了口音迁移的数据门槛。但合成的整体稳定性有待提高,距离高质量口音数据的迁移效果还有差距。

本文更多样例敬请访问

https://accentspeech.github.io/AccentSpeech/

参考文献

[1] Z. Tang, D. Wang, Y. Xu, J. Sun, X. Lei, S. Zhao, C. Wen, X. Tan, C. Xie, S. Zhou, R. Yan, C. Lv, Y. Han, W. Zou, and X. Li, “Kespeech: An open source speech dataset of mandarin and its eight subdialects”, NeurIPS Datasets and Benchmarks 2021.

[2] https://www.data-baker.com/open source.html.

[3] Z. Wang, W. Ge, X. Wang, S. Yang, W. Gan, H. Chen, H. Li, L. Xie, X. Li, “Accent and Speaker Disentanglement in Many-to-many Voice Conversion”, ISCSLP 2021.

[4] Z. Yao, D. Wu, X. Wang, B. Zhang, F. Yu, C. Yang, Z. Peng, X. Chen, L. Xie, and X. Lei, “Wenet: Production oriented streaming and non-streaming end-to-end speech recognition toolkit”,  Interspeech 2021.

[5] Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T. Liu, “Fastspeech: Fast, robust and controllable text to speech”, NeurIPS 2019.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/45982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[网络工程师]-应用层协议-WWW与HTTP

1、WWW 万维网(World Wide Web,WWW)是一个规模巨大、可以互联的资料空间,该资料空间的资源依靠URL进行定位,通过HTTP协议传送给使用者,又由HTML进行文档的展现。由此可知,WWW的核心由三个主要标准构成&…

[附源码]SSM计算机毕业设计校园疫情防控管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【遥感图像:信息增强】

SDPNet: A Deep Network for Pan-Sharpening With Enhanced Information Representation (SDPNet:一种增强信息表示的泛锐化深度网络) 本文提出了一种基于表层和深层约束的全色锐化网络SDPNet,以解决全色锐化问题。聚焦于全色锐…

[附源码]计算机毕业设计springboot基于java的社区管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

第二证券|重磅利好!国家能源局发文,多股立马涨停!

今日早上,各位小伙伴有点跌懵了吧?不过,我大A盘中又支楞起来了,惊不惊喜?意不意外? 周一早盘,A股、港股直接跳空低开。A股顺利回补此前跳空高开的缺口,技能上现已没有跌落的空间。 …

广和通基于联发科技 T830平台的5G模组FG370率先通过CE认证测试

11月,广和通5G模组FG370率先通过CE认证测试,进而可用于无线宽带终端部署。5G模组FG370于9月启动研发,并于10月正式发布,随后仅短短一个月,便通过CE认证测试。至此,广和通5G模组FG370已进入工程送样阶段&…

快速复现 实现 facenet-pytorch 人脸识别 windows上 使用cpu实现 人脸对比

目录0 前言1 搭建环境与项目2 人脸预测与结果展示0 前言 这一次要复现的是人脸识别中的 facenet-pytorch 参考了: Pytorch 搭建自己的Facenet人脸识别网络(Bubbliiiing 深度学习 教程) https://gitee.com/xiaozhao123666/facenet-pytorch ht…

DPDK代码目录结构

DPDK功能结构 DPDK工程目录内容 dpdk-stable-18.11.11]# ls app buildtools devtools drivers GNUmakefile lib MAINTAINERS meson.build mk README usertools build config doc examples kernel license Makefile meson_opt…

Linux常用文本编辑器,及文本查看摘选的常用命令

Linux常用文本编辑器: Emacs:功能强大,门槛高,对新手不友好。 nano :优点是操作简单,缺点是无强大的命令支持复杂操作。 gedit :只能在有gnome的换图形化界面中使用 kedit : 只能在…

服务器冗余常见问题及解答汇总

对于众多组织来说,在灾难发生后能够访问数据至关重要。而硬件故障、应用程序故障、网络问题和其他此类问题会阻止服务器的正常运行,使用户无法访问服务和重要数据。这时企业可以通过采用服务器冗余来避免这些突发事件。下面是关于服务器冗余常见问题解答…

10【Mybatis延迟加载】

文章目录一、Mybatis 延迟加载1.1 延迟加载介绍1.1.1 搭建项目工程1)SQL脚本:2)引入依赖:3)MyBatis核心配置文件:4)实体类:5)dao接口:6)mapper.xm…

Java本地搭建实战毕设项目sprignboot电商书城管理系统源码

大家好啊,我是测评君,欢迎来到web测评。 本期给大家带来一套Java开发的sprignboot电商书城管理系统源码,包含前端界面、后台管理界面。适合拿来做毕业设计的同学。可以下载来研究学习一下。本期就把这套系统分享给大家。 技术架构 技术框架&…

Meta-learning

基本理解 meta learning翻译为元学习,也可以被认为为learn to learn 元学习与传统机器学习的不同在哪里? 元学习与传统机器学习, 这里举个通俗的例子,拿来给大家分享? 把训练算法类比成学生在学校学习,传…

Macleod中的偏振

我们用偏振来描述光波电场的方向。虽然是很复杂,但它的影响是完全明确和可计算的。图1显示了一个简单的长波通滤波器在斜入射时的计算性能,其曲线标记为p-偏振、s-偏振和平均极化。这些名称是什么意思? 图1. 在45条件下计算的600nm长波通滤…

华清远见(上海中心)22071

platform总线&#xff0c;三种匹配方式 一、设备名字匹配 设备文件代码>>> #include <linux/init.h> #include <linux/module.h> #include <linux/platform_device.h>//对设备信息进行填充 struct resource res[]{[0]{.start0x12345678,.end0x12…

服务网关之Spring Cloud Gateway

目录一、网关简介二、Gateway简介三、Gateway快速入门1、基础版2、增强版3、简写版四、Gateway核心架构1、基本概念2、执行流程五、断言1、内置路由断言工厂2、自定义路由断言工厂一、网关简介 大家都知道在微服务架构中&#xff0c;一个系统会被拆分为很多个微服务。那么作为客…

Linux Docker基础学习

Linux Docker基础学习Linux指令Linux安装Docker检查是否安装成功容器容器的创建删除运行停止容器端口转发查看容器提供的端口号Docker交互模式镜像镜像的拉取删除镜像的导入导出Dockerfile制作镜像上传镜像到DockerhubDockerfile文件详解FROMRUN指令镜像中添加文件&#xff08;…

运维监控系统PIGOSS BSM 对“实时数据复制”系统的监控管理

前言 随着应用信息化程度的不断深入&#xff0c;长期积累的业务数据变得价值连城。业务数据备份安全是业务连续性的重要保障&#xff1b; 而同时&#xff0c;业务数据也指导成为企业进行业务分析最有价值的科学依据。 所以&#xff0c;人们纷纷为业务系统建设容灾备份系统&…

【性能|优化】TB级flink任务报错分析:Could not compute the container Resource

文章目录一. 问题引入1. 场景描述2. 日志简析二. 初级问题分析与解决1. 问题分析1.1. yarn的调度器设置1.2. 程序设置2. 问题解决三. &#xff08;性能&#xff09;新的问题1. 问题描述2. 理想化的最优方案3. "PlanB"的解决方案四. 反思与迭代一. 问题引入 1. 场景描…

2022年工业与电力物联网技术现状分析

主要内容22年工业与电力物联网技术现状分析10大科技趋势达摩院 2022 十大科技趋势腾讯 融合2022年十大数字科技前沿应用趋势艾瑞咨询 2022年中国科技与IT十大趋势物联网技术物联网架构体系结构简介应用层2022年整体情况物联网平台及相关能力平台2022年整体情况物联网网络2022年…