Speech | 语音中的风格迁移论文及总结[20231023更新版]

news2024/10/5 14:25:16

2018_Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

1.样式标记:端到端语音合成中的无监督样式建模、控制和传输

paper:Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis (arxiv.org)

code:jinhan/tacotron2-gst: Tacotron2 with Global Style Tokens (github.com)

摘要

在这项工作中,我们提出了“全局风格迁移”(GST),这是一个在Tacotron(最先进的端到端语音合成系统)中联合训练的嵌入库。嵌入在没有明确标签的情况下进行训练,但学会了对大范围的声学表现力进行建模。商品及服务税会带来一系列丰富的重要结果。它们生成的软可解释“标签”可用于以新颖的方式控制合成,例如改变速度和说话风格 - 独立于文本内容。它们还可用于风格转换,在整个长格式文本语料库中复制单个音频剪辑的说话风格。当对嘈杂的、未标记的发现数据进行训练时,GST 学会分解噪声和说话人身份,为高度可扩展但强大的语音合成提供了一条途径。

GST model包含了一个 reference encoder, style attention, style embedding, and sequence-to-sequence (Tacotron) model.

在训练时

Skerry-Ryan等人提出的参考编码器能将可变长度音频信号的前音压缩成固定长度的向量,我们称之为参考嵌入。在训练过程中

- 参考嵌入被传递到风格标记层,将其作为注意力模块的查询向量。在这里,注意力不是用来学习对齐。相反,它学习的是之间的相似性度量。随机初始化嵌入库中的每个标记之间的相似度量。这组嵌入库,我们也称之为全局样式标记、GST 或标记嵌入,在所有训练序列中共享。
- 注意力模块会输出一组组合权重,它代表了每种风格标记对编码参考嵌入的贡献。加权之和,我们称之为风格嵌入、在每个时间步传递给文本编码器进行调节。
- 风格标记层与模型的其他部分共同训练,仅由重建驱动。
模型的其他部分共同训练,只受来自 Tacotron 解码器的重构损失的驱动。因此,GST 不需要任何
明确的风格或韵律标签。

推理时

GST 架构旨在实现强大而灵活的在推理模式下进行控制。

在这种模式下,信息可以以两种方式之一流过模型:
1. 我们可以直接将文本编码器设定为某些标记的条件,如图 1 中推理模式图的右侧所示("以某些标记为条件")。这样就可以在没有参考信号的情况下进行样式控制和操作。
2. 我们可以输入不同的音频信号(其转录本不需要与要合成的文本相匹配)来实现风格转移。
图 1 中推理模式图的左侧描述了这一点(以音频信号为条件")。

2018_Text-Predicted Global Style Token (TP-GST):PREDICTING EXPRESSIVE SPEAKING STYLE FROM TEXT IN END-TO-END SPEECH SYNTHESIS

2.从端到端语音合成中的文本预测富有表现力的说话风格

paper:1808.01410.pdf (arxiv.org)

 摘要

全局样式令牌 (GST) 是最近提出的一种学习高维数据的潜在解开表示的方法。GST可以在Tacotron中使用,Tacotron是一种最先进的端到端文本到语音合成系统,以发现说话风格变化的表现因素。在这项工作中,我们介绍了文本预测全局风格令牌(TP-GST)架构,该架构将GST组合权重或风格嵌入视为Tacotron中的“虚拟”说话风格标签。TP-GST仅从文本中学习预测文体渲染,在训练期间既不需要明确的标签,也不需要辅助输入进行推理。我们表明,当在表达性语音数据集上进行训练时,我们的系统会生成的音频比两个最先进的基线模型具有更多的音高和能量变化。我们进一步证明,TP-GST可以在去除背景噪声的情况下合成语音,并在人类评估的听众偏好有声读物任务上以积极的结果证实这些分析。最后,我们证明了多说话人TP-GST模型成功地分解了说话人的身份和说话风格。我们提供了一个网站,其中包含每个发现的音频样本。

2022_Disentangling style and speaker attributes for TTS style transfer

3.语音合成中基于风格和说话人成分解耦的风格迁移

[2201.09472] Disentangling Style and Speaker Attributes for TTS Style Transfer (arxiv.org)

 摘要

端到端神经 TTS 在语音风格转换方面表现出改进的性能。但是,改进仍然受到目标风格和说话人的可用训练数据的限制。此外,当经过训练的 TTS 尝试将语音从具有未知任意风格的新说话人转移到目标风格时,会观察到性能下降。在本文中,我们提出了一种在不相交的多风格数据集上进行可见和看不见的风格迁移训练的新方法,即记录不同风格的数据集,一个说话者在多个话语中记录一个单独的风格。首先引入了逆自回归流(IAF)技术,以改进学习表达风格表示的变分推理。然后开发一个说话人编码器网络来学习判别性说话人嵌入,该网络与其他神经TTS模块联合训练。所提出的看得见和看不见的风格迁移方法经过了六个专门设计的目标的有效训练:重建损失、对抗性损失、风格失真损失、周期一致性损失、风格分类损失和说话人分类损失。实验客观和主观地证明了所提出的方法对看得见和看不见的风格迁移任务的有效性。我们的方法的性能优于现有技术的其他四个参考系统,并且比该方法更强大。

参考文献

【1】论文推介:语音合成中基于风格和说话人成分解耦的风格迁移 - 知乎 (zhihu.com)

References

Y. Wang, D. Stanton, Y. Zhang, R. Skerry-Ryan, E. Battenberg, J. Shor, Y. Xiao, F. Ren, Y. Jia, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” International Conference on Machine Learning, 2018. [Online]. Available: https://arxiv.org/abs/1803.09017

H.-S. Choi, J. Lee, W. Kim, J. Lee, H. Heo, and K. Lee, “Neural analysis and synthesis: Reconstructing speech from self-supervised representations,” Advances in Neural Information Processing Systems, vol. 34, pp. 16 251–16 265, 2021.

[2] Y. Ren et al., “Fastspeech 2: Fast and high-quality end-to-end text to speech,” in Proc. Int. Conf. Learn. Representations, 2020.

[3] Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “Fast-speech: Fast, robust and controllable text to speech,” The International Conference on Neural Information Processing Systems (NeurIPS), pp. 3165–3174, 2019.

[4] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan, E. Battenberg, J. Shor, Y. Xiao, Y. Jia, F. Ren, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in the International Conference on Machine Learning (ICML). PMLR, 2018, pp. 5180–5189.

[5] K. Akuzawa, Y. Iwasawa, and Y. Matsuo, “Expressive Speech Synthesis via Modeling Expressions with Variational Autoencoder,” in The Annual Conference of the International Speech Communication Association (Interspeech), 2018, pp. 3067–3071.

[6] S. Pan and L. He, “Cross-Speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis,” in The Annual Conference of the International Speech Communication Association (Interspeech), 2021, pp. 4678–4682.

[7] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio et al., “Tacotron: Towards end-to-end speech synthesis,” in The Annual Conference of the International Speech Communication Association (Interspeech), 2017, pp. 4006–4010.

[8] R. Liu, B. Sisman, G. Gao, and H. Li, “Expressive tts training with frame and style reconstruction loss,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 1806–1818, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1124548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OSPF的网络类型

1.3配置OSPF的网络类型 1.3.1实验3&#xff1a;配置P2P网络类型 实验需求 实现单区域OSPF的配置实现通过display命令查看OSPF的网络类型 实验拓扑 实验拓扑如图1-11所示 图1-11 配置P2P网络类型 实验步骤 步骤1&#xff1a;[1] 配置IP地址 路由器R1[2] 的配置 <Huawe…

基于SpringBoot的学生班级考勤管理系统

基于SpringBootVue的学生班级考勤管理系统的设计与实现~ 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBootMyBatisVue工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 管理员界面 课程管理 班级管理 学生管理 学生界面 考勤管理 摘要 学生…

Deployments

Deployments 一个 Deployment 为 Pod 和 ReplicaSet 提供声明式的更新能力。 你负责描述 Deployment 中的目标状态&#xff0c;而 Deployment 控制器&#xff08;Controller&#xff09; 以受控速率更改实际状态&#xff0c; 使其变为期望状态。你可以定义 Deployment 以创建新…

项目快讯|深汕特别合作区气膜羽毛球馆正式开工

“永不坍塌”的气膜运动馆 “安全”是每个行业可持续发展的核心原则、是每个企业长久生存的重要底线、是每个人追求幸福生活的基本保障。 任何新行业、新技术、新材料、新工艺的发展都需要逐步规范化的企业标准、行业标准、国家标准。 气承膜技术发展的初期&#xff0c;面临行业…

代码随想录 Day26 贪心算法01 中 LeetCode T376 摆动序列

LeetCode T376 摆动序列 题目链接:376. 摆动序列 - 力扣&#xff08;LeetCode&#xff09; 前言 这题我们看到可以删除数组中的元素也可以不删除可能就吓到了,其实是这道题可以用动态规划或者贪心的策略去解决问题,这里我们还是用贪心的解法去解决问题,具体动态规划的思路可以…

【LittleXi】地址空间三题

【LittleXi】地址空间三题 问题 给定这个结构体 struct {bool s;short b;const char *str "AABB";int i; } a[2];计算这三个输出 printf("%d\n", (char *)(&(a[0].i)) - (char *)(&(a[0].s))); printf("%x\n", (&(a[1].i)) - (…

为什么红黑树比AVL树效率高?

文章目录 前言红黑树的提出都知道的几个定义理解红黑树的高效总结 前言 红黑树为什么这么火呢&#xff1f;大家应该都很清楚&#xff0c;面试的时候不管三七二十一&#xff0c;就问你&#xff1a;什么是红黑树&#xff0c;为什么要用红黑树&#xff1f;就好像他很懂&#xff0…

Modeling Deep Learning Accelerator Enabled GPUs

Modeling Deep Learning Accelerator Enabled GPUs 发表在 ISPASS 2019 上。文章研究了 NVIDIA 的 Volta 和 Turing 架构中张量核的设计&#xff0c;并提出了 Volta 中张量核的架构模型。 基于 GPGPU-Sim 实现该模型&#xff0c;并且支持 CUTLASS 运行。发现其性能与硬件非常吻…

git log 命令详解

测试仓库 asdf 常用参数 查询指定目录 git -C /Users/yanlp/workspace/asdf log 限制显示提交数量 git log -n 3 限制提交人|邮箱 git log --authorEdwin Kofler | git log --authoredwinkofler.dev 限制一个月内的提交git log --since1.month.ago | git log --since2023-0…

1024程序员狂欢节特辑 | ELK+ 协同过滤算法构建个性化推荐引擎,智能实现“千人千面”

专栏集锦&#xff0c;大佬们可以收藏以备不时之需 Spring Cloud实战专栏&#xff1a;https://blog.csdn.net/superdangbo/category_9270827.html Python 实战专栏&#xff1a;https://blog.csdn.net/superdangbo/category_9271194.html Logback 详解专栏&#xff1a;https:/…

推荐一款支持异步批量下载图片的chrome插件——图片助手(ImageAssistant) 批量图片下载器

https://chrome.google.com/webstore/detail/imageassistant-batch-imag/dbjbempljhcmhlfpfacalomonjpalpko/related?hlzh-CNhttps://chrome.google.com/webstore/detail/imageassistant-batch-imag/dbjbempljhcmhlfpfacalomonjpalpko/related?hlzh-CN 安装后直接点击 会根据…

第五章Maven依赖的特性-进阶篇

文章目录 第一节 重新认识MavenMaven 的完整功能项目管理功能的具体体现 POM 的四个层次超级 POM父 POM有效 POM概念查看有效 POM 小结 属性的声明与引用help 插件的各个目标使用 help:evaluate 查看属性值通过 Maven 访问系统属性Java 系统属性一览使用 Maven 访问系统属性 访…

Django 注册及创建订单商品

注册功能的实现 user/views from rest_framework.generics import GenericAPIView from rest_framework.views import APIViewfrom apps.user.models import User from apps.user.serializers import UserSerializer from utils import ResponseMessage from utils.jwt_auth …

Unity OnGUI调试工具

背景 在产品开发过程中调试数据是必不可少的过程之一&#xff0c;那么涉及到频繁的设置数据、运行unity等一系列繁琐的操作&#xff0c;有没有更好的办法呢&#xff1f;答案是肯定有更好的办法。这里我所用到的是unity自带的OnGUI相关的工具可以实时的更改数据调试。 代码 usi…

有没有人声和背景音乐分离的神器?

做视频剪辑&#xff0c;二次创作的朋友&#xff0c;需要去除视频中的背景音乐&#xff0c;保留人声&#xff1b;或者去除人声&#xff0c;保留背景音乐。随着用户需求的增多&#xff0c;科技的发展&#xff0c;让我们能通过智能的人声分离软件来实现&#xff0c;下面就来看看如…

基于AT89C51+DS1302+LCD1602的实时时钟proteus仿真设计

一、DS1302简介&#xff1a; DS1302 可慢速充电实时时钟芯片包含实时时钟/日历和 31 字节的非易失性静态 RAM。它经过一个简 单的串行接口与微处理器通信。实时时钟/日历可对秒&#xff0c;分&#xff0c;时&#xff0c;日&#xff0c;周&#xff0c;月&#xff0c;和年进行计数…

无人驾驶智能改造机场“人货场”

机场作为国家的门户&#xff0c;承载着众多旅客与货物的流动&#xff0c;其运行效率直接关系到整个国家的发展和繁荣。随着科技的进步&#xff0c;无人驾驶技术日益成熟&#xff0c;智能交通革新将成为现实&#xff0c;将其应用于机场会为我们带来更加便捷、高效的出行体验&…

【Javascript】数组练习(在排好序的数组⾥,按照⼤⼩顺序插⼊数据)

var array[1,4,5,7,9,17]; console.log(array);比如要插入一个数16 var array[1,4,5,7,9,17];var num16; var indexnull; var i; for(i0;i<array.length;i){if(array[i]<num){indexi;} } console.log(index);首先通过循环找出最后一个比自定义的num小的值&#xff0c;并…

Vue.js中的高级概念:渲染函数和渲染无内容组件的深度探讨

文章目录 前言渲染函数&#xff08;Render Functions&#xff09;示例使用场景渲染无内容组件&#xff08;Renderless Components&#xff09;示例使用场景总结 ✍创作者&#xff1a;全栈弄潮儿 &#x1f3e1; 个人主页&#xff1a; 全栈弄潮儿的个人主页 &#x1f3d9;️ 个人…

基于springboot实现地方废物回收机构平台管理系统【项目源码+论文说明】计算机毕业设计

基于springboot实现地方废物回收机构平台管理系统演示 摘要 网络的广泛应用给生活带来了十分的便利。所以把地方废物回收机构管理与现在网络相结合&#xff0c;利用java技术建设地方废物回收机构管理系统&#xff0c;实现地方废物回收机构的信息化。则对于进一步提高地方废物回…