TTS | 语音合成论文概述

news2025/1/22 8:31:32
  1. 综述系列

2021_A Survey on Neural Speech Synthesis

论文:2106.15561.pdf (arxiv.org)

论文从两个方面对神经语音合成领域的发展现状进行了梳理总结(逻辑框架如图1所示):

核心模块:分别从文本分析(textanalysis)、声学模型(acoustic model)、声码器(vocoder)、完全端到端模型(fully end-to-end model)等方面进行介绍。

进阶主题:分别从快速语音合成(fast TTS)、低资源语音合成(low-resourceTTS)、鲁棒语音合成(robust TTS)、富有表现力的语音合成(expressive TTS)、可适配语音合成(adaptive TTS)等方面进行介绍。

TTS 核心模块

研究员们根据神经语音合成系统的核心模块提出了一个分类体系。每个模块分别对应特定的数据转换流程:

1)文本分析模块将文本字符转换成音素或语言学特征;

2)声学模型将语言学特征、音素或字符序列转换成声学特征;

3)声码器将语言学特征或声学特征转换成语音波形;

4)完全端到端模型将字符或音素序列转换成语音波形。

2021_A Survey on Audio Synthesis and Audio-Visual Multimodal Processing(音频合成与视听多模态处理综述)

论文:2108.00443.pdf (arxiv.org)

  1. SOTA

2022_NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

论文:2205.04421v2.pdf (arxiv.org)

  1. TTS经典论文

2016_WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

论文:1609.03499.pdf (arxiv.org)

【3,4】本文的四大特点如下:

  1. WaveNet 直接生成自然的语音波形

  1. 提出了一种可以学习和生成长语音波形的新结构。

  1. 训练的模型可以产生各种特征语音,因为状态建模。

  1. 它在各种语音生成(包括音乐)中也表现出色。

WaveNet模型结构

WaveNet 具有 30 个救援块的结构。 将整数数组作为输入,从第一个区域块到第 30 个区域性块依次进入。 从每个区域块生成的输出通过 Skip 连接合并,并将其用作模型的输出。

2018_NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

论文:2108.00443.pdf (arxiv.org)

随着深度学习方法(如 WaveNet 和 Tacotron)的应用,TTS (TTS) 发展迅速。 因此,现在无需复杂的工作流程即可训练数据,从而从文本中生成高质量的语音【1,2】

论文的三大特点如下:

  1. 基于 Attention 的 Seq-to-Seq提出了TTS模型结构。

  1. <端到端模型>,只需对<语句、语音和对的数据即可进行训练,无需执行任何操作

  1. 在语音合成质量测试 (MOS) 中得分较高。合成质量好。

2017.3_Deep Voice: Real-time Neural Text-to-Speech

论文:https://arxiv.org/abs/1702.07825

2017.5_Deep Voice 2: Multi-Speaker Neural Text-to-Speech

2018_DEEP VOICE 3: SCALING TEXT-TO-SPEECH WITH CONVOLUTIONAL SEQUENCELEARNING

论文:

参考文献

【1】[논문리뷰]Tacotron2 - 새내기 코드 여행 (joungheekim.github.io)

【2】[Speech Synthesis] Tacotron 논문 정리 (hcnoh.github.io)

【3】[논문리뷰]WaveNet - 새내기 코드 여행 (joungheekim.github.io)

【4】Understanding WaveNet architecture | by Satyam Kumar | Medium

References

[1] Sercan Ömer Arik, Mike Chrzanowski, Adam Coates, Gregory Frederick Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Y. Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi: Deep Voice: Real-time Neural Text-to-Speech. ICML 2017: 195-204

[2] Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan O.Arık, Ajay Kannan, Sharan Naran: DEEP VOICE 3: 2000-SPEAKER NEURAL TEXT-TO-SPEECH. CoRR abs/1710.07654 (2017)

[3] Sercan Ömer Arik, Gregory F. Diamos, Andrew Gibiansky, John Miller, Kainan Peng, Wei Ping, Jonathan Raiman, Yanqi Zhou: Deep Voice 2: Multi-Speaker Neural Text-to-Speech. CoRR abs/1705.08947 (2017)

[4] Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, Koray Kavukcuoglu: WaveNet: A Generative Model for Raw Audio. CoRR abs/1609.03499 (2016)

[5] Soroush Mehri, Kundan Kumar, Ishaan Gulrajani, Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron C. Courville, Yoshua Bengio: SampleRNN: An Unconditional End-to-End Neural Audio Generation Model. CoRR abs/1612.07837 (2016)

[6] Sotelo, J., Mehri, S., Kumar, K., Santos, J. F., Kastner, K., Courville, A., & Bengio, Y. (2017). Char2Wav: End-to-end speech synthesis.

[7] Yuxuan Wang, R. J. Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc V. Le, Yannis Agiomyrgiannakis, Rob Clark, Rif A. Saurous: Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model. CoRR abs/1703.10135 (2017)

[8] Wang, W., Xu, S., & Xu, B. (2016). First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention. INTERSPEECH.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/397402.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux内核一】在Linux系统下网口数据收发包的具体流向是什么?

在TCP/IP网络分层模型里&#xff0c;整个协议栈被分成了物理层、链路层、网络层&#xff0c;传输层和应用层。物理层对应的是网卡和网线&#xff0c;应用层对应的是我们常见的Nginx&#xff0c;FTP等等各种应用。Linux实现的是链路层、网络层和传输层这三层。 在Linux内核实现中…

Linux(Centos)安装Minio集群

目录1&#xff1a;简介2&#xff1a;功能与集成3&#xff1a;架构4&#xff1a;搭建集群4.1&#xff1a;挂载磁盘4.1.1&#xff1a;要求4.1.2&#xff1a;创建挂载目录4.1.3&#xff1a;注意&#xff1a;需要将新建的目录挂在到对应的磁盘下,磁盘不挂载好&#xff0c;集群启动会…

Tomcat 并发达太大导致系统崩溃解决方案

当 Tomcat 并发达太大导致系统崩溃时&#xff0c;可以通过以下几个步骤来解决这个问题&#xff1a; 1、分析原因 首先需要分析系统崩溃的原因&#xff0c;是因为Tomcat的性能瓶颈还是因为代码的Bug&#xff0c;或者是系统资源不足等等。 2、优化代码 如果是代码的问题&…

Unity Lighting -- 为场景烘焙lightmap

烘焙光照是什么&#xff1f; Unity中有两种不同的光照方式&#xff1a;实时光照和烘焙光照。 实时光照 Unity会在运行时实时计算光照。实时光源每一帧都会进行计算&#xff0c;这意味着它们对于场景中移动的角色和物体的响应性非常好&#xff0c;但它的开销也很大。 烘焙光照…

DJ1-3 操作系统引论

目录 操作系统的结构设计 1. 无结构操作系统 2. 模块化 OS 结构 3. 分层式 OS 结构 4. 微内核 OS 结构 操作系统的结构设计 操作系统是一个大型系统软件&#xff0c;其结构已经历了四代的变革&#xff1a; 第一代 OS 是无结构第二代 OS 采用模块式结构第三代是层次式结构…

韩国绿芯1~16通道触摸芯片型号推荐

随着技术的发展&#xff0c;触摸感应技术正日益受到更多关注和应用&#xff0c;目前实现触摸感应的方式主要有两种&#xff0c;一种是电阻式&#xff0c;另一种是电容式。电容式触摸具有感应灵敏、功耗低、寿命长等特点&#xff0c;因此逐步取代电阻式触摸&#xff0c;成为当前…

炫龙游戏本Win10系统总是蓝屏崩溃怎么办?

炫龙游戏本Win10系统总是蓝屏崩溃怎么办&#xff1f;有用户使用的炫龙游戏本最近总是在运行的过程中出现自动蓝屏的情况&#xff0c;有的时候自己还在操作电脑&#xff0c;而屏幕却蓝屏了&#xff0c;导致自己的工作被中断了。那么这个情况要怎么去进行修复呢&#xff1f;来看看…

关于centos虚拟机设置固定ip、设置后无法上网、宿主机无法ping通的解决方案

一.centos设置固定ip 1.虚拟机设置 编辑→虚拟网络编辑器&#xff0c;选择NAT模式。 2.NAT设置&#xff0c;设置网关&#xff08;前面三个需要与你设置的静态虚拟机ip一致&#xff08;我的是192.168.2.40&#xff09;&#xff09;。 3.虚拟机设置为NAT模式 4.设置虚拟…

数据结构2——线性表1:基本概念

1、线性表的概念 线性表是具有相同特性的数据元素的一个有限序列。就像用细线串珠子&#xff0c;一个接着一个串起来。 2、线性表的逻辑特征 ① 在非空的线性表中有且只有一个开始结点a1&#xff0c;他没有直接前驱&#xff0c;而仅有一个直接后继a2&#xff0c;相当于a1是…

关于JS中this对象指向问题总结

一、前言 关于JS中this对象指向问题&#xff0c;相信做过项目的小伙伴多多少少都会遇到过&#xff0c;明明感觉代码写的没问题&#xff0c;可是运行的时候&#xff0c;就会报错&#xff0c;比如报错 xxx is not a function。 我最近也遇到了&#xff0c;百度学习了不少前辈对于…

Codeforces Round 703 (Div. 2)(A~D)

A. Shifting Stacks给出一个数组&#xff0c;每次可以将一个位置-1&#xff0c;右侧相邻位置1&#xff0c;判断是否可以经过若干次操作后使得数列严格递增。思路&#xff1a;对于每个位置&#xff0c;前缀和必须都大于该位置应该有的最少数字&#xff0c;即第一个位置最少是0&a…

Vue 2 组件发布到 npm

本教程使用官网教程中指示的 Rollup 作为打包工具&#xff0c;并尽量遵循官网教程的指引进行实践&#xff1b;组件项目的初始化创建方式亦是使用官网提倡的 Vue CLI 工具简便生成。另外组件打包发布到 npm 还可以使用 webpack 作为打包工具&#xff0c;但不在本文讨论范围。 前…

YOLOv5s网络模型讲解(一看就会)

文章目录前言1、YOLOv5s-6.0组成2、YOLOv5s网络介绍2.1、参数解析2.2、YOLOv5s.yaml2.3、YOLOv5s网络结构图3、附件3.1、yolov5s.yaml 解析表3.2、 yolov5l.yaml 解析表总结前言 最近在重构YOLOv5代码&#xff0c;本章主要介绍YOLOv5s的网络结构 1、YOLOv5s-6.0组成 我们熟知YO…

openFoam中cellZone的使用及编程

简介 通常在流体计算中需要对某个特定区域进行处理&#xff08;比如添加源项,可参考这篇文章OpenFOAM编程&#xff1a;VOF法与多孔介质模型相结合)&#xff0c;这是就需要用到cellZone. 通常有两种产生cellZone的方式&#xff1a; &#xff08;1&#xff09;从其他划分网格的…

一文带你看透通用文字识别 OCR

什么是 OCR&#xff1f; OCR技术指的是 Optical Character Recognition 或光学文字识别技术&#xff0c;即从图像中识别文字&#xff0c;并将其转换为电子文本或机器可读格式。它可以被广泛应用于图像处理&#xff0c;文字处理&#xff0c;自然语言处理&#xff0c;计算机视觉…

Kubernetes学习(五)持久化存储

Volume 卷 容器中的文件在磁盘上是临时存放的&#xff0c;这给容器中运行的特殊应用带来了一些问题。首先&#xff0c;当容器崩溃时&#xff0c;kubectl将重新启动容器&#xff0c;容器中的文件将会丢失--应为容器会以干净的状态重建。其次&#xff0c;当在一个Pod中运行多个容…

【算法题目】【Python】彻底刷遍DFS/BFS的算法题目

文章目录参考资料树的前序、中序、后序遍历树的层次遍历回溯与剪枝组合组合总和 III电话号码的字母组合组合总和组合总和 II参考资料 参考这里面的一些讲解&#xff1a; https://github.com/youngyangyang04/leetcode-master。 树的前序、中序、后序遍历 看完 树的种类 之后…

网络 | UDP与TCP协议讲解 | TCP可靠性是怎样实现的?

文章目录前置知识查看网络状态的工具查看进程idUDP协议协议格式UDP只有接收缓冲区基于UDP的应用层协议TCP协议流的理解协议格式确认应答机制缓冲区序号的作用流量控制超时重传机制6位标志位紧急数据的处理三次握手listen的第二个参数全连接和半连接队列都维护了什么信息&#x…

史上最全若依管理系统修改页面标题和logo

整理若依框架去除 若依标题、logo及其他内容。一&#xff1a;网页上的logo进入ruoyi-ui --> public --> favicon.ico&#xff0c;把这个图片换成你自己的logo二&#xff1a;页面中的logo进入ruoyi-ui --> src --> assets --> logo --> logo.png&#xff0c;把…

Git版本控制工具(详解)

Git版本控制工具 Git常见命令速查表 集中式版本控制 cvs和svn都是属于集中式版本控制系统 他们的主要特点是单一的集中管理服务器 保存所有文件的修订版本协同开发人员通过客户端连接到这台服务器 取出最新的文件或者提交更新 优点每个人都可以在一定程度上看到项目中的其他…