TTS | 文本转语音中的声码器(Vocoder)

news2024/9/24 6:53:10

在这篇文章中,我想详细说明 语音合成(TTS) 中的 Vocoder 部分。

目录

1.声码器(Vocoder)的作用

2.经典的声码器

2.1.WaveNet

2.2.WaveGlow

2.3.MelGAN

2.4.VocGAN  

2.5.HiFi-GAN

参考文献

Reference


1.声码器(Vocoder)的作用

神经语音合成主要分为:

  • 文本中预测低分辨率表示,例如梅尔谱图或语言特征
  • 低分辨率表示中预测原始波形音频

一些常见的Deep Voice,Tacotron,Fastspeech的语音合成(TTS)模型是输入文本生成语音的过程,而声码器(Vocoder)是为了从原本的音频(.wav)转换为梅尔频谱图(mel-spectrogram)

为了在频域分析音频,可以执行短时傅里叶变换(STFT)来提取与频率分量相对应的特征点。其中,梅尔谱图可以通过使用与幅度分量对应的幅度值应用梅尔滤波器组并转换为梅尔尺度来获得。事实上,如果频率分量的幅度和相位值已知,STFT变换可以进行逆变换,因此可以在不丢失信息的情况下恢复原始语音。然而,对于通常预测和学习梅尔谱图的TTS模型来说,只能找到频率分量的幅度信息,要预测原始语音,必须预测相位信息,并且必须预测原始语音基于此。声码器执行此功能。

2.经典的声码器

神经声码器算法:使用深度学习的 Vocoder。目前主要使用的模型可以分为以下几种(有的论文分为3种,有的分为5种,本文根据【4】论文分类):

  • 基于自回归的(auto-regressive):WaveNet, WaveRNN
  • 基于流的(flows):WaveGlow, Parallel WaveNet
  • 基于生成对抗网络模型(GAN)的:MelGAN, Parallel WaveGAN
  • 基于VAE的
  • 基于扩散(diffusion)的:WaveGrid,DiffWave

 本文主要讲解一些经典的声码器(红色是务必知道的):

 

2.1.WaveNet

自回归生成模型 - WaveNet

WaveNet 利用 PixelCNN 这种自回归生成模型,在语音领域合成的语音质量比现有的串联和参数模型学习到的语音质量要好得多。然而,由于AR模型的性质,存在一个缺点,即需要花费太多时间进行学习和推理,并且已经进行了研究来弥补这一点。

2.2.WaveGlow

基于流的生成模型

随着基于流的模型(例如 Parallel WaveNet [6] 和 WaveGlow [7])的出现,合成语音的质量和速度被捕获。然而,WaveGlow 的一个缺点是模型需要太多参数。

2.3.MelGAN

生成对抗网络模型(GAN)

为了改善上述模型的缺点,合成语音的质量可能会有所下降,但可以有效提高速度和参数数量的 GAN 模型的研究。

2.4.VocGAN  

生成对抗网络模型(GAN)

在声码器Melgan基础上提出的多刻度的声码器VocGan,解决了Melgan合成音质不高的问题。可以保持melgan合成速度的前提下提高音质,其中Loss的设计可以借鉴到其它声码器中,比如multiband系列声码器。

2.5.HiFi-GAN

生成对抗网络模型(GAN)

HiFi-GAN改善了之前的基于GAN的工作中语音质量较差的缺点,兼具了高计算效率和语音质量,

参考文献

【1】[정리] Neural Vocoder에 대해 알아보자

【2】딥러닝을 활용한 음성합성(TTS) 훑어보기(Vocoder) (tistory.com)

【3】Text To Speech — Foundational Knowledge (Part 2) | by Aaron Brown | Towards Data Science 

【4】A Survey on Neural Speech Synthesis:2106.15561.pdf (arxiv.org)

【5】好用的语音合成声码器,你知道吗?(一)-云社区-华为云 (huaweicloud.com) 

Reference

[1] Kong, Jungil, Jaehyeon Kim, and Jaekyoung Bae. "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis." arXiv preprint arXiv:2010.05646 (2020).

[2] Ping, Wei, et al. "Deep voice 3: Scaling text-to-speech with convolutional sequence learning." arXiv preprint arXiv:1710.07654 (2017).

[3] Shen, Jonathan, et al. "Natural tts synthesis by conditioning wavenet on mel spectrogram predictions." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

[4] librosa.org/doc/main/generated/librosa.griffinlim.html 

[5] Oord, Aaron van den, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).

[6] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech synthesis." International conference on machine learning. PMLR, 2018.

[7] Prenger, Ryan, Rafael Valle, and Bryan Catanzaro. "Waveglow: A flow-based generative network for speech synthesis." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.

[8] Kumar, Kundan, et al. "Melgan: Generative adversarial networks for conditional waveform synthesis." arXiv preprint arXiv:1910.06711 (2019).

[9] Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks." arXiv preprint arXiv:1909.11646 (2019).

[10] Yang, Jinhyeok, et al. "VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network." arXiv preprint arXiv:2007.15256 (2020).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/758358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通讯录(纯C语言实现)

相信大家都有过通讯录,今天我来带大家实现以下最简单的通讯录,通过本篇文章,相信可以让大家对C语言有进一步的认识。 话不多说,我们先放函数的实现 #define _CRT_SECURE_NO_WARNINGS 1 #include "Contact.h"int Chea…

Python 算法基础篇:什么是算法及其重要性

Python 算法基础篇:什么是算法及其重要性 引言 1. 什么是算法?2. 算法的重要性 a ) 提高程序性能 b ) 解决复杂问题 c ) 优化资源利用 3. 算法实践与 Python a ) 线性搜索算法 b ) 快速排序算法 结论 引言 算法是计算机科学中的基础概念之一&#xff0…

程序执行过程发生了什么

程序执行过程发生了什么 预处理(Preprocessing): 预处理包括宏替换、条件编译、文件包含、去除注释等工作。 此时产生的是 .i文件,这是一个文本文件。 linux生成预处理文件命令: gcc -E test.c -o test.i上述命令中…

天眼使用指南-威胁文件鉴定器

包含了静态检测, 主要负责对传感器,手东提交url等多种数据来源的一些通道,过来的一些样本进行检测。 检测过程:威胁情报的匹配,沙箱检测。及时发现恶意行为和文件进行告警,传给天眼分析平台统一的分析。提…

技能学习机器人代码解析

技能学习机器人代码解析 promt部分生成取文本摘要再次提炼上述文本输出需要学习的内容(学习路线)输出学习视频URL封装好每一个promt 主体部分输出 promt部分 生成取文本摘要 再次提炼上述文本 通过上面的promt生成文本摘要后,在我们生成的技…

Redis对象结构 — RedisObject

目录 Redis 键值对数据库的全过程​编辑 RedisObject结构体 Redis的encoding编码方式 type对应的数据对象类型 Redis 键值对数据库的全过程 redisDb 结构,表示 Redis 数据库的结构,结构体里存放了指向了 dict 结构的指针;dict 结构&#…

哈希结构(详解)

目录 哈希表 哈希表原理 散列函数 哈希冲突和处理的办法 哈希集合 哈希集合的实现 哈希映射 哈希映射的基本操作 哈希映射的实现 哈希表 散列表(Hash table,也叫哈希表),是根据关键码值(Key)而直接进行访问的数据结构 …

dede去掉列表推荐文档的粗体字效果的修改方法

这样看起来多么的不美观了&#xff0c;现在我们本帖教程就是去掉列表这个粗体字效果。 DedeCMSv5.6具体操纵方法如下&#xff1a; 找到 /include/arc.listview.class.php 打开找到743 - 746 行下列代码&#xff1a; if(ereg(c,$row[flag])) {$row[title] "<b>"…

2023.7.15排序算法合集

排序算法合集 一、概述二、排序算法1.冒泡排序2.插入排序3.选择排序4.快速排序5.归并排序6.计数排序 三、完整源码 一、概述 排序算法是计算机科学中的一类常见算法&#xff0c;用于将一组数据按照特定的顺序进行排列&#xff1b;排序算法的应用非常广泛&#xff0c;涉及到数据…

代码随想录第三十九天||● 62.不同路径 ● 63. 不同路径 II

● 62.不同路径 这道题注意&#xff1a;初始化不仅是可以初始化一个值&#xff0c;也可以初始化整个一行或者一列值 这道题递推公式好想&#xff0c;就是初始化不太好想 机器人从(0 , 0) 位置出发&#xff0c;到(m - 1, n - 1)终点。 按照动规五部曲来分析&#xff1a; 确…

用 pesq 给 torchaudio 读取的音频数据打分

用torchaudio读取的音频文件&#xff0c;在输入pesq之前需要进行格式处理与转换。 import torchaudio from pesq import pesq# 读取音频文件 audio_clean, src torchaudio.load(./audio/NOIZEUS/clean/sp01.wav) audio_0dB, sr0 torchaudio.load(./audio/NOIZEUS/bable/0dB/…

算法:动态规划

目录 &#x1f349;什么是动态规划&#xff1f; 1&#xff09;题目解析&#xff0c;&#xff08;我们以第N个泰波那契数来进行举例&#xff09; 2&#xff09;解读算法原理 &#x1f349;第N个泰波那契数的代码编写 &#x1f349;空间优化 &#x1f349;什么是动态规划&am…

全国青少年信息素养大赛参赛练习题2

海龟画图: 漂亮的螺旋线 import turtle as tt.bgcolor("black") n=6 colors = [red, green, blue, yellow,orange,purple]for x in range(160):t.pencolor(colors[x%6])t.forward(x*5/n+x)t.left(360/n+1)t.width(x*n/200) t.up() t.left(-90) t.forward(50) t.d…

什么是番茄工作法?

基本概念 番茄工作法是由弗朗西斯科西里洛于1992年创立的一种相对于GTD更微观的时间管理方法&#xff0c;旨在帮助使用者尽可能保持专注以及创造力&#xff0c;从而更快地完成工作并减少心理疲劳。 使用番茄工作法&#xff0c;首先要选择一个待完成的任务&#xff0c;然后将番茄…

5.2 Python高级特性之---切片迭代

一、 切片 一般用于提取指定区间内的内容&#xff0c;常用于&#xff1a;str、list、tuple等类型的的局部变量&#xff0c;如下为具体案例1、 【列表切片】 res_list [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]1&#xff09; 无步长: …

Redis的数据淘汰策略了解吗?

面试官&#xff1a;Redis数据淘汰策略了解吗&#xff1f; 我&#xff1a;知道。嗯~~ 当Redis中的内存不够用时&#xff0c;此时再向Redis中添加新的key&#xff0c;Redis就会按照某种规则将内存中的数据删除掉。这种数据的删除规则被称为内存的淘汰策略。 面试官&#xff1a;…

【机器学习】吴恩达课程1-Introduction

一、机器学习 1. 定义 计算机程序从经验E中学习&#xff0c;解决某一任务T&#xff0c;进行某一性能P&#xff0c;通过P测定在T上的表现因经验E而提高。 2. 例子 跳棋程序 E&#xff1a;程序自身下的上万盘棋局 T&#xff1a;下跳棋 P&#xff1a;与新对手下跳棋时赢的概…

深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等

高性能的 ReplayBuffer 应该满足以下三点: 随机采样 random sample 的速度要快,尽可能加快读取速度(最为重要)减少保存的数据量,增加吞吐效率(对分布式而言重要)保存能简化计算的变量(对特定算法而言重要)为了达成以上要求,我建议做出以下修改: 把 Replay Buffer 的…

【从零到Offer】反射那些事

什么是反射&#xff1f; ​ 反射简单来说&#xff0c;就是在代码运行期间&#xff0c;通过动态指定任意一个类&#xff0c;从而构建对象&#xff0c;并了解该类的成员变量和方法&#xff0c;甚至可以调用任意一个对象的属性和方法。以String对象为例子&#xff0c;传统构造方式…