本文主要是语音合成模型实验结果经验总结!!
首先列出实验过的所有模型
- Fastspeech&Fastspeech2
- Tacotron&Tacotron2
- Transformer-TTS
- Bark(E2E)
- VITS/VITS2(E2E)
- NaturalSpeech2
- MB-iSTFT-VITS/ MB-iSTFT-VITS2(E2E)
1.语音合成主主要架构如下
2.模型间的比较
# 比较基于同样的数据,参数等测试结果
3.模型优缺点
Fatespeech系列是俩阶段模型,对数据要求较高,尤其在使用MFA工具进行对齐时,可能出现错误,且语音数据越多,相对来说学习的越好。
VITS系列典型的端到端模型,便于训练,且在数据集较少的情况下依旧可以生成较好的语音。