https://github.com/myshell-ai/OpenVoice
https://arxiv.org/abs/2312.01479
文章目录
-
-
- 摘要
- 1 引言
- 2 方法
-
- 2.1 直观思路
- 2.2 模型结构
- 2.3 训练细节
- 3 结果
- 4 结论
-
摘要
我们介绍了OpenVoice,一种多功能的即时语音克隆方法,只需参考说话者的短音频片段即可复制其声音,并生成多语言的语音。OpenVoice在解决以下领域开放挑战方面取得了重要进展:1)灵活的声音风格控制。OpenVoice允许对声音风格进行细粒度控制,包括情感、口音、节奏、停顿和语调,除了复制参考说话者的音色外。这些声音风格并不直接复制并受限于参考说话者的风格。之前的方法在克隆后无法灵活操控声音风格。2)零-shot跨语言语音克隆。OpenVoice实现了对未包含在大规模说话者训练集中的语言的零-shot跨语言语音克隆。与之前通常需要广泛的大规模说话者多语言(MSML)数据集的做法不同,OpenVoice可以在没有该语言的大规模说话者训练数据的情况下,将声音克隆到新语言中。OpenVoice在计算上也很高效,其成本是商业API的数十分之一,而这些API甚至表现更差。为了促进该领域的进一步研究,我们公开了源代码和训练模型。我们还在演示网站上提供了定性结果。在公开发布之前,OpenVoice的内部版本在2023年5月至10月期间被全球用户使用了数千万次,作为MyShell.ai的后台服务。
1 引言
即时语音克隆(IVC)在文本到语音(TTS)合成中意味着TTS模型可以在不给参考说话者额外训练的情况下,仅凭短