【深度学习】【语音TTS】OpenVoice: Versatile Instant Voice Cloning，论文

news2026/2/14 5:32:08

https://github.com/myshell-ai/OpenVoice

https://arxiv.org/abs/2312.01479

文章目录

- - 摘要
  - 1 引言
  - 2 方法
  - - 2.1 直观思路
    - 2.2 模型结构
    - 2.3 训练细节
  - 3 结果
  - 4 结论

摘要

我们介绍了OpenVoice，一种多功能的即时语音克隆方法，只需参考说话者的短音频片段即可复制其声音，并生成多语言的语音。OpenVoice在解决以下领域开放挑战方面取得了重要进展：1）灵活的声音风格控制。OpenVoice允许对声音风格进行细粒度控制，包括情感、口音、节奏、停顿和语调，除了复制参考说话者的音色外。这些声音风格并不直接复制并受限于参考说话者的风格。之前的方法在克隆后无法灵活操控声音风格。2）零-shot跨语言语音克隆。OpenVoice实现了对未包含在大规模说话者训练集中的语言的零-shot跨语言语音克隆。与之前通常需要广泛的大规模说话者多语言（MSML）数据集的做法不同，OpenVoice可以在没有该语言的大规模说话者训练数据的情况下，将声音克隆到新语言中。OpenVoice在计算上也很高效，其成本是商业API的数十分之一，而这些API甚至表现更差。为了促进该领域的进一步研究，我们公开了源代码和训练模型。我们还在演示网站上提供了定性结果。在公开发布之前，OpenVoice的内部版本在2023年5月至10月期间被全球用户使用了数千万次，作为MyShell.ai的后台服务。

在这里插入图片描述