手把手教你GPT-SoVITS V2版本模型教程，内附整合包

news2026/2/15 16:04:41

首先需要声明的一点就是V1的模型能用在V2上面，但是V2的模型不能用在V1上，并且V1模型在V2上效果不佳！
整合包下载地址：

GPT-SoVITS V2整合包下载
https://klrvc.com/ GPT-SoVITS V2模型下载网

这次V2更新了以下功能

UVR5：

1.将hp2模型替换为model_bs_roformer_ep_317_sdr_12.9755模型，大幅提升分离人声的效果。

2.新增DeEchoNormal和DeReverb模型。去混响效果Normal<Aggressive

切分&降噪&打标&校对:

1.自动填充路径

2.funasr增加粤语，whisper增加韩语和粤语标注功能。funasr的粤语标注更为准确

3.whisper可选推理精度，float16可以带来更快的推理速度

预处理:

1.中文改为G2PW处理以优化多音字效果，但处理速度变慢了

2.优化了英文多音字效果，处理速度也变快了

训练:

1.全新底膜，训练集增加到5k小时

2.增加韩粤两种语言

3.训练所需数据集更少

推理:

1.zero shot效果大幅增强

2.中日英韩粤5个语种均可跨语种合成

3.对低音质参考音频合成出来音质更好

4.更好的文本前端，中英文加入多音字优化

5.增加语速调节

6.增加音色融合

以上具体的更新内容来自官方给出的信息，这些内容也在后来我使用V2推理得到了验证，其实使用V2和V1并没有什么区别，WEBUI就多了一个降噪功能，其他的都一样。

接下来让我们教大家如何在V2中训练出自己的模型吧。

其中我将省略干音数据集的制作过程，因为这一步非常繁琐，其中包括降噪和声分离去混响音质增强等步骤，有机会我会特别制作一期教程。

如果您是整合包执行下面的代码进入V2和V1

python webui.py <language(optional)>
python webui.py v1 <language(optional)>

其中<language(optional)>做了国际化处理，如果你使用的是云端可以查看这篇文章的教程。https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official

接下来正式进入到我们的图文教程

在这里插入图片描述

打开WEBUI首先第一步就是音频的分离与降噪，如果您之前就已经用其他降噪分离软件处理的话，这一步可以省略，否则必须进行这一步进行分离，这里你只需要设置音频自动切分文件夹或文件，输出目录最好不要再去调整，除非你有足够的耐心，因为所有的步骤，作者都已经默认给你填写了，你只需要填一个输入路径即可。

在这里插入图片描述
这里V2新增了一个语音降噪功能，之前V1版本是没有的，但是也请在这个功能之前先降噪一遍自己的音频，在使用这个功能，之后就是标注我们的文件，这个标注和V1使用的方法是一样的。

在这里插入图片描述

到这一步开始打标，我们需要注意的是你的打标文件的路径，如果不知道自己的项目打标路径可以看看控制台，在ASR自动打标的时候会输出一个路径，填写这个路径即可。

在这里插入图片描述
上面就是控制台输出的打标文件路径，填写之后开启打标WEBUI即可。

在这里插入图片描述
控制台会输出URL地址，复制这个地址在浏览器打开即可进入打标页面

在这里插入图片描述

打标这里需要注意的是这里还是和V1版本一样，首先修改错别字，之后修改停顿点，这里特别重要，会影响最终模型的输出效果，其中[Previous Index]是上一页，[Next Index]是下一页，[Save File]是保存文件，[Submit Text]是重载打标文件。正确的顺序是当我们修改一页的打标后，点击保存文件Save File，之后在进入Next Index下一页，不点保存否则无效。

在这里插入图片描述