让AI帮你说话--GPT-SoVITS教程

news2026/3/28 9:03:48

有时候我们在录制视频的时候，由于周边环境嘈杂或者录音设备问题需要后期配音，这样就比较麻烦。一个比较直观的想法就是能不能将写好的视频脚本直接转换成我们的声音，让AI帮我们完成配音呢？在语音合成领域已经有很多这类工作了，最近网上了解到一个效果比较好的项目GPT-SoVITS，尝试了一下，趟了一些坑，记录一下操作过程。
首先附上大佬的仓库和教程：

GitHub链接
视频教程

下载代码和创建环境

电脑配置

Windows11
CUDA 12.1
显卡RTX 4070
Anaconda

下载代码

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

创建环境

conda create -n gpt-sovits python=3.9
conda activate gpt-sovits
Windows
pip install -r requirements.txt
conda install ffmpeg
#下载以下两个文件到GPT-SoVITS项目根目录
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe

下载模型

1、在GPT_SoVITS\pretrained_models打开终端输入：

git clone https://huggingface.co/lj1995/GPT-SoVITS

如果不成功，先尝试下面语句，然后再次clone代码：

git lfs install

如果还不成功，需要确认网络是否能连外网。
下载完模型后，将模型文件拷到GPT_SoVITS\pretrained_models目录下：
SoVITS模型
2、到modelscope下载以下模型：

git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git
git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git

将以上模型文件放到tools/damo_asr/models目录下：
ASR模型

如果训练的音频数据有杂音的话，还需要下载UVR5模型对音频先进行去噪处理，放到tools/uvr5/uvr5_weights目录下：
git clone https://huggingface.co/lj1995/VoiceConversionWebUI

运行demo

配置好环境和模型后，在终端输入：

python webui.py

如果报以下错误，说明装的Torch不是CUDA版本的，需要重装对应的CUDA版本的pytorch。

AssertionError: Torch not compiled with CUDA enabled

运行起来后界面如下：
WebUI界面

微调和推理模型

处理数据

下载的原始模型一般就可以用来推理转换声音了，但是如果想要转换的声音更真实，本地又有GPU的话，可以进一步尝试微调模型，进一步提升转换声音的真实性。

首先我们要收集一段我们自己的录音作为微调数据集，最好将格式保存为wav格式。
然后将音频进行切分和标注，这里就用webUI工具进行处理，在音频自动切分输入路径中填入我们保存得wav格式音频文件路径，其余参数根据需要调整，点击开始语音切割，切割完成后的文件保存在output/slicer_opt文件夹中。
切分完后需要对语音进行识别成中文文本，执行下面的中文批量离线ASR工具，填写批量ASR输入文件夹路径为上一步的子音频输出目录。

若出现以下报错:

KeyError: 'funasr-pipeline is not in the pipelines registry group auto-speech-recognition. Please make sure the correct version of ModelScope library is used.'

说明funasr版本有问题，需要修改一下tools\damo_asr\cmd-asr.py为:

path_asr='tools/damo_asr/models/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch'
path_vad='tools/damo_asr/models/speech_fsmn_vad_zh-cn-16k-common-pytorch'
path_punc='tools/damo_asr/models/punc_ct-transformer_zh-cn-common-vocab272727-pytorch'
path_asr=path_asr if os.path.exists(path_asr)else "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
path_vad=path_vad if os.path.exists(path_vad)else "damo/speech_fsmn_vad_zh-cn-16k-common-pytorch"
path_punc=path_punc if os.path.exists(path_punc)else "damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
# 注释掉这块代码
# inference_pipeline = pipeline(
#     task=Tasks.auto_speech_recognition,
#     model=path_asr,
#     vad_model=path_vad,
#     punc_model=path_punc,
# )
model = AutoModel(model=path_asr,
                  vad_model=path_vad,
                  punc_model=path_punc,
                  #spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
                  #spk_model_revision="v2.0.0"
                  )
opt=[]
for name in os.listdir(dir):
    try:
        # 这里也注释
        # text = inference_pipeline(audio_in="%s/%s"%(dir,name))["text"]

        text = model.generate(input="%s/%s"%(dir,name),
                     batch_size_s=300, 
                     hotword='魔搭')
        print(f"asr text:{text}")
        opt.append("%s/%s|%s|ZH|%s"%(dir,name,opt_name,text))
    except:
        print(traceback.format_exc())
...

在转换完成后，会在目录 \GPT-SoVITS\output\asr_opt下生成slicer_opt.list文件，里面就是每段音频对应的文本。
4. 得到文本后，需要对文本进行打标矫正，将**\GPT-SoVITS\output\asr_opt\slicer_opt.list**路径填到 打标数据标注文件路径中，然后勾选开启打标webUI。
启动打标
然后在打标界面进行标注矫正

在这个界面可以进一步拆分合并音频和修改文本，修改后需要点击Submit Text保存。
5. 接下来对得到的音频文件和文本标注文件进行格式化转换，切换到1-GPT-SoVITS-TTS页面，填写相应的实验名，文本标注文件和训练集音频文件，然后点击下面的一键三连等待转换完成即可。
转换成训练集格式