GPT-SoVITS语音克隆部署与使用

news2025/1/11 5:46:05

GPT-SoVITS是一款强大的少量样本语音转换与语音合成开源工具。当前,GPT-SoVITS实现了如下几个方面的功能:

  • 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
  • 可以少量语音微调训练,也可不训练直接推理
  • 可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种

硬件建议要求:
INT4 : RTX3090*1,显存24GB,内存32GB,系统盘200GB
更低配的GPU硬件也可以进行推理,但是推理速度会更慢。

环境准备

模型准备

手动下载以下几个模型(体验时几个模型不一定需全下载)
本文统一放在模型存档目录:/u01/workspace/models/GPT-SoVITS
pretrained_models

git clone https://huggingface.co/lj1995/GPT-SoVITS

uvr5_weights

https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights

asr model:

git clone https://hf-mirror.com/Systran/faster-whisper-large-v3

可选模型: speech_fsmn_vad_zh-cn-16k-common-pytorch,speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch, punc_ct-transformer_zh-cn-common-vocab272727-pytorch
下载地址分别为:

git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git
git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git

注意存放目录结构方便后面Docker 挂载目录后能直接找到相关的模型

root@itserver03:/u01/workspace/models/GPT-SoVITS# tree  -d
.
├── GPT_weights
├── pretrained_models
│   ├── chinese-hubert-base
│   └── chinese-roberta-wwm-ext-large
├── SoVITS_weights
└── tools
    ├── asr
    │   └── models
    │       ├── faster-whisper-large-v3
    │       ├── punc_ct-transformer_zh-cn-common-vocab272727-pytorch
    │       │   ├── example
    │       │   └── fig
    │       ├── speech_fsmn_vad_zh-cn-16k-common-pytorch
    │       │   ├── example
    │       │   └── fig
    │       └── speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
    │           ├── example
    │           └── fig
    └── uvr5
        └── uvr5_weights
            └── Onnx_dereverb_By_FoxJoy

下载源码
git clone https://github.com/RVC-Boss/GPT-SoVITS.git; 
cd GPT-SoVITS

Docker 容器化部署

Dockerfile样例

注意 根据官方的Dockerfile自己build出满足自身环境需要的镜像。

# Base CUDA image
# FROM cnstark/pytorch:2.0.1-py3.9.17-cuda11.8.0-ubuntu20.04
FROM pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime

LABEL maintainer="breakstring@hotmail.com"
LABEL version="dev-20240209"
LABEL description="Docker image for GPT-SoVITS"


# Install 3rd party apps
ENV DEBIAN_FRONTEND=noninteractive
ENV TZ=Etc/UTC
ENV TZ=Etc/UTC
ENV LANG=zh_CN.UTF-8
ENV LC_ALL=zh_CN.UTF-8

RUN apt-get update && \
    apt-get install -y --no-install-recommends tzdata ffmpeg libsox-dev parallel aria2 git git-lfs && \
    git lfs install && \
    rm -rf /var/lib/apt/lists/*

# Copy only requirements.txt initially to leverage Docker cache
WORKDIR /workspace
COPY requirements.txt /workspace/
RUN pip install --no-cache-dir -r requirements.txt

# Define a build-time argument for image type
ARG IMAGE_TYPE=full

# Conditional logic based on the IMAGE_TYPE argument
# Always copy the Docker directory, but only use it if IMAGE_TYPE is not "elite"
COPY ./Docker /workspace/Docker 
# elite 类型的镜像里面不包含额外的模型
RUN if [ "$IMAGE_TYPE" != "elite" ]; then \
        chmod +x /workspace/Docker/download.sh && \
        /workspace/Docker/download.sh && \
        python /workspace/Docker/download.py && \
        python -m nltk.downloader averaged_perceptron_tagger cmudict; \
    fi


# Copy the rest of the application
COPY . /workspace

EXPOSE 9871 9872 9873 9874 9880

CMD ["python", "webui.py"]

本文对官方的Dockerfile做了简单修改以便满足自己需要。 采用基础镜像pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime
同时需要修改镜像的语言的环境变量,否则webui 会展示为英文界面:
ENV LANG=zh_CN.UTF-8

nltk_data 文件下载

如果启动时找不到nltk_data 的几个语料库,系统会自动下载,但时前提是你的网络已经完美的科学上网了。否则不出意外应该会出错。 nltk_data 文件可以挂载到容器,但也可以通过更改Dockerfile直接拷贝到镜像中。
下载地址:
https://www.nltk.org/nltk_data/
需要下载的语料库:

  • cmudict
  • averaged_perceptron_tagger

存放目录结构:

root@itserver03:/u01/workspace/nltk_data# tree
.
├── corpora
│   └── cmudict
│       └── cmudict
└── taggers
    └── averaged_perceptron_tagger
        └── averaged_perceptron_tagger.pickle

4 directories, 2 files
构建image
docker build -t qingcloudtech/gpt-sovits:v1.0 .

运行

修改docker-compose.yaml文件用自己编译的容器镜像:
version: '3.8'

services:
  gpt-sovits:
    image: qingcloudtech/gpt-sovits:v1.0
    container_name: gpt-sovits-container
    environment:
      - is_half=False
      - is_share=False
    volumes:
      - ./output:/workspace/output
      - ./logs:/workspace/logs:rw
      - ./TEMP:/workspace/TEMP
      - /u01/workspace/nltk_data:/usr/share/nltk_data
      - /u01/workspace/models/GPT-SoVITS/pretrained_models:/workspace/GPT_SoVITS/pretrained_models
      - /u01/workspace/models/GPT-SoVITS/SoVITS_weights:/workspace/SoVITS_weights
      - /u01/workspace/models/GPT-SoVITS/GPT_weights:/workspace/GPT_weights
      - /u01/workspace/models/GPT-SoVITS/tools/asr/models:/workspace/tools/asr/models
      - /u01/workspace/models/GPT-SoVITS/tools/uvr5/uvr5_weights:/workspace/tools/uvr5/uvr5_weights
      - ./reference:/workspace/reference
    working_dir: /workspace
    ports:
      - "9880:9880"
      - "9871:9871"
      - "9872:9872"
      - "9873:9873"
      - "9874:9874"
    shm_size: 16G
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: "all"
            capabilities: [gpu]
    stdin_open: true
    tty: true
    restart: unless-stopped

** 注意重点:** 几个挂载文件的路径:

  • ./output:/workspace/output
  • ./logs:/workspace/logs:rw
  • ./TEMP:/workspace/TEMP
  • /u01/workspace/nltk_data:/usr/share/nltk_data
  • /u01/workspace/models/GPT-SoVITS/pretrained_models:/workspace/GPT_SoVITS/pretrained_models
  • /u01/workspace/models/GPT-SoVITS/SoVITS_weights:/workspace/SoVITS_weights
  • /u01/workspace/models/GPT-SoVITS/GPT_weights:/workspace/GPT_weights
  • /u01/workspace/models/GPT-SoVITS/tools/asr/models:/workspace/tools/asr/models
  • /u01/workspace/models/GPT-SoVITS/tools/uvr5/uvr5_weights:/workspace/tools/uvr5/uvr5_weights
运行
docker-compose up -d

几个重要的页面:
下面几个页面并非启动后都可以直接访问,需要根据需要点选相应的启动按钮后方可访问。
主页面: http://127.0.0.1:9874/
UVR5人声伴奏分离&去混响去延迟工具 :** http://127.0.0.1:9873/**
TTS推理WebUI:http://127.0.0.1:9872/
语音文本校对标注工具:** http://127.0.0.1:9871/**


操作演示:

本操作过程仅仅演示如何快速的开始,让平台真正用起来,需要完整了解相关的内容的请参考和研究官方提供的相关手册。

第一步: 进主页面:

image.png

第二步: 开启UVR5-WebUI 进入到URV5 界面:

上传音频文件,选择模型: HP3, 点击转换, 转换成功后,输出文件默认会存放在/workspace/output/uvr5_opt
image.png

第三步: 返回主界面,分别执行如下几个步骤

image.png
0b-语音切分工具
0bb-语音降噪工具
0c-中文批量离线ASR工具
这三步中,不要更改输出文件夹,每一步的输入信息均为上一步的输出目录。
0d-语音文本校对标注工具
勾选【是否开启打标WebUI】后访问http://127.0.0.1:9871/
image.png

第四步: 进入主界面,点击第二个Tab页:

直接输入文本标注文件地址:点击一键三联即可,其他参数熟练之后随意调整。
image.png

第五步:微调训练

直接点击页面中的两按钮,等待一段时间即可完成微调:
image.png

第六步:推理

image.png
刷新模型路径,直接选择刚刚微调出来的模型,可能有多个,注意选择合适的模型,然后再开启推理界面:
http://127.0.0.1:9872/
选择参考模型,参考模型文本(可不填),需要合成的文本, 点击合成语音,即可完成语音克隆。
image.png

【Qinghub Studio 】更适合开发人员的低代码开源开发平台
【QingHub企业级应用统一部署】
【QingHub企业级应用开发管理】
QingHub** 演示】**
https://qingplus.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1686741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python魔法学院:PySpider篇——网络世界的探险与征服

Hi,我是阿佑,迎来到Python魔法学院,今天阿佑要带大家学习的是PySpider篇——一门让你在网络世界中探险与征服的魔法课程。从环境搭建到高级功能应用,再到性能优化,每一个章节都是成为数据大师的必经之路! 文…

Ceph集群RBD块存储:快照与Copy-on-Write克隆的基本操作

文章目录 1.RBD块存储镜像克隆概念2.copy-on-write克隆的基本使用2.1.在块存储中创建一个快照2.2.将快照配置成保护模式2.3.基于快照克隆出镜像2.4.使用克隆的镜像2.5.查看一个快照下有哪些克隆的镜像 1.RBD块存储镜像克隆概念 镜像克隆官方文档:https://docs.ceph…

巨控无线通讯模块在煤化工皮带保护系统中的应用

一、项目介绍 近年来由于煤矿化工行业在实际生产过程中事故频发,国家安监部门自2022年起开展了为其三年的专项整治行动,皮带运输系统作为煤矿化工行业自动化系统的重要组成部分成为此次专项整治重点。 兖矿新疆能化有限公司作为山能集团在新疆分部的龙…

NoSQL Redis配置与优化

一、关系数据库与非关系型数据库 1. 关系型数据库: 关系型数据库是一个结构化的数据库,创建在关系模型(二维表格模型)基础上,一般面向于记录。 SQL 语句(标准数据查询语言)就是一种基于关系型…

Redis三主三从集群搭建(docker版)

文章目录 1.分布式存储算法1.哈希取余算法2.一致性哈希算法1.基本介绍2.优点1.容错性2.扩展性 3.缺点:数据倾斜问题 3.哈希槽分区(大厂常用) 2.基础环境搭建1.给六台机器都安装docker1.卸载旧版本的docker2.安装 gcc相关3.安装yum-utils软件包…

电脑连接爱快iKuai软路由之后,网卡没有正常获取到IP,无法访问爱快路由管理页?

前言 上一次咱们说到在爱快控制台上设置/辨认lan口,设置完成之后,其他的一些设置就需要在爱快iKuai软路由的管理页面上设置。 有些小伙伴会发现,当电脑连接上爱快软路由的lan口之后,电脑并没有正常获取到ip,导致无法访…

从零开始运行BERT的详细教程,使用MRPC数据集进行测试

1、安装anaconda环境 镜像网址:Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 2、配置环境变量 3、创建虚拟环境 #常用命令 #创建 conda create -n xxx python3.8 #激活 conda activate xxx #删除 conda remove -n xxx --all #查看 con…

汀木云OZON选品工具,OZON跨境电商的选品利器

在竞争激烈的跨境电商市场中,选品是卖家们成功经营的关键之一。而汀木云OZON选品工具,作为OZON跨境电商的选品利器,以其独特的优势,为卖家们提供了精准、高效的选品解决方案。接下来看看汀木云OZON选品工具和萌啦OZON数据跨境OZON…

客户端Web资源缓存

为了提高Web服务器的性能,其中的一种可以提高Web服务器性能的方法就是采用缓存技术。 1.缓存 1.1.什么是缓存? 如果某个资源的计算耗时或耗资源,则执行一次并存储结果。当有人随后请求该资源时,返回存储的结果,而不是再次计算。…

以太坊(3)——智能合约

智能合约 首先明确一下几个说法(说法不严谨,为了介绍清晰才说的): 全节点矿工 节点账户 智能合约是基于Solidity语言编写的 学习Solidity语言可以到WFT学院官网(Hello from WTF Academy | WTF Academy)…

2024电工杯数学建模选题建议及各题思路来啦!

大家好呀,2024电工杯数学建模竞赛开始了,来说一下初步的选题建议吧: 首先定下主基调, 本次电工杯建议选B。A题目难度较高,只建议有相关专业知识和优化经验的队伍选择,小白队伍无脑选B即可。是比较经典的数…

新媒体时代,LCD电子价签赋予零售场景新活力

近年来,全球企业迅速掀起了数字化转型的浪潮,加速了新零售科技的发展与应用。在实体零售门店中,商品货架显示逐渐趋向智能化和多样化。然而,在信息传播日益碎片化和视频化的时代,零售门店如何更有效地吸引消费者的注意…

go slice 扩容

扩容 slice 会迁移到新的内存位置,新底层数组的长度也会增加,这样就可以放置新增的元素。同时,为了应对未来可能再次发生的 append 操作,新的底层数组的长度,也就是新 slice 的容量是留了一定的 buffer 的。否则&…

【附带效果视频】php接口给前端返回流式数据,php使用event-stream进行数据推送,循环一次输出一次

背景:不分接口需要返回流式数据,循环一次输出一次数据 php接口给前端返回流式数据,循环一次输出一次 返回结果效果视频完整返回结果数据格式控制台网络内查看到的数据格式完整代码 返回结果效果视频 php接口给前端返回流式数据,循…

2024年 电工杯 (A题)大学生数学建模挑战赛 | 园区微电网风光储协调优化配置 | 数学建模完整代码解析

DeepVisionary 每日深度学习前沿科技推送&顶会论文&数学建模与科技信息前沿资讯分享,与你一起了解前沿科技知识! 本次DeepVisionary带来的是电工杯的详细解读: 完整内容可以在文章末尾全文免费领取&阅读! 问题重述…

2024 电工杯高校数学建模竞赛(A题)| 储能配置 |建模秘籍文章代码思路大全

铛铛!小秘籍来咯! 小秘籍团队独辟蹊径,运用负载均衡,多目标规划等强大工具,构建了这一题的详细解答哦! 为大家量身打造创新解决方案。小秘籍团队,始终引领着建模问题求解的风潮。 抓紧小秘籍&am…

Linux备份服务及rsync企业备份架构(应用场景)

备份服务概述 备份服务:需要使用到脚本,打包备份,定时任务. 备份服务:rsyncd服务,不同主机之间数据传输. 特点: rsync是个服务也是命令使用方便,具有多种模式传输数据的时候是增量传输 增量与全量: 全量 :无论多少数据全部推…

【机器学习】必会降维算法之:t-分布邻域嵌入(t-SNE)

t-分布邻域嵌入(t-SNE) 1、引言2、随机梯度下降(SGD)2.1 简介2.1.1 定义2.1.2 应用场景 2.2 原理2.3 实现方式2.4 算法公式2.5 代码示例解析: 3、总结 1、引言 小屌丝:鱼哥, 啥是降维算法 小鱼…

AI三级淋巴结构·预测癌症预后和免疫疗法反应

小罗碎碎念 今天分享的这篇文章对于想从事三级淋巴结交叉研究等同学和老师来说,具有非常重要的参考价值,反正我写完这篇推文以后,觉得受益匪浅。 其中重点需要提醒大家关注的是——从2D组织切片计算的TLS面积已被验证为多种肿瘤类型的预后和…

pycharm打开服务器(linux)上的项目

先在本地打开项目 一、项目文件配置 tools-deployment-configuration 新增一个sftp连接 测试服务器是否可以连通 mappings中设置本地路径和服务器上的路径 二、环境配置 先参考文章 复现论文的conda环境(win和联网、离线linux)_conda复现环境-CSDN博…