GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot(WIN/MAC)

news2025/1/15 19:47:08

网站封面图 GPT sovites.png
语音克隆项目GPT-Sovits发布了V2版本,在早些时候做了V1版本的整合包,但是那个版本的整合包操作比较麻烦,上手难度高。正好趁着V2,一起更新了。

image.png

【GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot(WIN/MAC)】 https://www.bilibili.com/video/BV12MW2e4Ebx/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

更新内容

V2版本相对于V1版本更新了以下内容:

  1. 支持韩语及粤语,现在可5语种之间互相跨语种合成(跨语种合成,指训练集、参考音频语种和需要合成的语种不同)
  2. 更好的文本前端,持续迭代更新。v2中英文加入了多音字优化。
  3. 底模由2k小时扩展至5k小时,zero shot性能更好音色更像
  4. 对低音质参考音频(尤其是来源于网络的高频严重缺失、听着很闷的音频)合成出来音质更好

使用方法

其实跟V1版本的操作差不多,这里再重新介绍下。

主要分两大部分:数据集整理、模型训练与推理。

音频处理

UVR5人声伴奏分离

可选步骤,当音频有混响、伴奏等嘈杂的背景音,可以使用UVR5进行分离。

点击开启UVR5-WebUI

image.png

进入UVR5主界面

image.png

选择模型

模型分为三类:

1、保留人声:不带和声的音频选这个,对主人声保留比HP5更好。内置HP2和HP3两个模型,HP3可能轻微漏伴奏但对主人声保留比HP2稍微好一丁点;
2、仅保留主人声:带和声的音频选这个,对主人声可能有削弱。内置HP5一个模型;
3、去混响、去延迟模型(by FoxJoy):
(1)MDX-Net(onnx_dereverb):对于双通道混响是最好的选择,不能去除单通道混响;
(234)DeEcho:去除延迟效果。Aggressive 比 Normal 去除得更彻底,DeReverb 额外去除混响,可去除单声道混响,但是对高频重的板式混响去不干净。
去混响/去延迟,附:
1、DeEcho-DeReverb模型的耗时是另外2个DeEcho模型的接近2倍;
2、MDX-Net-Dereverb模型挺慢的;
3、个人推荐的最干净的配置是先MDX-Net再DeEcho-Aggressive。

image.png

上传需要处理的音频或者是文件夹,导出格式选择wav,点击转换。

image.png

输出的文件在output/uvr5_opt

语音切分

必选步骤,将长音频进行切分处理

image.png

这一栏填入文件夹路径或者文件路径

image.png

举例:
Windows:
D:\RVC1006\xxx

Mac:
/Users/ccmahua/Downloads/DOC/Sound

Mac上获取路径的方式

将文件夹拖入终端

image.png

路径就会在终端内显示,将这个路径复制到GPT-Sovits中即可。

image.png

然后点击开启语音切割,输出目录可以不用改,默认的即可

image.png

等待切割结束

image.png

语音降噪

可选步骤,对切分好的音频进行降噪

默认的输入路径是刚才的切分文件夹目录,点击开启语音降噪

image.png

降噪需耐心等待一段时间

降噪完成

image.png

批量ASR

必选步骤,根据你处理的音频选择对应的asr处理方式。

image.png

默认是降噪输出的文件夹路径,如果你没执行降噪步骤,自行修改。

image.png

这里默认是中文的语种。

image.png

如果是其他语言,可设置ASR 模型Faster Whisper

语言设置选择auto或者是其他的语言。(支持中、英、日、韩、粤)

image.png

设置后点击开启离线批量ASR

处理完成

image.png

image.png

语音文本校对

这一步比较费时间,如果不追求极致效果,可以忽略这一步。

红框区域是根据音频生成对应的文字。黄框区域是对应的音频。这一步要做的是试听,然后根据音频来修改前面的文字和断句。

image.png

比如我们根据音频在句子中增加来断句。

修改前:
image.png

修改后:

image.png

修改完后需要点击Submit TextSave File来保存。
image.png

如果你的音频文件很长,你需要进行翻页操作对每句话进行校对,Previous IndexNext Index是上一页和下一页。

image.png

当你校对完成后,记得保存,随后关闭这个页面就可以了。回到主界面,关闭勾选。

image.png

数据集处理

点击GPT-SoVITS-TTS进入TTS界面。

image.png

需要对模型的名称进行命名,默认是xxx,尽量避免中文命名(有可能会有些问题)

image.png

其他选项无需设置,保持默认的即可

image.png

选择训练格式化工具这一栏。在训练模型前需要对数据集进行处理。

image.png

点击一键三连
image.png

其他开启文本获取开启ssl提取开启语义token提取选项不用执行。一键三连会自动执行上述步骤。

处理完成

image.png

打开输出文件夹
image.png

可以看到会生成对应名称的文件夹

image.png

里面是一些数据集和其他配置文件

image.png

模型训练

接着进入训练模型的环节,点击微调训练

image.png

这里会看到两个训练,先点开启SoVITS训练,训练完后再点开启GPT训练,不可以一起训练(除非你有两张卡)!如果中途中断了,直接再点开始训练就好了,会从最近的保存点开始训练。

batch_size总训练轮数这两个参数根据电脑配置来自行调整。训练轮数尽量别太高。其他选项为默认。

image.png

关于MAC上训练,需要注意的是用的是cpu,这里引用下官方的话。

在 Mac 上使用 GPU 训练的模型效果显著低于其他设备训练的模型,所以我们暂时使用 CPU 进行训练。

两个训练都完成后我们可以去模型文件夹确认下。两个训练生成的模型分别在整合包路径下/GPT_weights_v2整合包路径下/SoVITS_weights_v2文件夹内。

image.png

image.png

推理

点击推理

image.png

点击刷新模型路径

image.png

在左侧模型列表中选择你刚才训练好的模型

image.png

**e代表轮数,s代表步数。**不是轮数越高越好,这里我选择了e15进行推理。如果你选择轮数推理后的音频效果不理想,可以选择更高轮数的模型。

点击开启推理webui,进入推理界面。

image.png

确认下模型是否跟刚才选的一样。

image.png

然后上传一段参考音频,建议是数据集中的音频。最好5秒。参考音频很重要!会学习语速和语气,请认真选择。

image.png

这里我选择的是降噪切分后的音频。

参考音频的文本是参考音频说什么就填什么,语种也要对应。

image.png

填入需要合成的文本,点击合成语音。

image.png

最后生成的音频

【GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot(WIN/MAC)】 https://www.bilibili.com/video/BV12MW2e4Ebx/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

到这里我们就训练好了一个模型,并且可以用它生成任意音频。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【GPT-SovitsV2】关键字获取整合包。

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

【GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot(WIN/MAC)】 https://www.bilibili.com/video/BV12MW2e4Ebx/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

常见问题:

如何训练第二个模型?

将以下几个路径下的文件移走或者删除。否则第二次训练的时候会造成数据混淆。

标注文件夹整合包路径下/output/asr_opt
噪音音频切分文件夹整合包路径下/output/denoise_opt
音频切分文件夹整合包路径下/output/slicer_opt

如果你第二次不修改模型名字,那你需要将整合包路径下/logs/文件夹内的模型同名文件夹移走或删除。也可以直接修改模型名字。

如何分享我训练的模型?

将下面这两个路径下的文件粘贴到别人的同样的目录下即可。

整合包路径下/SoVITS_weightsV2
整合包路径下/GPT_weightsV2

怎么样才算训练好一个模型?

这个问题其实没有一个准确答案,模型的训练取决于你的数据集质量、时长,轮数,等因素。每次训练完成后听下看看是否满足你的心里预期。如果你的模型推理出来的效果一直不理想,你应该重点关注下你的数据集是否有问题。

最后感谢阳光老师提供的音频素材。

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2075252.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业设计推荐-基于python的个性化旅游路线推荐平台

💖🔥作者主页:毕设木哥 精彩专栏推荐订阅:在 下方专栏👇🏻👇🏻👇🏻👇🏻 实战项目 文章目录 实战项目 一、基于python的个性化旅游路线…

解决 RT-Thread bsp stm32l476-st-nucleo STM32L4 HAL库缺失问题

问题描述 当前最新的 RT-Thread 版本:5.2.0,发现在 编译 BSP stm32l476-st-nucleo,缺少了 STM32L4xx_HAL 驱动库,造成生成的 工程,如 Keil MDK5 工程无法编译通过 初步的【临时】解决方法是 回退 RT-Thread 的版本&am…

攻防世界 倒车-x64Elf-100

前言:学习笔记。 下载解压 查壳。 64ida 打开。 跟进跳转。 判断,常规就是,左边 1 a1[i]就是flag的值 挺简单的,直接用C语言,照抄就行。 脚本: Code_Talkers

治经济学(Political Economy)是经济学科的总名称

政治经济学,作为一门学科,具有深厚的历史背景和广泛的研究领域。 以下是对政治经济学的详细阐述: 一、定义与起源 政治经济学(Political Economy)是经济学科的总名称,广义地说,是研究一个社会…

STM32标准库HAL库——MPU6050原理和代码

目录 陀螺仪相关基础知识: 加速度计,陀螺仪的工作原理: 陀螺仪再智能车中的应用: MPU6050原理图和封装图: 硬件IIC和软件IIC的区别: 相同点 不同点 常规获取陀螺仪数据: 标准库&#x…

Vue学习--- vue3 集成遇到的部分问题与解决

构建异常 1. 问题:ESLint: Do not access Object.prototype method hasOwnProperty from target o 报错解释: ESLint 报错信息 "Do not access Object.prototype method hasOwnProperty from target object" 指的是不应该从目标对象访问 Ob…

9个最流行的文本转语音引擎【TTS 2024】

在快速发展的技术世界中,文本转语音 (TTS) 引擎正在取得显著进步。从增强各种应用程序中的用户体验到创建逼真且引起情感共鸣的语音输出,TTS 引擎正变得不可或缺。在这里,我们介绍了 2024 年为行业树立新标准的九款最佳 TTS 引擎。 NSDT工具推…

传统网络编程有什么问题

文章目录 多线程版网络编程客户端MyServerThread服务端 线程池版的网络编程客户端MyServerThread服务端 总结 传统网络通信中的开发方式及问题 多线程版网络编程 下面先写一个多线程版网络编程的版本代码: 客户端 public static void main(String[] args) throws IOExceptio…

【推荐100个unity插件之27】推荐5种办法实现unity人物布料系统 衣服裙子飘动 头发飘动 胸部抖动 骨骼模拟 配件摆动 尾巴摆动

最终效果 文章目录 最终效果前言模型获取一、animation rigging 和 cloth布料模拟二、Unity-Chan!Model三、Dynamic Bone四、Magica Cloth 1五、Magica Cloth 21、介绍2、下载3、官方文档4、安装插件5、使用Animation Rigging插件可视化骨骼6、Magica Cloth介绍7、BoneCloth的使…

【采集软件】根据关键词批量采集小红薯,含笔记正文、笔记链接、发布时间、转评赞藏等

一、背景介绍 1.1 爬取目标 熟悉我的小伙伴都了解,我之前开发过2款软件: 【采集软件】用Python开发的小红薯搜索采集工具,支持多关键词同时! 【采集软件】用Python开发的小红薯详情批量采集工具,含笔记正文、转评赞藏…

linux系统使用 docker 来部署运行 mysql8 并配置 docker-compose-mysql.yml 文件

Docker是一个开源的容器化平台,旨在简化应用程序的创建、部署和管理。它基于OS-level虚拟化技术,通过将应用程序和其依赖项打包到一个称为容器的标准化单元中,使得应用程序可以在任何环境中快速、可靠地运行。 Docker的优势有以下几个方面&a…

【网格dp】力扣1594. 矩阵的最大非负积

给你一个大小为 m x n 的矩阵 grid 。最初,你位于左上角 (0, 0) ,每一步,你可以在矩阵中 向右 或 向下 移动。 在从左上角 (0, 0) 开始到右下角 (m - 1, n - 1) 结束的所有路径中,找出具有 最大非负积 的路径。路径的积是沿路径访…

Java 入门指南:异常处理的实践规范

在 Java 中处理异常并不是一个简单的事情。需要花费很多时间来思考如何处理异常,包括需要处理哪些异常,怎样处理等等。 抛出或捕获异常的时候,有很多不同的情况需要考虑,而且大部分事情都是为了改善代码的可读性或者 API 的可用性…

捏蛋糕修牛蹄类型的解压视频素材去哪里找?

今天我们聊聊在哪里能找到制作捏蛋糕、修牛蹄等解压视频的素材。这类视频看起来心情就变好,特别解压。如果你也有兴趣制作这种视频,以下是一些优质的素材网站推荐,助你轻松找到所需素材。 蛙学网 开始我们的推荐列表是蛙学网。这是一个综合性…

npm国内源设置

一、背景 在国内使用npm时,由于网络问题,经常会遇到速度慢或无法访问的问题。为了提高效率,可以将npm的源设置为国内的镜像源。以下是一些常用的国内npm镜像源以及如何设置它们的方法。 二、国内可用源 2.1 淘宝npm源 https://registry.np…

SOLIDWORKS 2025全新功能解读:界面优化

准备好在SOLIDWORKS 2025中探索了吗?新版本,可帮助您简化和加速从概念到制造的产品开发流程,鑫辰科技带您抢先体验SOLIDWORKS 2025的亮点,深入了解新版本所增添的独特功能。 一:指定 Z-向上模板 在早期版本中,SOLID…

手算神经网络MAC和FLOP

在本文中,我们将深入探讨神经网络背景下的 MAC(乘法累加运算)和 FLOP(浮点运算)概念。通过学习如何使用笔和纸手动计算这些内容,你将对各种网络结构的计算复杂性和效率有基本的了解。 这是 colab 笔记本中…

使用 Python 和 SQL 自动将 ETL 传输到 SFTP 服务器

了解如何在 Windows 上自动执行从 PostgreSQL 数据库到远程服务器的日常数据传输过程 欢迎来到雲闪世界。将文件从一个位置传输到另一个位置的过程显然是自动化的完美选择。重复执行这项工作可能令人望而生畏,尤其是当您必须对几组数据执行整个 ETL(提取…

神经网络模型剪枝快速指南

模型剪枝(Model Pruning)是指从深度学习神经网络模型中删除不重要的参数,以减小模型大小并实现更高效的模型推理。通常,只剪枝参数的权重,而不影响偏差。偏差的剪枝往往有更明显的缺点。 非结构化剪枝期间权重如何归零…

书生.浦江大模型实战训练营——(十)Lagent 自定义你的 Agent 智能体

最近在学习书生.浦江大模型实战训练营,所有课程都免费,以关卡的形式学习,也比较有意思,提供免费的算力实战,真的很不错(无广)!欢迎大家一起学习,打开LLM探索大门&#xf…