手把手教你GPT-SoVITS V2版本模型教程,内附整合包

news2024/11/15 17:56:48

首先需要声明的一点就是V1的模型能用在V2上面,但是V2的模型不能用在V1上,并且V1模型在V2上效果不佳!
整合包下载地址:

GPT-SoVITS V2整合包下载
https://klrvc.com/ GPT-SoVITS V2模型下载网

这次V2更新了以下功能

UVR5:

1.将hp2模型替换为model_bs_roformer_ep_317_sdr_12.9755模型,大幅提升分离人声的效果。

2.新增DeEchoNormal和DeReverb模型。去混响效果Normal<Aggressive

切分&降噪&打标&校对:

1.自动填充路径

2.funasr增加粤语,whisper增加韩语和粤语标注功能。funasr的粤语标注更为准确

3.whisper可选推理精度,float16可以带来更快的推理速度

预处理:

1.中文改为G2PW处理以优化多音字效果,但处理速度变慢了

2.优化了英文多音字效果,处理速度也变快了

训练:

1.全新底膜,训练集增加到5k小时

2.增加韩粤两种语言

3.训练所需数据集更少

推理:

1.zero shot效果大幅增强

2.中日英韩粤5个语种均可跨语种合成

3.对低音质参考音频合成出来音质更好

4.更好的文本前端,中英文加入多音字优化

5.增加语速调节

6.增加音色融合

以上具体的更新内容来自官方给出的信息,这些内容也在后来我使用V2推理得到了验证,其实使用V2和V1并没有什么区别,WEBUI就多了一个降噪功能,其他的都一样。

接下来让我们教大家如何在V2中训练出自己的模型吧。

其中我将省略干音数据集的制作过程,因为这一步非常繁琐,其中包括降噪 和声分离 去混响 音质增强等步骤,有机会我会特别制作一期教程。

如果您是整合包执行下面的代码进入V2和V1

python webui.py <language(optional)>
python webui.py v1 <language(optional)>

其中<language(optional)>做了国际化处理,如果你使用的是云端可以查看这篇文章的教程。https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official

接下来正式进入到我们的图文教程

在这里插入图片描述

打开WEBUI首先第一步就是音频的分离与降噪,如果您之前就已经用其他降噪分离软件处理的话,这一步可以省略,否则必须进行这一步进行分离,这里你只需要设置音频自动切分文件夹或文件,输出目录最好不要再去调整,除非你有足够的耐心,因为所有的步骤,作者都已经默认给你填写了,你只需要填一个输入路径即可。

在这里插入图片描述
这里V2新增了一个语音降噪功能,之前V1版本是没有的,但是也请在这个功能之前先降噪一遍自己的音频,在使用这个功能,之后就是标注我们的文件,这个标注和V1使用的方法是一样的。

在这里插入图片描述

到这一步开始打标,我们需要注意的是你的打标文件的路径,如果不知道自己的项目打标路径可以看看控制台,在ASR自动打标的时候会输出一个路径,填写这个路径即可。

在这里插入图片描述
上面就是控制台输出的打标文件路径,填写之后开启打标WEBUI即可。

在这里插入图片描述
控制台会输出URL地址,复制这个地址在浏览器打开即可进入打标页面

在这里插入图片描述

打标这里需要注意的是这里还是和V1版本一样,首先修改错别字,之后修改停顿点,这里特别重要,会影响最终模型的输出效果,其中[Previous Index]是上一页,[Next Index]是下一页,[Save File]是保存文件,[Submit Text]是重载打标文件。正确的顺序是当我们修改一页的打标后,点击保存文件Save File,之后在进入Next Index下一页,不点保存否则无效。

在这里插入图片描述

之后我们来到推理分页,这里需要设置的就是你的模型文件名以及文本标注路径以及分割后的音频文件目录,这里得填写正确,否则三连的时候会出错,如果你没有修改默认输出目录的话,这一步你就填写个模型名就可以了。

在这里插入图片描述
其他的都不需要动,直接[开启一键三连即可],完成后会自动提示完成。

在这里插入图片描述
点击微调训练,这一步引用作者的原话就是如果您的数据集不是很好,那么这一步默认轮数就可以,否则会物极必反,效果会很差。点击开启训练即可。

在这里插入图片描述
以上是训练完成的最终的输出信息

在这里插入图片描述
训练完成之后,点击刷新模型路径,选择自己训练的模型,也就是你刚刚输入的模型名一个GPT模型列表和SoVITS模型列表,都需要一致才可行。

在这里插入图片描述
点击开启TTS推理WEBUI后在控制台会输出一个新的URL地址,复制打开即可。

在这里插入图片描述
用法和V1一样,不过多了几个选项就是语速和音色稳定功能,防止上次音频和本次生成的音频音色不一致的问题。这里我测试了一下,长文本,大概有200字左右。

在这里插入图片描述
这里我用的是2080T(11GB)的显卡作为推理,最终生成的时间为13秒左右,生成速度更是达到了180it/s,比上一代版本提升的速度很快。

总体对比下来,V2的提升绝对不止一点,V2的提升无论是在音色还是速度的上,真正的达到了,跨版本的大更新,之前我在使用V1版本的模型推理上,由于一些早期数据集的音质影响下,生成出来的模型结果也是大失所望,好在V2的发布弥补了这些问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2078480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超声波清洗机哪些品牌好用?小型超声波清洗机推荐

在日常生活中&#xff0c;诸如眼镜、项链和耳环之类的常用小物件&#xff0c;频繁的接触使得它们表面易吸附尘埃&#xff0c;尤其是缝隙里的污垢往往难以手动清除。此时&#xff0c;超声波清洗机成为了理想的清洁助手&#xff0c;它能深入细微之处&#xff0c;带来彻底的清洁体…

【设计模式-策略】

定义 策略模式是一种行为型设计模式&#xff0c;它定义了一系列算法&#xff0c;并将每个算法封装起来&#xff0c;使它们可以互相替换&#xff0c;且算法的变化不会影响到使用算法的客户。通过使用策略模式&#xff0c;算法可以在运行时根据需要动态地进行更换&#xff0c;从…

JAVA毕业设计164—基于Java+Springboot+vue3的汽车租赁管理系统(源代码+数据库)

毕设所有选题&#xff1a; https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue3的汽车租赁管理系统(源代码数据库)164 一、系统介绍 本项目前后端分离(可以改为ssm版本)&#xff0c;分为用户、会员、管理员三种角色 1、用户&#xff1a…

破防了!软考小白们的春天,低起点也能赢在起跑线

软考通过率是否真的很低&#xff0c;可以通过官方数据来了解。 一、软考通过率是多少&#xff1f; 首先要说明的是&#xff0c;软考办并没有公布全国考试的通过率。但根据官方公布的报名人数和合格人数可以做一个预估。 浙江软考办官方公布&#xff0c;浙江2022年下半年软考…

c#透明悬浮球实现 从零开始用C#写一个桌面应用程序(三)

目标&#xff1a;透明悬浮球 记录日期&#xff1a;20240308 要求基础&#xff1a;C#语言基础部分事件与委托&#xff0c;c#桌面程序基础操作 注&#xff1a;可见前文 http://t.csdnimg.cn/9uWK8 今天开始做一个悬浮球软件。本以为最难的是让悬浮球的具体功能&#xff0c…

养猫知识!猫罐头好还是猫粮好?宠物医生都在用的猫罐头

有位姐妹刚养猫大概已经快一年了&#xff0c;一直给猫喂的都是干粮&#xff0c;猫咪毛发枯燥&#xff0c;长肉慢。带到医院检查后&#xff0c;我发现猫咪营养不良&#xff0c;吸收能力差&#xff0c;有点软便&#xff0c;我建议她给猫咪喂主食罐。结果猫咪爱吃&#xff0c;而且…

openGuass——对象管理

目录 一、表空间 二、数据库 三、模式:Schema 四、database schema table之间的关系 五、表 六、分区表 七、索引 八、视图 九、序列 十、同义词 十一、约束 一、表空间 自带了两个表空间&#xff1a;pg_default和pg_global。查看命令&#xff1a;\db 默认表空间pg…

AI时代,什么是QPS数据?

自 OpenAI 公司于 2022 年 11 月 30 日发布 ChatGPT 以来&#xff0c;经过 23 年一整年的发展之后&#xff0c;大语言模型的概念已逐渐普及&#xff0c;出现了各种基于大语言模型的周边产品&#xff0c;可以说已经玩的相当花哨了。 在这个AI发展的过程中&#xff0c;不少本地化…

Unity之OpenXR如何使用Netcode实现一个多人VR游戏

前言 Netcode for GameObjects 是专为 Unity 构建的高级网络库,可用于抽象网络逻辑。您可以通过网络会话同时向许多玩家发送 GameObjects 和世界数据。借助 Netcode for GameObjects,您可以专注于构建游戏,而无需考虑低级协议和网络框架。 Netcode框架的核心特性包括: 易…

支付宝开放平台-开发者社区——AI 日报「8 月 27 日」

1 多模态 Al 王者登场&#xff0c;语言图像模型大一统&#xff01;Meta 发布 Transfusion模型 新智元丨阅读原文 Meta 最新发布的 Transfusion 模型&#xff0c;成功融合了 Transformer 和 Diffusion 技术&#xff0c;实现了文本和图像生成的统一。该模型通过结合语言建模和扩…

动态内存管理函数malloc,calloc,realloc,free

malloc 函数原型&#xff1a;void* malloc(size_t size); 这个函数向内存申请一块连续可用的size大小的空间&#xff0c;并返回指向这快空间的指针。如果开辟成功&#xff0c;则返回一个指向开辟好空间的指针。如果开辟失败&#xff0c;则返回一个NULL指针&#xff0c;因此ma…

应用程序编程接口 (API) — 简单解释

Nimrita Koul 博士 https://medium.com/nimritakoul01/application-programming-interface-api-simply-explained-3680d4649121 文章目录 一、说明二、API 的类型二、示例健身应用程序三、可乐自动售货机四、客户端和服务器五、超文本传输协议 &#xff08;HTTP&#xff09;5.1…

逆向中的游戏-入土为安的第二十五天

逆向中的游戏 CE的介绍 Cheat Engine &#xff0c;简称CE&#xff0c;是逆向工程师常用的几大神器之一&#xff0c;也是游戏汉化、破解以及外挂编写中常用的工具&#xff0c;其功能包括&#xff1a;内存扫描、十六进制编辑器、调试工具&#xff0c;可以进行反汇编调试、断点跟…

FaceChain 打造个人证件照 职业照 写真照

一、简介 FaceChain可实现兼具可控性与ID保持能力的无限风格写真与固定模板写真功能&#xff0c;同时对ControlNet和LoRA具有优秀的兼容能力。FaceChain支持在gradio的界面中使用模型训练和推理能力、支持资深开发者使用python脚本进行训练推理&#xff0c;也支持在sd webui中安…

【精选】基于springboot休闲娱乐代理售票系统(源码+定制+开发辅导)

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

进销存专业化管理系统,降低采购和销售成本 带完整的安装代码包以及搭建部署教程

系统概述 在当今竞争激烈的市场环境中&#xff0c;企业的运营效率与成本控制直接关联到其生存与发展。特别是对于中小企业而言&#xff0c;如何高效地管理进销存流程&#xff0c;减少不必要的开支&#xff0c;成为了提升竞争力的关键。为此&#xff0c;我们精心打造了一款“进…

推荐一个能在博客中运行代码的平台

博客中粘贴代码&#xff0c;这是很常见的做法了。如果我们博客中的代码可以直接运行&#xff0c;是不是很酷呢&#xff1f; 来看看&#xff1a; https://andi.cn/page/621698.html 推荐一个平台&#xff0c;有以下功能&#xff1a; 博客中的代码可以直接运行、一键复制可以…

【Resoved】编译 OpenCV 4.5.5 源码,fatal error: mpi.h: No such file or directory

0. 背景 Ubuntu20.04 OpenCV 4.5.5 Anaconda ROS2 foxy 等 1. 问题描述 编译 OpenCV4.5.5源码,make -j10 时,报错: 2. 问题分析 这个错误表明在编译 OpenCV 的 HDF5 模块时,尽管你在 CMake 中指定了 MPI 的路径,但编译器仍然无法找到 mpi.h 文件。或者 HDF5 没有正确地…

【STM32】MDK安装

1 MDK 历史背景 Keil公司是一家业界领先的微控制器&#xff08;MCU&#xff09;软件开发工具的独立供应商。Keil公司由两家私人公司联合运营&#xff0c;分别是德国慕尼黑的Keil Elektronik GmbH和美国德克萨斯的Keil Software Inc。Keil公司制造和销售种类广泛的开发工具&am…

神经网络动画讲解 - 构建灵活可调节参数

神经网络核心思想 神经网络核心思想&#xff1a;&#xff08;1&#xff09;机器学习、深度学习是一种方法论 机器学习&#xff1a; 核心思想是使计算机系统能够从经验&#xff08;通常是大量数据&#xff09;中学习和改进&#xff0c;以优化性能并做出准确的预测或决策&#…