首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

news2025/1/9 2:36:45

在这里插入图片描述

Bert-vits2项目又更新了,更新了一个新的分支:中文特化,所谓中文特化,即针对中文音色的特殊优化版本,纯中文底模效果百尺竿头更进一步,同时首次引入了大模型,使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取,基本上完全解决了发音的bad case,同时在情感表达方面有大幅提升,可以作为先前V1.0.1纯中文版本更好的替代。

更多情报请参见Bert-vits2项目官网:

https://github.com/fishaudio/Bert-VITS2/releases/tag/Extra

本次我们基于Bert-vits2中文特化版本通过40秒素材复刻巫师3角色叶奈法(Yennefer)的音色。

配置Bert-vits2中文特化版本

首先克隆项目:

git clone https://github.com/v3ucn/Bert-VITS2-Extra_-.git

注意这里是针对官方的Extra分支的修改版本,增加了音频切分和转写。

随后下载新的纯中文底模:

https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/show_model

同时还需要下载IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型的预训练模型:

值得一提的是,这个新炼的纯中文底模非常牛逼,官方作者仅通过一个5秒的素材就可以完美复刻音色。

关于作者的中文特化底模极限测试:

https://www.bilibili.com/video/BV1Fa4y1B7HB/

随后将模型放入对应的文件夹,bert模型文件结构如下:

E:\work\Bert-VITS2-Extra\bert>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
│   bert_models.json  
│  
├───bert-base-japanese-v3  
│       .gitattributes  
│       config.json  
│       README.md  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───bert-large-japanese-v2  
│       .gitattributes  
│       config.json  
│       README.md  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───chinese-roberta-wwm-ext-large  
│       .gitattributes  
│       added_tokens.json  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───deberta-v2-large-japanese  
│       .gitattributes  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer.json  
│       tokenizer_config.json  
│  
├───deberta-v2-large-japanese-char-wwm  
│       .gitattributes  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───deberta-v3-large  
│       .gitattributes  
│       config.json  
│       generator_config.json  
│       pytorch_model.bin  
│       README.md  
│       spm.model  
│       tokenizer_config.json  
│  
├───Erlangshen-DeBERTa-v2-710M-Chinese  
│       config.json  
│       special_tokens_map.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───Erlangshen-MegatronBert-1.3B-Chinese  
│       config.json  
│       pytorch_model.bin  
│       vocab.txt  
│  
└───Erlangshen-MegatronBert-3.9B-Chinese  
        config.json  
        special_tokens_map.json  
        tokenizer_config.json  
        vocab.txt

很明显,这里关于Erlangshen-MegatronBert大模型,其实有三个参数选择,有710m和1.3b以及3.9B,作者选择了居中的1.3b大模型。

这里介绍一下国产的Erlangshen-MegatronBert大模型。

Erlangshen-MegatronBert 是一个具有 39 亿参数的中文 BERT 模型,它是目前最大的中文 BERT 模型之一。这个模型的编码器结构为主,专注于解决各种自然语言理解任务。它同时,鉴于中文语法和大规模训练的难度,使用了四种预训练策略来改进 BERT,Erlangshen-MegatronBert 模型适用于各种自然语言理解任务,包括文本生成、文本分类、问答等,这个模型的权重和代码都是开源的,可以在 Hugging Face 和 CSDN 博客等平台上找到。

Erlangshen-MegatronBert 模型可以应用于多种领域,如 AI 模拟声音、数字人虚拟主播等。

另外需要注意的是,clap模型也已经回归,结构如下:

E:\work\Bert-VITS2-Extra\emotional\clap-htsat-fused>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    .gitattributes  
    config.json  
    merges.txt  
    preprocessor_config.json  
    pytorch_model.bin  
    README.md  
    special_tokens_map.json  
    tokenizer.json  
    tokenizer_config.json  
    vocab.json  
  
No subfolders exist

clap主要负责情感风格的引导。2.3版本去掉了,中文特化又加了回来。

至此模型就配置好了。

Bert-vits2中文特化版本训练和推理

首先把叶奈法的音频素材放入角色的raw目录。

随后需要对数据进行预处理操作:

python3 audio_slicer.py  
python3 short_audio_transcribe.py

这里是切分和转写。

接着运行预处理的webui:

python3 webui_preprocess.py

这里需要注意的是,bert特征文件的生成会变慢,因为需要大模型的参与。

后续应该会有一些改进。

数据处理之后,应该包括重采样音频,bert特征文件,以及clap特征文件:

E:\work\Bert-VITS2-Extra\Data\Yennefer\wavs>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    Yennefer_0.bert.pt  
    Yennefer_0.emo.pt  
    Yennefer_0.spec.pt  
    Yennefer_0.wav  
    Yennefer_1.bert.pt  
    Yennefer_1.emo.pt  
    Yennefer_1.spec.pt  
    Yennefer_1.wav  
    Yennefer_10.bert.pt  
    Yennefer_10.emo.pt  
    Yennefer_10.spec.pt  
    Yennefer_10.wav  
    Yennefer_11.bert.pt  
    Yennefer_11.emo.pt  
    Yennefer_11.spec.pt  
    Yennefer_11.wav  
    Yennefer_12.bert.pt  
    Yennefer_12.emo.pt  
    Yennefer_12.spec.pt  
    Yennefer_12.wav  
    Yennefer_13.bert.pt  
    Yennefer_13.emo.pt  
    Yennefer_13.spec.pt  
    Yennefer_13.wav  
    Yennefer_14.bert.pt  
    Yennefer_14.emo.pt  
    Yennefer_14.spec.pt  
    Yennefer_14.wav  
    Yennefer_15.bert.pt  
    Yennefer_15.emo.pt  
    Yennefer_15.spec.pt  
    Yennefer_15.wav  
    Yennefer_16.bert.pt  
    Yennefer_16.emo.pt  
    Yennefer_16.spec.pt  
    Yennefer_16.wav  
    Yennefer_17.bert.pt  
    Yennefer_17.emo.pt  
    Yennefer_17.spec.pt  
    Yennefer_17.wav  
    Yennefer_18.bert.pt  
    Yennefer_18.emo.pt  
    Yennefer_18.spec.pt  
    Yennefer_18.wav  
    Yennefer_19.bert.pt  
    Yennefer_19.emo.pt  
    Yennefer_19.spec.pt  
    Yennefer_19.wav  
    Yennefer_2.bert.pt  
    Yennefer_2.emo.pt  
    Yennefer_2.spec.pt  
    Yennefer_2.wav  
    Yennefer_20.bert.pt  
    Yennefer_20.emo.pt  
    Yennefer_20.spec.pt  
    Yennefer_20.wav  
    Yennefer_3.bert.pt  
    Yennefer_3.emo.pt  
    Yennefer_3.spec.pt  
    Yennefer_3.wav  
    Yennefer_4.bert.pt  
    Yennefer_4.emo.pt  
    Yennefer_4.spec.pt  
    Yennefer_4.wav  
    Yennefer_5.bert.pt  
    Yennefer_5.emo.pt  
    Yennefer_5.spec.pt  
    Yennefer_5.wav  
    Yennefer_6.bert.pt  
    Yennefer_6.emo.pt  
    Yennefer_6.spec.pt  
    Yennefer_6.wav  
    Yennefer_7.bert.pt  
    Yennefer_7.emo.pt  
    Yennefer_7.spec.pt  
    Yennefer_7.wav  
    Yennefer_8.bert.pt  
    Yennefer_8.emo.pt  
    Yennefer_8.spec.pt  
    Yennefer_8.wav  
    Yennefer_9.bert.pt  
    Yennefer_9.emo.pt  
    Yennefer_9.spec.pt  
    Yennefer_9.wav

随后训练即可:

python3 train_ms.py

结语

Bert-vits2中文特化版本引入了大模型,导致入门的门槛略微变高了一点,官方说至少需要8G显存才可以跑,实际上6G也是可以的,如果bert大模型选择参数更少的版本,相信运行的门槛会进一步的降低。

最后奉上整合包链接:

整合包链接:https://pan.quark.cn/s/754f236ef864

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1362241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

H5通过getUserMedia拍照黑屏原因

项目需求背景:如同我上篇文章,https://blog.csdn.net/carfge/article/details/135417741 问题场景: 小米手机中访问H5,网页已获得摄像头授权(左上角相机出现图标),但页面黑屏。 原因排查&#x…

docker 完成MySQL的主从复制

文章目录 搭建步骤 搭建步骤 拉取镜像 docker pull mysql:5.7运行主从 docker run -p 3307:3306 --name mysql-master -v /mydata/mysql-master/log:/var/log/mysql -v /mydata/mysql-master/data:/var/lib/mysql -v /mydata/mysql-master/conf:/etc/mysql -e MYSQL_ROOT_P…

【Spring Cloud】Nacos及Ribbon组件的使用

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《Spring Cloud》。🎯🎯 &am…

SQL Server 权限管理

CSDN 成就一亿技术人! 2024年 第一篇 难度指数:* * CSDN 成就一亿技术人! 目录 1. 权限管理 什么是权限管理? SQL server的安全机制 服务器级角色 数据库级角色 对象级角色 2. 创建用户 赋予权限 最重要的一步骤 1. 权限…

【信号处理:小波包转换(WPT)/小波包分解(WPD) 】

【信号处理:小波包转换(WPT)/小波包分解(WPD) 】 小波包变换简介WPT/WPD的基础知识WPT/WPD的主要特点The Wavelet Packet Transform 小波包变换前向小波数据包变换最佳基础和成本函数数学中波纹的最佳基础其他成本函数…

计算机中的数据运算

放上计算机中的数据的表示方法 计算机中的数据表示方法-CSDN博客 补码的运算: 连同符号位一起相加,符号位产生的进位自然丢掉,这里要特别注意机器数的位数,计算数的位数决定了可以存放的数据的大小,加减产生的数据的…

软件测试|Docker Kill/Pause/Unpause命令详细使用指南

简介 Docker是一种流行的容器化平台,提供了各种命令和功能来管理和操作容器。本文将详细介绍Docker中的三个重要命令:kill、pause和unpause。我们将深入了解它们的作用、用法和示例,帮助您更好地理解和使用这些命令。 什么是Docker Kill/Pa…

解决 Postman 报错问题:一份综合指南

Postman 是一个流行的 API 测试工具,它可以帮助开发者和测试人员快速地创建和发送各种 HTTP 请求,并查看响应结果。但是,在使用 Postman 的过程中,有时候会遇到一些报错或异常情况,影响了正常的测试流程。本文将介绍一…

MongoDB索引详解

概述 索引是一种用来快速查询数据的数据结构。BTree 就是一种常用的数据库索引数据结构,MongoDB 采用 BTree 做索引,索引创建 colletions 上。MongoDB 不使用索引的查询,先扫描所有的文档,再匹配符合条件的文档。使用索引的查询&…

【linux笔记1】

目录 【linux笔记1】文件内容的理解用户管理用户管理命令添加用户切换用户修改用户信息删除用户 用户组 【linux笔记1】 文件内容的理解 etc文件夹:etc是拉丁语"et cetera"的缩写,意思是“和其他的”或“等等”。在linux系统中,“…

【C++】类和对象详解(类的使用,this指针)

文章目录 前言面向过程和面向对象的初步认识类的引入类的定义类的访问限定符和封装性访问限定符封装性 类的作用域类的实例化类对象模型如何计算类对象的大小类对象的存储方式猜测结构体内存对齐规则 this指针this指针的引出this指针的特性 总结 前言 提示:这里可以…

【DevOps-07-3】Jenkins集成Sonarqube

一、简要说明 Jenkins安装Sonarqube插件Jenkins安装和配置Sonar-Scanner信息Jenkins打包项目中,增加Sonar-Scanner代码质量扫描二、Jenkins安装Sonarqube插件 1、登录Jenkins管理后台,搜索安装Sonar-Scanner插件 Jenkins管理后台示例:http://192.168.95.131:8080/jenkins/

MySQL之视图内连接、外连接、子查询案例

目录 一.视图 1.1 含义 1.2 操作 二.案例 三.思维导图 一.视图 1.1 含义 虚拟表,查询方面和普通表一样使用。 1.2 操作 1.创建视图: create or replace view 视图名 as 查询语句; 2.视图的修改: 方式1 create or replace view …

HttpRunner的测试用例分层机制

测试用例分层介绍: 在接口自动化测试维护过程中,由于测试用例的增加和需求变更导致测试用例的调整,使自动化测试用例的维护非常麻烦,直接关系到自动化测试能否持续有效地在项目中开展。 概括来说,测试用例分层机制的核…

性能优化-OpenMP基础教程(三)

本文主要介绍OpenMP并行编程的环境变量和实战、主要对比理解嵌套并行的效果。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:高性能(HPC)开发基础教程 🎀CSDN主页 发狂的小花 &…

MiniTab的宏基础知识

什么是宏? 宏是包含一系列 Minitab 会话命令的文本文件。可以使用宏自动执行重复性任务(例如,生成月度报表)或扩展 Minitab 的功能(例如,计算特殊检验统计量)。 Minitab 提供以下类型的宏&…

JetBrains Rider使用总结

简介: JetBrains Rider 诞生于2016年,一款适配于游戏开发人员,是JetBrains旗下一款非常年轻的跨平台 .NET IDE。目前支持包括.NET 桌面应用、服务和库、Unity 和 Unreal Engine 游戏、Xamarin 、ASP.NET 和 ASP.NET Core web 等多种应用程序…

IOS:Safari无法播放MP4(H.264编码)

一、问题描述 MP4使用H.264编码通常具有良好的兼容性,因为H.264是一种广泛支持的视频编码标准。它可以在许多设备和平台上播放,包括电脑、移动设备和流媒体设备。 使用caniuse查询H.264兼容性,看似确实具有良好的兼容性: 然而…

C#,入门教程(09)——运算符的基础知识

上一篇: C#,入门教程(08)——基本数据类型及使用的基础知识https://blog.csdn.net/beijinghorn/article/details/123906998 一、算术运算符号 算术运算符号包括:四则运算 加 , 减-, 乘*, 除/与取模%。 // 加法,运算 int va 1 …

海外分支访问国内服务器系统慢怎么办?

在全球业务不断扩张的今天,企业面临着海外分支访问国内总部服务器系统慢的问题。为了解决这一挑战,我们引入了lxway全球系统专网产品,为企业提供高效、安全的全球网络连接方案。通过解析技术瓶颈和专网的优势,本文将揭示如何借助先…