一、Retrieval-based-Voice-Conversion-WebUI简介
Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架,适用于制作“变声器”,实现语音转换。
具有以下特点
- 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了解复杂的语音处理技术,即可实现语音转换。
- 低延迟与高效能:RVC 模型在实时语音转换中表现出低延迟的特点,同时能够在相对较差的显卡上也能快速训练,提高了模型的普及性和实用性。
- 少量数据训练:使用少量数据(推荐至少 10 分钟低底噪语音数据)进行训练,即可得到较好的语音转换效果,降低了数据收集的难度和成本。
- 音色克隆:RVC 模型支持克隆说话
- 人的声音,包括歌曲的翻唱和实时的变声,具有优秀的变声效果。
- 杜绝音色泄漏:通过 top1 检索替换输入源特征为训练集特征,有效杜绝了音色泄漏的问题。
- 可以通过模型融合来改变音色(借助 ckpt 处理选项卡中的 ckpt-merge)
- 可调用 UVR5 模型来快速分离人声和伴奏
二、模型搭建流程
测试环境
已在RTX3090,Python 3.10,CUDA12.2上测试
1. 容器镜像一键使用
(1)在算家云“应用社区”中搜索或找到“Retrieval-based-Voice-Conversion-WebUI”,或者在左侧“音频生成”选项功能中单击选择“语音转换”
(2)进入“租用实例”页面后之后会自动匹配模型,选择 3090 卡或其他性能优于 3090 的显卡,点击“立即创建”即可创建实例
2.启动项目
(1)实例创建成功之后,点击“项目实例”再点击“WebssH”开启终端(小黑屏)
使用下列命令运行项目:
cd /Retrieval-based-Voice-Conversion-WebUI-main/
conda activate retrieval
export GRADIO_SERVER_NAME=0.0.0.0
export GRADIO_SERVER_PORT=8080
python infer-web.py
3.开启外部访问
返回“项目实例”列表,选择并点击对应实例的“开放端口”操作。
有两种访问方式可以选择:本地私密访问和对外开放端口。
(1)本地私密访问:选择 ssh 工具访问,登录之后填写各选项,点击“开启代理”
(2)对外开放端口:请按照下图操作
4.获取访问地址,并开始使用
打开浏览器,在地址栏 Ctrl+V 粘贴复制的访问地址进行访问,即可开始使用 RVC。
以上就是在算家云搭建 RVC-WebUI 的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。
复制下方网址,进入算家云,选择模型,一键开启 AI 之旅!
算家云应用社区 www.suanjiayun.com/container/#/mirror