【AI 孙燕姿 || AI 音色转换】RVC 使用图文教程:教你如何实现无难度男女换声(伪音)以及 AI 孙燕姿!

news2025/1/9 2:23:38

最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色,再用其替换另一位歌手音色的方式,可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外,面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手,歌迷纷纷奔向“AI点唱机”——这个可以生成任何希望被翻唱歌曲的“神器”,让众多粉丝一偿“直接点歌偶像”的心愿。当然,以此为基础,也诞生了很多有意思的开源应用方案,如:无需学习其他伪音技巧,即可实现实时男女声音互换等等。作者将使用 RVC 模型和入梦工具,带大家实现以下几个功能:

  • 音乐干声分离:背景音(BGM)与人声(干声)的分离
  • 训练个人音色模型:作为模仿其他干声素材的音色数据
  • 男女换声(伪音):基于异性干声素材,进行实时转化声音为异性声音
  • AI 唱歌:仅作基础的模拟演唱,仍需进行调音等等操作,才可以达到完美
  • 音色融合:不同音色的特征融合出一个全新的音色

文章目录

  • 现实案例说明
  • 注意事项
  • 音色推理流程
  • 素材干声分离
  • 音色训练
  • 音色融合
  • 入梦工具实现男女伪音实时无技巧转化
  • 总结一下

现实案例说明

在进行教学前,我们先假设这样一个场景:现有素材,男声音色A,女声音色B,女声音色C的朗读素材C,男唱歌状态下的音色D,女声音色C的唱歌素材E,我们根据以上介绍的功能进行整合,可以做到以下案例:

  • 案例一:将女声C的朗读素材进行干声分离,再用男声音色A朗读女声音色C的朗读素材C。
  • 案例二:可以用女声B的音色去朗读女声C的朗读素材。
  • 案例三:甚至能够进行小延迟(0.1s)的实时音色转换,比如将使用男声音色A的声音去讲,可以实时转化为女声音色B的声音,实现无技巧完成男女伪声转换。
  • 案例四:利用音色D的声音去演唱音色C的唱歌素材,实现类似AI孙燕姿的功能。
  • 案例五:拿女音色B和C的素材进行融合出一个新的音色F
  • 案例六:音色A从来没有说过外语(英语、日语等等),但需要现在马上说一段外语音频

效果可参考出处:【rvc教程】AI变声/AI音色训练-哔哩哔哩 极为逼真,值得尝试。当然,我也只是作为分享。
在此感谢三位UP主:花儿不哭/唯有如梦/干易/掉脑袋切切_bling 的视频
下载资源:https://pan.baidu.com/s/125_wzk7Txr5UGAwOJE7qJQ?pwd=20e1
文件目录如下:

文件目录

注意事项

  • 性能要求:建议20系N卡以上,显存在 8g 以上,性能越高越好
  • 模型文件目录要求:全英文、无中文、待处理音频、单音色素材独立一个文件夹
  • 启动模型时,命令行界面不能关闭,否则,模型停止运行,下文中提到的所有命令行都使用时不能关闭
  • 注意音色版权问题,不做违法勾当,技术无罪,请勿滥用
  • 音色、音频素材质量好坏不仅仅体现在音源质量,音色训练干声素材更在意有无噪声(气泡音、混响者等不佳),是否贴合模仿场景(唱歌音色对应唱歌音频转换等等),是否音频变调范围较少等等

音色推理流程

什么是音色推理呢?其实就是实现案例一二的过程,也就是推理音色A到音色B,再应用到声音素材上的过程。我们将使用 RVC 模型的一建训练包,步骤如下:

  1. 启动 RVC web 界面:双击打开 RVC-beta_5\RVC-beta\go-web.bat
  2. 等待启动,启动成功命令行效果如下:
    命令行:
    go-web.bat
    web界面:
    web界面
  3. 界面参数说明:
    • 推理音色:推理结果成品的实际音色
    • 待处理音频:推理结果成品的实际音频内容,支持绝大部分音频格式
    • index 路径:推理音色相符合的特征文件 index 结尾
    • 变调(整数, 半音数量, 升八度12降八度-12):男女音调差距较大,男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域.
    • 刷新音色列表和索引路径:加载新的推理音色和 index 文件,训练出新音色就需要重新加载
    • 卸载音色:去除加载进的音色,以节省显存
    • 音高提取算法:输入歌声可用pm提速,harvest低音好但巨慢无比
  4. 选定对应参数数据:按照界面参数,选择推理音色、待处理音频、index 路径、变调等等最基本的参数(也就是说其他参数保持默认的参数也能使用,有能力、有需求的再自行微调),点击转换即可进行音色推理了。
    转换结果效果如下:
    音色推理结果
    点击播放按钮即可在线播放转换后的音频,右键点击即可下载结果音频或者改变播放速度。最好是先听听效果,再下载,毕竟不一定效果合适,可能需要调整参数。
    这就是音色推理的全流程,也是整个模型训练性能要求最低的一个部分之一,如果,你连默认的音色都无法正常推理成功的话,音色训练部分建议在性能更强的电脑上进行。

素材干声分离

素材干声分离也就是分离人声和背景音,这一部分不一定需要本模型一键训练包来完成,只是为了获得更好的干声素材而做的预处理操作,有其他现成更简单的工具也可以使用。话扯远了,接下来就说说怎么进行素材的干声分离,步骤如下:

  1. 启动 RVC 模型的一建训练包,和推理模型的启动方法一致,切换到干声分离界面,如下:
    素材干声分离界面
  2. 界面参数说明:
    • 待处理音频路径:待处理音频的文件夹路径,注意不是文件路径,这也是为什么每个待处理音频都要独立放置到一个文件夹的原因,因为太多文件,训练时间过长。
    • 按需选择分离模型:HP2 人声(只有背景音和人声类型)、HP5人声(带有背景音和人声叠加等等效果类型)
    • 指定人声输出目录:默认 RVC-beta\opt
    • 指定乐器文件夹:背景音文件夹,默认 RVC-beta\opt
  3. 填写好对应参数信息之后,点击转换即可完成素材干声分离。最终效果如下:
    素材干声分离结果
    输出信息为 success 即为干声分离成功,如果报错,就需要检查音频和电脑的硬件问题了。

音色训练

音色训练其实就是利用经过预处理或者本身音源素质良好的干声素材进行训练,提取对应的音色特征,进而模拟其音色特征,再生成对应的音色包,这个过程中当然可以尝试通过微调参数实现更好的音色特征提取,但篇幅有限,本文只介绍最简单,最直接的音色训练教程。步骤如下:

  1. 准备好 3 分钟以上、50 分钟以内的优质干声素材,建议在3到7分钟之间,效果就很不错了,做好训练时长等待的准备
  2. 启动训练模型,切换到训练模块,如下:
    训练界面
  3. 界面参数说明:
    • 实验名:即将训练出来的音色包名称
    • 目标采样率:干声素材采集样本占比,按性能需求更改,默认 40k 就有不错的效果了
    • 模型是否带音高指导:如果是唱歌类型的干声素材,必须选择 true ,反之,选或不选都可以
    • 版本:建议使用 V1,V2 仍存在部分 Bug
    • 提取音高和处理数据所使用的 CPU 进程数,默认为 16 ,可根据性能瓶颈自行更改,最少为 2
    • 训练文件夹路径:所要训练的干声素材文件夹路径,注意是文件夹路径,同一个文件夹里面只能包含一个人的音色干声素材
    • 显卡信息:启动后会自动读取本机显卡信息,多张显卡可输入卡号,指定训练用显卡
    • 音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢
    • 保存频率:每训练 n 轮,保存一次音色特征数据,建议以 20 为保存频率,可根据性能瓶颈自行更改
    • 总训练轮数:不得小于保存频率数,总训练轮数按性能瓶颈来,建议 200 轮即可,干声素材优秀可选择 50 轮即可,普通人听不出来的,最高可达 1000 轮,轮数越高,性能要求越大,时间越长,过高也会过拟合,不建议太高。
    • 每张显卡的 back_size:按默认即可,会在读取显卡信息后自动选择,如果自行指定训练显卡,可根据性能瓶颈自行选择
    • 是否仅保存最新的ckpt文件以节省硬盘空间:选择是的话,只有最后一轮的训练特征数据,反之,按保存频率保存音色文件
    • 是否缓存所有训练集至显存.:10min以下小数据可缓存以加速训练, 大数据缓存会炸显存也加不了多少速度
    • 是否在每次保存时间点将最终小模型保存至weights文件夹:选择是即可
  4. 填好以上界面参数数据,点击一键训练即可,慢慢等待结果出现,建议只运行该模型
    ckpt 处显示 success,结尾有个 2333333 即为成功
    训练结果命令行
    训练结果(音色)文件夹:weights 文件夹
    音色文件夹
    训练音色特征结果:logs 文件夹
    音色特征数据
    如果,没有迁移训练和微调参数需求的话,可仅保存 index 和 npy 文件,连同前文的 pth 文件就可以构成一个完整的音色包文件。可分享音色包文件示例如下:
    音色包文件

利用这个音色包文件就可以进行前文的音色推理了,也就能够实现案例一、二、四、七,包含唱歌类型的模拟,以及说一段自己不会的外语音频也是可以实现的,同时,实现唱歌素材的模拟不就可以得到 AI 孙燕姿的干声素材,再利用之前干声分离出的背景音进行调整,就可以基本实现AI孙燕姿啦,只要我们拥有(训练所得、分享获得)孙燕姿的唱歌音色包,以及对应优质的唱歌干声素材,当然,还需要进一步的调音、编曲等待操作,让它更像更完美。

音色融合

音色融合就是基于前文提到的音色训练出来的音色包进行融合音色,当然,同一性别的音色融合效果会好一点,通过音色融合,我们就可以创造出一个全新的音色包,当然,也可以利用此操作减少音色爆音的几率,比如,A音色音色好但容易爆音,B音色不太好,但胜在稳定,就可以用高权重的A模型融合低权重的B模型,融合出来的音色就能拥有两个的优点,但权重比例得自行调整,达到一个比较好的平衡,基于融合后的音色就可以做出不一样的音源素材。步骤如下:

  1. 启动模型,切换到 ckpt 部分
    ckpt界面

  2. 界面参数说明:

    • A、B模型路径:A、B模型文件路径就是需要进行融合的两个音色模型的 pth 文件路径
    • A 模型权重:融合哪个音源特征更多的数值化表达,也就是融合结果音色更像哪个音色
    • 保存的模型名称:此次融合结果音色的名称

    其他参数自行调整,简单地调整以上数据就能实现音色融合

  3. 点击融合,输出结果为 success 即可。音色包会在 weight 出现,并且,不会有对应的 index 和 npy 文件生成,但可用高权重的音色模型训练出来的结果文件。
    音色融合
    这我们就能实现案例五的效果了,你可以使用融合后的音色继续“炼丹”,直到满意为止。

入梦工具实现男女伪音实时无技巧转化

男女伪音,也就是男女声音实时互换的操作,实现类似于变声器的效果,部分游戏、陪玩也有在使用。步骤如下:

  1. 启动模型和入梦工具:双击 RVC-beta_5\RVC-beta\go-realtime-gui.bat 和 RVC\RVC入梦小工具\RVC入梦小工具.exe
    GUI 界面如下:
    模型GUI界面

    模型运行命令行界面如下:
    模型命令行
    入梦工具界面如下:
    入梦工具

  2. 安装入梦工具驱动:点击入梦工具虚拟 MME,一直下一步即可安装驱动
    驱动安装

  3. 点击系统音频,配置扬声器和麦克风

    • 录制设备配置成入梦工具为默认使用设备
      配置录制设备

    • 播放设备不用修改,使用电脑默认设置就行,需要修改入梦扬声器的属性配置中的采样频率和位深度与电脑默认设置的设备对应属性一致,再更改入梦麦克风的侦听属性为侦听此设备即可。不过建议为耳机类型的扬声器,公放类型会被录制设备读取,产生回音,出现杂音。
      修改属性一
      默认设备属性

      修改属性二
      修改属性三

  4. 配置模型音频输入输出设备:输入设备设置为电脑默认麦克风即可,输出设备设置为入梦扬声器,实际播放声音为电脑默认音频输出设备,如下:
    音频输入输出设备设置

  5. 模型 GUI 界面加载模型参数说明:
    加载模型

    • 载入 Hubert 模型:不会默认读取模型,需要自行载入,双击按钮打开文件夹,选中 RVC-beta_5\RVC-beta\hubert_base.pt 即可。
    • 选择 pth 文件:双击按钮打开文件夹,自行选中音色包内的 pth 文件即可
    • 选择 index 文件:双击按钮打开文件夹,自行选中对应音色包内的 index 文件即可
    • 选择 npy 文件:双击按钮打开文件夹,自行选中对应音色包内的 npy 文件即可
  6. 模型 GUI 界面常规设置及其性能设置参数说明:
    常规设置及其性能设置

    • 响应阈值:麦克风读取响应速度,自行调整不爆音即可,数据越低,实时延迟越小
    • 音调设置:男女音调差距较大,男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域。
    • index rate:0.3 到 0.5即可,特征提取相关参数
    • 采样长度:推理时间,采样长度自行调整,不含过多电子音即可,数值越低,延迟越低,建议为 1 即可
    • 淡入淡入长度:保持默认即可,除非有一些奇怪的尾音
    • 额外推理长度:推理长度高一点,声音可能会好一些,但延迟高,自行调整
    • 输入输出降噪:如果录音环境存在一定噪声可勾选
  7. 选择完其他设置,点击开始转化即可实现实时转换音色的效果,注意推理时间正常变化才是正常运行。

  8. 如果需要切换音色的话,就必须停止音频转换再重新修改加载模型部分的参数。

  9. 如果是游戏使用、录制时使用,就必须把对应软件的麦克风设置为入梦麦克风,注意检查一下

本章节解决了案例三的男女伪音转换效果,这也将引起我们的警觉。

总结一下

AI 语音技术的进步已经带来了许多令人兴奋的结果,而 RVC 则是其中的一个重要发展方向。RVC 可以让使用者将一个人的声音样本複制并转移到另一个人身上,并可实现即时语音转换。以下是 RVC 可能带来的一些结果:

  1. 更自然的语音转换:RVC 技术可以让语音转换更加自然、逼真。这种技术可以学习一个人的语音特徵,包括音调、节奏和语速等,并将这些特徵应用到其他人的语音中,使其听起来更加自然。
  2. 音频和影片后期制作:RVC 技术还可以用于音频和影片后期制作。例如,在电影和电视剧中,演员的声音可能需要进行修剪或处理,RVC 技术可以帮助制作人员快速、高效地完成这些任务。
  3. 音乐创作:RVC 技术可以用于音乐创作,例如合成电子音乐或增强现有音乐。使用这种技术,音乐家可以从其他艺术家的声音中获得灵感,并将其应用到自己的创作中。

虽然这技术对于娱乐、语音合成等方面有著极大的应用价值。然而,这种技术也引发了许多道德等问题,例如滥用、欺骗、侵犯隐私等问题,需要你我共同关注,使用该技术时也要特别注意这些问题,请小心别踩线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/602617.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv3: An Incremental Improvement 全文翻译

YOLOv3 论文全篇完整翻译 摘要 本文介绍了YOLO的一些更新内容!我们进行了一系列小的设计改进,以使其更好。我们还训练了一个相当不错的新网络。它比上一版稍微大一些,但更加准确。不过不用担心,它依然保持了快速性能。在320320像…

C++数据结构:图结构入门

C数据结构 线性顺序表(数组) 线性顺序表(链表) Python风格双向链表的实现 散列表简单实现(hash表) 栈和队列的应用 二叉树之一(数组存储) 二叉树之二(二叉搜索树&#x…

驱动开发:内核PE结构VA与FOA转换

本章将继续探索内核中解析PE文件的相关内容,PE文件中FOA与VA,RVA之间的转换也是很重要的,所谓的FOA是文件中的地址,VA则是内存装入后的虚拟地址,RVA是内存基址与当前地址的相对偏移,本章还是需要用到《驱动开发&#x…

第二十篇、基于Arduino uno,获取MFRC-522 RFID射频IC卡模块的信息,并进行识别——结果导向

0、结果 说明:先来看看串口调试助手显示的结果,"卡号"对应的是IC卡的卡号,"1号已进入"表示识别到正确的卡,也就是之前录入的卡号,因此可以应用到门禁。如果是你想要的,可以接着往下看…

OLED和LCD对比

OLED和LCD对比 今天等离子已不复存在,OLED 出现了新的竞争者。在本概述中,我们将了解这两种技术之间的差异、优缺点等。 我们将从简短介绍每种显示技术的工作原理开始。我们将使用术语“面板”,因为显示技术是功能性电视屏幕的一个组成部分…

(字符串 ) 151. 反转字符串中的单词 ——【Leetcode每日一题】

❓151. 反转字符串中的单词 难度:中等 给你一个字符串 s ,请你反转字符串中 单词 的顺序。 单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。 返回 单词 顺序颠倒且 单词 之间用单个空格连接的结果字符串。 注意&…

面向对象编程 实验三 sduwh 子窗口与控件的基本用法、资源的使用 参考实验报告1

源自网络收集,仅供参考 实验三收集到两份完整报告,这是其一,另一份见本专栏下一篇文章。 实验题目 《面向对象程序设计》 实验三 实验题目:子窗口与控件的基本用法、资源的使用 整体目的:理解、窗口之间的消息传送…

DAY08_JavaScrip

目录 1 JavaScript1.1 JavaScript简介1.2 JavaScript引入方式1.2.1 内联脚本1.2.2 内部脚本1.2.3 外部脚本 1.3 JavaScript基础语法1.3.1 书写语法1.3.2 输出语句1.3.3 变量1.3.4 数据类型1.3.5 运算符1.3.5.1 \和区别1.3.5.2 类型转换 1.3.6 流程控制语句1.3.6.1 if 语句1.3.6…

常见设计模式

单例模式 单例对象的类必须保证只有一个实例存在,整个系统只能使用一个对象实例,优点:不会频繁地创建和销毁对象,浪费系统资源。缺点是没有抽象层,难以扩展。 单例模式的常见写法: 饿汉式单例模式的写法&…

免安装版MySQL数据库的安装和卸载

说明:MySQL早些版本有分安装版和免安装版,可在官网(https://dev.mysql.com/downloads/mysql/)下载,推荐使用最新版本,是免安装版的,下载完配置一下就可以用。 推荐使用最新版本 安装 我这里以…

第3章“程序的机器级表示”:过程

文章目录 3.7 过程3.7.1 栈帧3.7.2 转移控制3.7.3 寄存器使用惯例3.7.4 过程示例3.7.5 递归过程 3.7 过程 一个过程调用包括将数据(以过程参数和返回值的形式)和控制从代码的一部分传递到另一部分。另外,它还必须在进入时为过程的局部变量分…

金融人不能错过的中国人民大学与加拿大女王大学金融硕士,你不能不知道

金融行业是一个发展飞速的行业,越来越多的优秀人士的涌入,让本就卷起来的金融行业变得异常拥挤,怎么办,想留有一席之地只能不断的提升与攀登,金融人不能错过的中国人民大学与加拿大女王大学金融硕士,你不能…

架构EA演进

架构演进 目录概述需求: 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,challenge Survive. happy for hardess to solve den…

spring cloud搭建(service)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

【C++】海量数据处理面试题(位图和布隆过滤器)

都是大厂面试题哦~ 文章目录 一.位图面试题 1.给定100亿个整数,设计算法找到只出现一次的整数 2.给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集? 3.1个文件有100亿个int,1G内…

等价类,边界值,场景法的使用方法和运用场景

等价类: 在很多情况下,很多人想到的测试方法是穷举测试,穷举测试是最全面的测试,但是数据量很大的情况下不太现实,测试效率太低,后来为了减少测试人员的工作量和提高测试的效率和以达到最好的测试质量&…

启明星辰集团CEO严望佳:与AI共生,共建以人为本的数字善治生态体系

近日,2023中国国际大数据产业博览会在贵阳成功召开。启明星辰集团董事长兼首席执行官严望佳应邀出席大会“数据安全产业高质量发展”高端对话,发表“主动应对ChatGPT技术冲击,加强数据安全风险防控”主题演讲,同与会人士共探数据安…

32.有序序列插入一个整数(刷题)

描述 有一个有序数字序列,从小到大排序,将一个新输入的数插入到序列中,保证插入新数后,序列仍然是升序。 输入描述: 第一行输入一个整数N(0≤N≤50)。 第二行输入N个升序排列的整数,输入用空格分隔的N个…

2023年前端面试题汇总-浏览器原理

1. 浏览器安全 1.1. 什么是 XSS 攻击? 1.1. 1. 概念 XSS 攻击指的是跨站脚本攻击,是一种代码注入攻击。攻击者通过在网站注入恶意脚本,使之在用户的浏览器上运行,从而盗取用户的信息如 cookie 等。 XSS 的本质是因为网站没有对…

企业要从哪些方面着手进行数据安全治理?

什么是数据安全治理? 数据安全治理是指组织基于业务发展与合规要求,制定全面且系统的数据安全策略、流程与技术措施,对数据生命周期中的安全风险进行管控与优化的一系列管理活动。它需要从组织层面建立数据安全管理框架,保证敏感数…