[AI]从零开始的so-vits-svc歌声推理及混音教程

news2025/3/6 10:14:12

一、前言

        在之前的教程中已经为大家讲解了如何安装so-vits-svc以及使用现有的模型进行文本转语音。可能有的小伙伴就要问了,那么我们应该怎么使用so-vits-svc来进行角色歌曲的创作呢?其实歌曲的创作会相对麻烦一些,会使用到好几个软件,并且对声音的处理也比较费时间。这里还是推荐时间比较充裕并且有足够耐心的小伙伴观看本次教程。如果你准备好了那就让我们开始吧!

二、谁适合本次教程

        本次教程需要小伙伴已经部署好so-vits-svc,因为so-vits-svc的环境部署过于阴间,所以如果你已经将so-vits-svc部署好了并且可以正常使用文本推理语音,那么本次教程的操作对你来说应该不是什么难题。如果你没有安装好so-vits-svc那么就需要查看下面的教程完成so-vits-svc的安装:

so-vits-svc的安装:[AI]从零开始的so-vits-svc webui部署教程(详细)_sovice svc-CSDN博客

本次教程的所有操作都是围绕so-vits-svc进行的,所以安装是前提,其实这样也变相提高了观看本次教程的门槛。

三、资料的准备

        本次教程中用到的软件比较多,所以我已经为大家准备好了,大家可以直接点击下方的百度网盘链接进行下载,当然大家也可以自己去寻找这些软件,都是一样的:

软件安装包: https://pan.baidu.com/s/1DA2D-s9C7sDN805Q3f_Eqg?pwd=clxm 提取码: clxm

三、相关软件的安装

        来到这一步,说明你已经安装好了so-vits-svc并且可以正常推理,好,让我们进入下一步。这里我们想让AI为我们唱歌主要步骤其实可以分为以下:首先我们需要将要推理的歌的人声提取出来,并且对纯人声进行一些后处理,然后拿给so-vits-svc进行推理,然后将输出的声音进行后处理,最后加上伴奏进行混音。是的,大致流程就是这样,虽然听起来困难,实则一点也不简单,现在就让我们一起来安装完成上面操作所需的软件吧!这里首先需要大家下载好我给的资源包并且解压。这里我们有三个软件需要装,都被我放在了这三个文件夹中:

下面我们来装软件吧,首先从简单的开始。

1.AU的安装

        这里我们先进入AU的文件夹,可以看到一个名为“Adobe Audition 2020 SP”的文件夹:

进入这个文件夹就能看到下面的文件和文件夹了:

这里我们直接点击“Set-up.exe”启动AU的安装引导程序:

启动以后就能看到以下界面了:

这里我们选择一下安装的位置:

随后点击“继续”即可:

随后就进入了AU的安装,我们等待安装完成即可:

过一会儿我们就可以看到安装成功的提示了:

我们的桌面也出现了AU的图标:

至此,我们的AU就安装完成了。

2.RipX的安装

        现在,我们来安装RipX,这里我们同样进入资料文件夹中的RipX文件夹:

进入以后,我们直接点击“RipXDAW_711.exe”启动RipX的安装引导程序:

启动以后,就能看到已下界面了:

这里我们直接点击“Next”即可:

这里我们同意一下相关的协议然后点击“Next”:

这里我们选择一下安装路径,大家自己选择到非C盘的路径即可。选择完以后,我们直接点击“Install”:

随后就进入了安装,我们等待安装完成即可:

看到下面的界面就安装完成了,这里我们直接将这个窗口关闭即可:

这里我们去到RipX的安装目录,往下滑就能看到一个名为“RipX.exe”的文件:

这里我们将资料文件夹中“RipX\Crack”下的“RipX.exe”复制过来将其替换掉即可:

这样我们的RipX就已经安装完成了,我们的桌面上也出现了RipX的图标:

3.UVR5安装

        当我们安装完前两个软件以后,我们来安装UVR5,这是我们所有要安装的软件中最为复杂的一个,因为涉及到安装UVR5的插件,所以,使整个安装过程变得极其麻烦。这里我们先进入资料文件夹的“UVR5”文件夹,就能看到以下文件了:

点击“UVR_v5.6.0_setup_09_26.exe”就能启动UVR5的安装引导程序了:

启动以后,我们就能看到以下界面了:

这里我们同意下方的协议,然后点击“Next”:

下面我们选择一下安装的路径,然后点击“Next”:

这里的选项表示“创建桌面快捷方式”,这里还是建议大家勾上,随后点击“Next”:

最后我们点击“Install”即可:

随后就进入了安装,大家等待安装完成即可:

进度条走完以后,我们直接将这个窗口关闭即可:

我们的桌面上也出现了UVR的图标:

这里我们的UVR就已经安装完成了,我们现在来为UVR安装插件。

首先我们启动UVR,就可以看到以下界面了:

这里我们点击左边的扳手:

然后点击到“Download Center”:

因为UVR的在线下载对网络要求比较高,这里我们就下载离线的插件然后安装。当然,网络环境允许的小伙伴也可以直接下载在线的包,道理都是一样的。我们直接点击“Try Manual Download”:

随后就能看到下面这样的弹窗了:

这里我们选择下拉菜单下的“VR Models”下的“VR Arch Single Model v5:4_HP-Vocal-UVR”:

点击了以后,就出现了下面的窗口:

我们直接点击“Open Link to Model”:

这样UVR就会自动打开我们的浏览器进行下载了:

大家将其保存到自己能找到的地方:

这里我们使用上面的方法下载下面几个插件,我已经在图中框出来了,这里我框出的四个插件大家都要下载:

下载好以后如图所示:

当然,大家使用上面的方法无法下载也没关系,我已经将下载好的,我将其放在了资料文件夹的“UVR/插件”文件夹下:

然后我们将这些文件复制到UVR5安装路径下的“Ultimate Vocal Remover\models\VR_Models”目录下:

我们再次启动UVR5,将“CHOOSE PROCESS METHOD”选为“VR Architecture”:

然后就可以看到我们已经安装的插件了:

至此,我们的UVR5和需要用的插件就已经安装完成了。

4.FFMPEG的安装

        如果你的so-vits-svc已经安装成功了,那么FFMPEG肯定已经安装了。这里就不进行过多的讲解了。

至此,我们所有所需的软件都已经安装完成了,下面我们就使用这些软件进行声音的处理。

四、声音前处理

        当我们安装完前面的软件以后,就可以进行声音的处理了,这里我们需要从一首歌中分离出三个部分,分别是伴奏,人声,和声。这里我们需要将人声拿给AI进行推理,剩下的伴奏与和声我们需要在后期混音的时候用到。现在我们就开始吧!

这里给大家一张流程图,大家可以跟着流程图操作,也可以跟着我下面的详细教程进行操作,下方的教程中我也会使用流程图为大家讲解:

这里我们可以看到,我我们通过一首歌,然后一步一步将其拆为了人声,伴奏,和声,这些也是最后调音时必须的。

下面我就带着大家将上面的框图都跑一遍,也是为了让大家对整个流程有一定的了解。这里我们首先需要准备一首歌,我们将其放在一个文件夹中,这里我准备的歌为“红色高跟鞋”:

这里建议大家使用音质比较高的歌,因为随着我们后面的操作,音质也会随之下降。

准备好音乐以后,我们就可以启动UVR5了,这里我们首先将歌的路径选入其中,然后选择歌曲的输出路径,这里我们输出到原本歌曲存放的文件夹即可:

这里的输出路径一定要选择正确,不然可能会找不到输出的歌。

这里我们先看图中的步骤,首先我们需要将原唱音频输入到“4_HP”中,通过“Vocals”和“Instrumental”将其拆分为“不带和声的伴奏”和“带和声的干声”:

这里我们首先选择“4_HP”.然后选择“Vocals Only”:

选择好以后,我们点击“Start Processing”:

然后等待完成即可:

完成以后,我们“带和声的干声”生成了:

这里我们将名字改为“歌名+带和声的干声”:

处理完这音频以后,我们还需要回到UVR中,使用“4_HP”的“Instrumental”输出“不带和声的伴奏”。

这里的“4_HP”不变,我们选择“Instrumental Only”:

然后我们再点击“Start Processing”等待即可,完成以后,“不带和声的伴奏”就输出到对应的目录中了:

这里我们同样将文件名改一下,改为“歌名+不带和声的伴奏”:

到这里为止,我们就得到了这首歌的“带和声的干声”和“不带和声的伴奏”。下面,我们还要对“带和声的干声”继续进行操作,我们再次打开框图:

可以看到,这里需要我们使用“5_HP”的“Instrumental”和“Vocals”从“带和声的干声”中分离出“和声”和“干声”。

这里我们将输入的音频选择为“带和声的干声”,这里的输入一定要选择对,是我们刚才输出的“带和声的干声”,输出路径依然不变:

然后在下方,我们选择“5_HP”然后选择“Vocals Only”:

最后我们点击“Start Processing”然后等待输出即可:

输出以后,我们就可以得到以下文件了:

我们将其改名为“歌名+干声”:

然后我们同样选择“5_HP”,然后再选择“Instrumental Only”:

我们同样点击“Start Processing”等待输出即可:

等待结束以后,我们就可以看到输出的音频了:

这里我们将文件名改为“歌名+和声”:

这里我们得到了“和声”和“干声”,下面我们继续看框图,这里还需要我们继续使用干声进行操作:

这里我们将,“干声”作为输入,输出路径依然不变:

下面我们选择“UVR-DeEcho-DeReverb”然后再选择“No Reverb Only”:

然后大家点击“Start Processing”等待生成完成即可:

生成完成以后,就可以看到文件了:

这里我们先不着急改名,我们再将这个文件作为输入:

我们再选择“UVR-DeNoise”,然后再选择“No Noise Only”:

然后我们点击“Start Processing”,等待完成即可:

输出的文件如图所示:

这里我们将文件名称改为“歌名+干声去混响”:

这里,我们已经将这首歌拆到最后一步了,我们可以听一下,应该只有人声了,并且还有一些杂音,后面教大家如何去掉这些杂音。大家听了没有问题之后,我们现在启动“RipX”:

然后我们点击“File”然后点击“Open”,然后将最后的“干声去混响”导入进来:

我们等待加载完成即可:

导入进来以后,我们就能看到非常多的这种杂乱的波形:

大家可以点击一段听一下:

我们可以看到,这上面有非常多的高音,点击听了也会非常奇怪,这些我们就需要删掉:

如果有这种低音,我们也需要删除:

这里的声音就需要靠大家自己听了,需要大家去感受声音是否是杂音,如果是杂音,直接删除即可。这里我们去完所有杂音大概就是这样的,大家最好完整的多听几遍,确保杂音出现的概率降到最低:

做完上面的操作以后,我们直接点击“Export....”:

这里我们将导出的名称改为“歌名+干声去混响+RipX”表示这段音频已经被RipX处理过了。过后直接点击“Export”即可。

导出以后,我们就得到了下面的文件:

 这就是我们提取出来的最纯净的人声了。至此,我们声音的前处理就完成了。

五、使用so-vits-svc推理歌声

        这里我们先启动so-vits-svc,启动步骤这里就不多说了,之前部署过的小伙伴应该都知道如何启动,启动后如图所示:

这里我们将模型和配置文件导入进来:

导入模型和配置文件以后点击“加载模型”:

模型上传完成以后,我们选择说话人,这里我直接选择芙宁娜为说话人:

然后来到下面的F0预测,建议大家选择“Crepe”,这个预测可能会跑调,但是基本不会出现哑音,当然,大家也可以选择pm或者dio,这些预测就可能会出现哑音:

选择上面的哪个还是需要大家自己用耳朵去感受。这种感觉只可意会。下方的参数,建议大家只动变调,这里如果角色声音训练数据的数据集音调比较高或者是这首歌的音调比较高的话,建议适当降调,这样会减少哑音,后面也会教大家如何处理哑音:

当我们配置好上面的参数以后,就可以直接导入我们之前处理好的纯人声了,这里直接在“音频转音频处上传即可”:

上传完成以后,我们直接点击“音频转换”:

这里我们等待转换完成即可:

转换完成以后,大家可以试听一下,直接点击这里的播放键即可:

这里我们需要通过不断的推理和听,去判断什么样的参数,什么样的F0预测效果是最好的,大家选择效果最好的音频点击最右边的三个点就可以下载音频了:

这里我们将音频下载到原本的文件夹中,并且命名为“歌名+角色名”,这也表示这首歌被AI推理过了:

这样,我们使用AI推理歌声就算是完成了。

六、推理后的优化

        当我们得到一份AI推理的语音以后,我们还需要进行一些后处理,这里我们将其再次放到RipX中:

 这里我们可以看到,这里的歌声被AI处理以后,又变得非常杂乱,我们还是用上面的处理方法,将歌声中的高音和低音都去掉。如果有哑音,也可以去掉。如果歌声中哑音太多了,我们将其去除以后,再拿给so-vits-svc进行推理。这样效果就会好很多,如果歌声中没有太多的哑音,直接将其删除即可。这里我们将其处理完以后,输出文件名为“歌名+角色名+RipX”,表示这段音频已经被RipX处理过了:

当我们使用AI推理出一个不错的人声以后我们就可以进行后期的混音了。这里希望大家不要有强迫症,不要在推理声音这一步去追求完美,AI的能力是有限的,我们需要理解,即使有些声音不正常但是在混音以后也不容易被听出来。

七、后期混音

        这里我们终于来到了最后一步,那就是混音,这里我们需要打开AU:

这里我们需要创建一个多轨混音,点击“多轨”:

这里的名称我们直接使用音乐的名称即可,然后路径就放在我们之前存放歌的目录,选择好以后,点击“确定”:

后面我们就可以看到很多条音轨了:

我们右键一条音轨,然后点击“插入”再点击“文件”:

这里我们首先把我们使用AI处理好的人声放进来:

我们使用上面的方法将最开始我们分离出的“不带和声的伴奏”与“和声”都添加进来:

都导入以后,我们就可以点击下方的“播放”来听一下我们的杰作了:

我们播放以后,可以发现和声的音轨是声音比较少的,伴奏一直都有声音,人声只有在唱的时候才会有声音:

大家可以调整每一条音轨的音量将其调整到舒适的音量,如果AI推理的声音质量不高,就通过加大伴奏的音量来掩盖瑕疵。

当我们将其调整到比较好的效果以后,我们就可以导出了,这里我们直接点击“文件”,再点击“导出”,再点击“多轨混音”。这里一定要导出多轨混音,然后选择“整个会话”:

这里我们直接选择好路径以后,点击“确定”即可。

至此,我们一首完整的AI翻唱的歌就做好了。

八、结语

        大家应该发现了,我们想要做一首歌是非常不容易的,并且也非常消耗时间。大家可以按照上面的步骤进行操作,如果在操作中遇到问题,欢迎随时在评论区或者私信中向我提问,那么最后,感谢大家的观看!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2310488.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringMVC控制器定义:@Controller注解详解

文章目录 引言一、Controller注解基础二、RequestMapping与请求映射三、参数绑定与数据校验四、RestController与RESTful API五、控制器建议与全局处理六、控制器测试策略总结 引言 在SpringMVC框架中,控制器(Controller)是整个Web应用的核心组件,负责处…

免费分享一个软件SKUA-GOCAD-2022版本

若有需要,可以下载。 下载地址 通过网盘分享的文件:Paradigm SKUA-GOCAD 22 build 2022.06.20 (x64).rar 链接: https://pan.baidu.com/s/10plenNcMDftzq3V-ClWpBg 提取码: tm3b 安装教程 Paradigm SKUA-GOCAD 2022版本v2022.06.20安装和破解教程-CS…

学习threejs,使用LineBasicMaterial基础线材质

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.LineBasicMaterial1.…

java面试题(一)基础部分

1.【String】StringBuffer和StringBuilder区别? String对象是final修饰的不可变的。对String对象的任何操作只会生成新对象,不会对原有对象进行操作。 StringBuilder和StringBuffer是可变的。 其中StringBuilder线程不安全,但开销小。 St…

Mac mini M4安装nvm 和node

先要安装Homebrew(如果尚未安装)。在终端中输入以下命令: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 根据提示操作完成Homebrew的安装。 安装nvm。在终端中输入以下命令&#xf…

Ubuntu20.04双系统安装及软件安装(四):国内版火狐浏览器

Ubuntu20.04双系统安装及软件安装(四):国内版火狐浏览器 Ubuntu系统会自带火狐浏览器,但该浏览器不是国内版的,如果平常有记录书签、浏览记录、并且经常使用浏览器插件的习惯,建议重装火狐浏览器为国内版的…

react中如何使用使用react-redux进行数据管理

以上就是react-redux的使用过程,下面我们开始优化部分:当一个组件只有一个render生命周期,那么我们可以改写成一个无状态组件(UI组件到无状态组件,性能提升更好)

DeepSeek使用手册分享-附PDF下载连接

本次主要分享DeepSeek从技术原理到使用技巧内容,这里展示一些基本内容,后面附上详细PDF下载链接。 DeepSeek基本介绍 DeepSeek公司和模型的基本简介,以及DeepSeek高性能低成本获得业界的高度认可的原因。 DeepSeek技术路线解析 DeepSeek V3…

新品速递 | 多通道可编程衰减器+矩阵系统,如何破解复杂通信测试难题?

在无线通信技术快速迭代的今天,多通道可编程数字射频衰减器和衰减矩阵已成为测试领域不可或缺的核心工具。它们凭借高精度、灵活配置和强大的多通道协同能力,为5G、物联网、卫星通信等前沿技术的研发与验证提供了关键支持。从基站性能测试到终端设备校准…

Data truncation: Out of range value for column ‘allow_invite‘ at row 1

由于前端传递的数值超过了mysql数据库中tinyint类型的取值范围,所以就会报错。 Caused by: com.mysql.cj.jdbc.exceptions.MysqlDataTruncation: Data truncation: Out of range value for column allow_invite at row 1at com.mysql.cj.jdbc.exceptions.SQLExcept…

HCIA—IP路由静态

一、概念及作用 1、概念:IP路由是指在IP网络中,数据从源节点到目的节点所经过的路径选择和数据转发的过程。 2、作用 ①实现网络互联:使不同网段的设备能够相互通信,构建大规模的互联网络 ②优化网络拓扑:根据网络…

Hz的DP总结

前言: 鉴于本人是一个DP低手,以后每写一道DP都会在本篇博客下进行更新,包括解题思路,方法,尽量做到分类明确,其中的题目来自包括但并不限于牛客,洛谷,CodeForces,AtCode…

【三极管8050和8550贴片封装区分脚位】

这里写自定义目录标题 三极管8050和8550贴片封装区分脚位三极管8050三极管8550 三极管8050和8550贴片封装区分脚位 三极管8050 增加了 检查列表 功能。 [ NPN型三极管(SS8050) ]: SS8050的使用及引脚判断方法 三极管8550

C# Unity 唐老狮 No.6 模拟面试题

本文章不作任何商业用途 仅作学习与交流 安利唐老狮与其他老师合作的网站,内有大量免费资源和优质付费资源,我入门就是看唐老师的课程 打好坚实的基础非常非常重要: 全部 - 游习堂 - 唐老狮创立的游戏开发在线学习平台 - Powered By EduSoho 如果你发现了文章内特殊的字体格式,…

二、Visual Studio2022配置OpenGL环境

文章目录 一、OpenGL库的下载二、OpenGL环境配置三、测试代码演示 一、OpenGL库的下载 OpenGL配置的库是GLFWGLAD ,GLFW 主要用于创建 OpenGL 窗口和管理输入;GLAD 主要用于加载 OpenGL 函数 GLFW下载地址 下载Windows的32bit版本即可。 下载完成解压如…

YOLOv8改进------------SPFF-LSKA

YOLOv8改进------------SPFF-LSKA 1、LSAK.py代码2、添加YAML文件yolov8_SPPF_LSKA.yaml3、添加SPPF_LSKA代码4、ultralytics/nn/modules/__init__.py注册模块5、ultralytics/nn/tasks.py注册模块6、导入yaml文件训练 1、LSAK.py代码 论文 代码 LSKA.py添加到ultralytics/nn/…

240 Vocabulary Words Kids Need to Know

《240 Vocabulary Words Kids Need to Know》是美国学乐出版社(Scholastic)推出的词汇学习系列练习册,专为美国小学阶段(G1-G6)设计,基于CCSS(美国共同核心州立标准)编写&#xff0c…

AI-Deepseek + PPT

01--Deepseek提问 首先去Deepseek问一个问题: Deepseek的回答: 在汽车CAN总线通信中,DBC文件里的信号处理(如初始值、系数、偏移)主要是为了 将原始二进制数据转换为实际物理值,确保不同电子控制单元&…

【五.LangChain技术与应用】【8.LangChain提示词模板基础:从入门到精通】

早上八点,你端着咖啡打开IDE,老板刚甩来需求:“做个能自动生成产品描述的AI工具”。你自信满满地打开ChatGPT的API文档,结果半小时后对着满屏的"输出结果不稳定"、"格式总出错"抓耳挠腮——这时候你真需要好好认识下LangChain里的提示词模板了。 一、…

LeetCode 718.最长重复子数组(动态规划,Python)

给两个整数数组 nums1 和 nums2 ,返回 两个数组中 公共的 、长度最长的子数组的长度 。 示例 1: 输入:nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出:3 解释:长度最长的公共子数组是 [3,2,1] 。 示例 2: 输…