[AI]从零开始的so-vits-svc歌声推理及混音教程

一、前言

在之前的教程中已经为大家讲解了如何安装so-vits-svc以及使用现有的模型进行文本转语音。可能有的小伙伴就要问了，那么我们应该怎么使用so-vits-svc来进行角色歌曲的创作呢？其实歌曲的创作会相对麻烦一些，会使用到好几个软件，并且对声音的处理也比较费时间。这里还是推荐时间比较充裕并且有足够耐心的小伙伴观看本次教程。如果你准备好了那就让我们开始吧！

二、谁适合本次教程

本次教程需要小伙伴已经部署好so-vits-svc，因为so-vits-svc的环境部署过于阴间，所以如果你已经将so-vits-svc部署好了并且可以正常使用文本推理语音，那么本次教程的操作对你来说应该不是什么难题。如果你没有安装好so-vits-svc那么就需要查看下面的教程完成so-vits-svc的安装：

so-vits-svc的安装：[AI]从零开始的so-vits-svc webui部署教程(详细)_sovice svc-CSDN博客

本次教程的所有操作都是围绕so-vits-svc进行的，所以安装是前提，其实这样也变相提高了观看本次教程的门槛。

三、资料的准备

本次教程中用到的软件比较多，所以我已经为大家准备好了，大家可以直接点击下方的百度网盘链接进行下载，当然大家也可以自己去寻找这些软件，都是一样的：

软件安装包： https://pan.baidu.com/s/1DA2D-s9C7sDN805Q3f_Eqg?pwd=clxm 提取码: clxm

三、相关软件的安装

来到这一步，说明你已经安装好了so-vits-svc并且可以正常推理，好，让我们进入下一步。这里我们想让AI为我们唱歌主要步骤其实可以分为以下：首先我们需要将要推理的歌的人声提取出来，并且对纯人声进行一些后处理，然后拿给so-vits-svc进行推理，然后将输出的声音进行后处理，最后加上伴奏进行混音。是的，大致流程就是这样，虽然听起来困难，实则一点也不简单，现在就让我们一起来安装完成上面操作所需的软件吧！这里首先需要大家下载好我给的资源包并且解压。这里我们有三个软件需要装，都被我放在了这三个文件夹中：

下面我们来装软件吧，首先从简单的开始。

1.AU的安装

这里我们先进入AU的文件夹，可以看到一个名为“Adobe Audition 2020 SP”的文件夹：

进入这个文件夹就能看到下面的文件和文件夹了：

这里我们直接点击“Set-up.exe”启动AU的安装引导程序：

启动以后就能看到以下界面了：

这里我们选择一下安装的位置：

随后点击“继续”即可：

随后就进入了AU的安装，我们等待安装完成即可：

过一会儿我们就可以看到安装成功的提示了：

我们的桌面也出现了AU的图标：

至此，我们的AU就安装完成了。

2.RipX的安装

现在，我们来安装RipX，这里我们同样进入资料文件夹中的RipX文件夹：

进入以后，我们直接点击“RipXDAW_711.exe”启动RipX的安装引导程序：

启动以后，就能看到已下界面了：

这里我们直接点击“Next”即可：

这里我们同意一下相关的协议然后点击“Next”:

这里我们选择一下安装路径，大家自己选择到非C盘的路径即可。选择完以后，我们直接点击“Install”：

随后就进入了安装，我们等待安装完成即可：

看到下面的界面就安装完成了，这里我们直接将这个窗口关闭即可：

这里我们去到RipX的安装目录，往下滑就能看到一个名为“RipX.exe”的文件：

这里我们将资料文件夹中“RipX\Crack”下的“RipX.exe”复制过来将其替换掉即可：

这样我们的RipX就已经安装完成了，我们的桌面上也出现了RipX的图标：

3.UVR5安装

当我们安装完前两个软件以后，我们来安装UVR5，这是我们所有要安装的软件中最为复杂的一个，因为涉及到安装UVR5的插件，所以，使整个安装过程变得极其麻烦。这里我们先进入资料文件夹的“UVR5”文件夹，就能看到以下文件了：

点击“UVR_v5.6.0_setup_09_26.exe”就能启动UVR5的安装引导程序了：

启动以后，我们就能看到以下界面了：

这里我们同意下方的协议，然后点击“Next”:

下面我们选择一下安装的路径，然后点击“Next”:

这里的选项表示“创建桌面快捷方式”，这里还是建议大家勾上，随后点击“Next”：

最后我们点击“Install”即可：

随后就进入了安装，大家等待安装完成即可：

进度条走完以后，我们直接将这个窗口关闭即可：

我们的桌面上也出现了UVR的图标：

这里我们的UVR就已经安装完成了，我们现在来为UVR安装插件。

首先我们启动UVR，就可以看到以下界面了：

这里我们点击左边的扳手：

然后点击到“Download Center”：

因为UVR的在线下载对网络要求比较高，这里我们就下载离线的插件然后安装。当然，网络环境允许的小伙伴也可以直接下载在线的包，道理都是一样的。我们直接点击“Try Manual Download”：

随后就能看到下面这样的弹窗了：

这里我们选择下拉菜单下的“VR Models”下的“VR Arch Single Model v5:4_HP-Vocal-UVR”：

点击了以后，就出现了下面的窗口：

我们直接点击“Open Link to Model”:

这样UVR就会自动打开我们的浏览器进行下载了：

大家将其保存到自己能找到的地方：

这里我们使用上面的方法下载下面几个插件，我已经在图中框出来了，这里我框出的四个插件大家都要下载：

下载好以后如图所示：

当然，大家使用上面的方法无法下载也没关系，我已经将下载好的，我将其放在了资料文件夹的“UVR/插件”文件夹下：

然后我们将这些文件复制到UVR5安装路径下的“Ultimate Vocal Remover\models\VR_Models”目录下：

我们再次启动UVR5，将“CHOOSE PROCESS METHOD”选为“VR Architecture”：

然后就可以看到我们已经安装的插件了：

至此，我们的UVR5和需要用的插件就已经安装完成了。

4.FFMPEG的安装

如果你的so-vits-svc已经安装成功了，那么FFMPEG肯定已经安装了。这里就不进行过多的讲解了。

至此，我们所有所需的软件都已经安装完成了，下面我们就使用这些软件进行声音的处理。

四、声音前处理

当我们安装完前面的软件以后，就可以进行声音的处理了，这里我们需要从一首歌中分离出三个部分，分别是伴奏，人声，和声。这里我们需要将人声拿给AI进行推理，剩下的伴奏与和声我们需要在后期混音的时候用到。现在我们就开始吧！

这里给大家一张流程图，大家可以跟着流程图操作，也可以跟着我下面的详细教程进行操作，下方的教程中我也会使用流程图为大家讲解：

这里我们可以看到，我我们通过一首歌，然后一步一步将其拆为了人声，伴奏，和声，这些也是最后调音时必须的。

下面我就带着大家将上面的框图都跑一遍，也是为了让大家对整个流程有一定的了解。这里我们首先需要准备一首歌，我们将其放在一个文件夹中，这里我准备的歌为“红色高跟鞋”：

这里建议大家使用音质比较高的歌，因为随着我们后面的操作，音质也会随之下降。

准备好音乐以后，我们就可以启动UVR5了，这里我们首先将歌的路径选入其中，然后选择歌曲的输出路径，这里我们输出到原本歌曲存放的文件夹即可：

这里的输出路径一定要选择正确，不然可能会找不到输出的歌。

这里我们先看图中的步骤，首先我们需要将原唱音频输入到“4_HP”中，通过“Vocals”和“Instrumental”将其拆分为“不带和声的伴奏”和“带和声的干声”：

这里我们首先选择“4_HP”.然后选择“Vocals Only”：

选择好以后，我们点击“Start Processing”：

然后等待完成即可：

完成以后，我们“带和声的干声”生成了：

这里我们将名字改为“歌名+带和声的干声”：

处理完这音频以后，我们还需要回到UVR中，使用“4_HP”的“Instrumental”输出“不带和声的伴奏”。

这里的“4_HP”不变，我们选择“Instrumental Only”：

然后我们再点击“Start Processing”等待即可，完成以后，“不带和声的伴奏”就输出到对应的目录中了：

这里我们同样将文件名改一下，改为“歌名+不带和声的伴奏”：

到这里为止，我们就得到了这首歌的“带和声的干声”和“不带和声的伴奏”。下面，我们还要对“带和声的干声”继续进行操作，我们再次打开框图：

可以看到，这里需要我们使用“5_HP”的“Instrumental”和“Vocals”从“带和声的干声”中分离出“和声”和“干声”。

这里我们将输入的音频选择为“带和声的干声”，这里的输入一定要选择对，是我们刚才输出的“带和声的干声”，输出路径依然不变：

然后在下方，我们选择“5_HP”然后选择“Vocals Only”：

最后我们点击“Start Processing”然后等待输出即可：

输出以后，我们就可以得到以下文件了：

我们将其改名为“歌名+干声”：

然后我们同样选择“5_HP”，然后再选择“Instrumental Only”：

我们同样点击“Start Processing”等待输出即可：

等待结束以后，我们就可以看到输出的音频了：

这里我们将文件名改为“歌名+和声”：

这里我们得到了“和声”和“干声”，下面我们继续看框图，这里还需要我们继续使用干声进行操作：

这里我们将，“干声”作为输入，输出路径依然不变：

下面我们选择“UVR-DeEcho-DeReverb”然后再选择“No Reverb Only”：

然后大家点击“Start Processing”等待生成完成即可：

生成完成以后，就可以看到文件了：

这里我们先不着急改名，我们再将这个文件作为输入：

我们再选择“UVR-DeNoise”，然后再选择“No Noise Only”：

然后我们点击“Start Processing”，等待完成即可：

输出的文件如图所示：

这里我们将文件名称改为“歌名+干声去混响”：

这里，我们已经将这首歌拆到最后一步了，我们可以听一下，应该只有人声了，并且还有一些杂音，后面教大家如何去掉这些杂音。大家听了没有问题之后，我们现在启动“RipX”:

然后我们点击“File”然后点击“Open”,然后将最后的“干声去混响”导入进来:

我们等待加载完成即可：

导入进来以后，我们就能看到非常多的这种杂乱的波形：

大家可以点击一段听一下：

我们可以看到，这上面有非常多的高音，点击听了也会非常奇怪，这些我们就需要删掉：

如果有这种低音，我们也需要删除：

这里的声音就需要靠大家自己听了，需要大家去感受声音是否是杂音，如果是杂音，直接删除即可。这里我们去完所有杂音大概就是这样的，大家最好完整的多听几遍，确保杂音出现的概率降到最低：

做完上面的操作以后，我们直接点击“Export....”：

这里我们将导出的名称改为“歌名+干声去混响+RipX”表示这段音频已经被RipX处理过了。过后直接点击“Export”即可。

导出以后，我们就得到了下面的文件：

这就是我们提取出来的最纯净的人声了。至此，我们声音的前处理就完成了。

五、使用so-vits-svc推理歌声

这里我们先启动so-vits-svc，启动步骤这里就不多说了，之前部署过的小伙伴应该都知道如何启动，启动后如图所示：

这里我们将模型和配置文件导入进来：

导入模型和配置文件以后点击“加载模型”：

模型上传完成以后，我们选择说话人，这里我直接选择芙宁娜为说话人：

然后来到下面的F0预测，建议大家选择“Crepe”，这个预测可能会跑调，但是基本不会出现哑音，当然，大家也可以选择pm或者dio，这些预测就可能会出现哑音:

选择上面的哪个还是需要大家自己用耳朵去感受。这种感觉只可意会。下方的参数，建议大家只动变调，这里如果角色声音训练数据的数据集音调比较高或者是这首歌的音调比较高的话，建议适当降调，这样会减少哑音，后面也会教大家如何处理哑音：

当我们配置好上面的参数以后，就可以直接导入我们之前处理好的纯人声了，这里直接在“音频转音频处上传即可”：

上传完成以后，我们直接点击“音频转换”：

这里我们等待转换完成即可：

转换完成以后，大家可以试听一下，直接点击这里的播放键即可：

这里我们需要通过不断的推理和听，去判断什么样的参数，什么样的F0预测效果是最好的，大家选择效果最好的音频点击最右边的三个点就可以下载音频了：

这里我们将音频下载到原本的文件夹中，并且命名为“歌名+角色名”，这也表示这首歌被AI推理过了：

这样，我们使用AI推理歌声就算是完成了。

六、推理后的优化

当我们得到一份AI推理的语音以后，我们还需要进行一些后处理，这里我们将其再次放到RipX中：

这里我们可以看到，这里的歌声被AI处理以后，又变得非常杂乱，我们还是用上面的处理方法，将歌声中的高音和低音都去掉。如果有哑音，也可以去掉。如果歌声中哑音太多了，我们将其去除以后，再拿给so-vits-svc进行推理。这样效果就会好很多，如果歌声中没有太多的哑音，直接将其删除即可。这里我们将其处理完以后，输出文件名为“歌名+角色名+RipX”,表示这段音频已经被RipX处理过了：