音频降噪之人声分离

news2024/11/26 22:42:44

音频降噪

Ultimate Vocal Remover GUI v5.5.1工具使用

1:是什么

集成目前最先进的从音频文件中分离人声的源分离模型。
本工程,将Ultimate Vocal Remover GUI v5.5.1界面工具,改写成可以在服务器端批量推理的工具。
界面仓库地址:https://github.com/Anjok07/ultimatevocalremovergui

2: 有哪些功能

暂不支持两种模型联合处理。

(1)VR Architecture:

具有9种模式的模型,这些模型使用幅度谱图进行信源分离(VR是索尼的AI算法)
1)1_HP-UVR.pth:针对乐器伴奏的模型,1,效果比2_HP-UVR还差一点
2)2_HP-UVR.pth:上个模型微调版本,1,人声分离效果没有3_HP-Vocal-UVR好
3)3_HP-Vocal-UVR.pth:强化人声提取,1,还可以,但是重点噪音的地方,存在把主要人声也去掉的现象

4)4_HP-Vocal-UVR.pth:上一个模型微调版,比上一个版本更激进,1,跟3_HP-Vocal-UVR差不太多

5)5_HP-Karaoke-UVR.pth:分离主要人声,能够去掉背景人声 ,1,效果一般
6)6_HP-Karaoke-UVR.pth: 分离主要人声,能够去掉背景人声
7)7_HP2-UVR.pth: 使用更多数据集和新参数训练出的更强大的乐器模型
8)8_HP2-UVR.pth:上一个模型微调版
9)9_HP2-UVR.pth:上一个模型微调版

(2)MDX-Net:

具有5种模式的模型,这些模型使用混合频谱/波形进行源分离(处理高音质音频的AI算法,对人声的识别提取能力强大,就是慢一些)
1)UVR_MDXNET_1_9703.onnx:在SDR上得分9.703 ,1,效果没有VR Architecture或者Demucsv4好
2)UVR_MDXNET_2_9682.onnx:在SDR上得分9.682
3)UVR_MDXNET_3_9662.onnx:在SDR上得分9.662
4)UVR_MDXNET_KARA.onnx:分离主要人声,保留背景人声,1,不知是否参数设置有问题,效果很差
5)UVR_MDXNET_main.onnx:MDX-Net最强也是最耗资源的模型

(3)Demucs:

支持v1-v4:这些模型使用混合频谱/波形进行源分离(Demucs是Facebook开源的声音分离模型,可以分离人声和乐器)
1) v4 | hdemucs_mmi :1,混合 Demucs v3模型重新训练
2)v4 | htdemucs ;1,v4第一个默认版本
3) v4 | htdemucs_ft :1, htdemucs微调版本,分离将花费4倍的时间 但可能会好一点。与第一个版本相同的训练集。
4) v4 | htdemucs_6s : 1 ,6 个轨道版本,对人声剥离的比较干净,感觉人声分离的最清晰
5) v4 | UVR_Model_ht
6) v3 | UVR_Model_Bag
7) v3 | UVR_Model_2
8) v3 | UVR_Model_1
9) v3 | repro_mdx_a_time
10) v3 | repro_mdx_a_hybrid
11) v3 | repro_mdx_a
12) v3 | mdx_q
13) v3 | mdx_extra_q
14) v3 | mdx_extra:1
15) v3 | mdx :1 ,之前比赛里的第1名,最高质量的模型
官网仓库地址:https://github.com/facebookresearch/demucs
网络结构:
double U-Net encoder/decoder structure。
在这里插入图片描述
一个轨道一个模型,除了htdemucs_6s,其他,比如htdemucs与htdemucs_ft等,均4个音轨道,分别[“drums”,“bass”,“other”,“vocals”],每个模型结构一样,输入一段音频频谱,输出一段对应音轨的音频频谱。htdemucs_6s包含6个音轨道模型,分别为[“drums”,“bass”,“other”,“vocals”,“guitar”,“piano”]
滑窗:

segment = int(model.samplerate * model.segment) #一般是固定的
stride = int((1 - overlap) * segment) #滑窗步长,跟overlap有关,overlap默认0.25,此时stride=257985
offsets = range(0, length, stride) #length为音频长度

3:怎么用

0,
下载源界面仓库工程,地址:https://github.com/Anjok07/ultimatevocalremovergui
脚本仓库地址:https://download.csdn.net/download/jiafeier_555/88085675?spm=1001.2014.3001.5501
将脚本仓库地址脚本添加到源界面仓库工程,按源界面仓库工程要求配置环境,即可跑通。
1,配置参数

inputPaths: "./wav" #音频文件夹
export_path: "./wav_result" #人声分离后的结果保存
chosen_process_method_var: "MDX-Net"    # MDX-Net,Demucs,VR Architecture,Ensemble Mode
demucs_model_var: htdemucs_6s  #v4 | UVR_Model_ht,v4 | htdemucs_6s,v4 | htdemucs_ft,v4 | htdemucs,v4 | hdemucs_mmi
mdx_net_model_var: UVR_MDXNET_KARA  #UVR_MDXNET_1_9703,UVR_MDXNET_KARA
vr_model_var: 3_HP-Vocal-UVR  #5_HP-Karaoke-UVR,4_HP-Vocal-UVR ,3_HP-Vocal-UVR,2_HP-UVR,1_HP-UVR
is_primary_stem_only_var: True  #True:表示只输出人声音频
aggression_setting:  4 #VR Architecture算法模式下,除燥的强度

2,运行脚本

python infer.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/784710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题三时间序列预测Python代码分析

2023 年第二届钉钉杯大学生大数据挑战赛 初赛 B:美国纽约公共自行车使用量预测分析 问题三时间序列预测Python代码分析 相关链接 【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题一Python代码分析 【2023 年…

Jetson Orin Nano 平台适配IMX715 camera驱动调试记录

1. 前言 Jetson Orin Nano Devkit适配imx715 camera 使用argus_camera捕获流,图片是黑色的 用示波器来测量mipi信号,信号正常 Jetpack版本: sensor参数: dts配置 i2c@1 { sw_mipi_cam1: cam_1@1a { compatible = “sensing,imx715_1”; /* I2C device address */ reg =…

2.4G无线遥控开关插座方案开发

在日常生活和工业生产中,无线遥控开关常用于控制门闸、卷帘门窗、水泵电机等场景。宇凡微推出的免布线遥控开关方案基于2.4G合封芯片设计开发,遥控插座芯片提供了信号接收端按键编码设定、继电器控制、状态显示等功能。 一、遥控开关方案介绍 无线遥控开…

ChatGPT付费创作系统小程序端开发工具提示打开显示无法打开页面解决办法

很多会员在上传小程序前端时经常出现首页无法打开的情况,错误提示无法打开该页面,不支持打开,这种问题其实就是权限问题,页面是通过调用web-view访问,说明业务域名有问题,很多都是合法域名加了,…

阿里云Maven仓库文件

apache snapshots → https://maven.aliyun.com/repository/apache-snapshots central → https://maven.aliyun.com/repository/central google → https://maven.aliyun.com/repository/google gradle-plugin → https://maven.aliyun.com/repository/gradle-plugin jcenter …

SpringBoot + Vue前后端分离项目实战 || 六:Jwt加密整合配置

文章目录 回顾添加依赖Jwt依赖Jwt配置定义Jwt拦截器注册Jwt拦截器,配置需要验证token的URL 测试Jwt修改登录等逻辑 回顾 在之前的系统中,我们利用UUID配合Redis以达到角色登录的功能。 当前整个系统存在一个问题:人为修改token值后&#xf…

ItemsControl的常见用法

ItemsControl基本概念 用法1&#xff1a;设置奇偶行不同 <ItemsControl AlternationCount"2" ItemsSource"{Binding Stars}"><ItemsControl.Template><ControlTemplate TargetType"ItemsControl"><DockPanel><TextB…

探秘MySQL底层架构:设计与实现流 程一览

点赞还是要求一下的&#xff0c;万一屏幕前的大漂亮&#xff0c;还有大帅哥就点赞了呢&#xff01;&#xff01;&#xff01;&#xff01; Author: 源码时代 Raymon老师 说在前头 Mysql&#xff0c;作为一款优秀而广泛使用的数据库管理系统&#xff0c;对于众多Java工程师来…

【NLP】图解变压器(transformer)

一、说明 在这篇文章中&#xff0c;我们将看看 The Transformer——一个利用注意力来提高这些模型训练速度的模型。转换器在特定任务中优于谷歌神经机器翻译模型。然而&#xff0c;最大的好处来自变压器如何适应并行化。事实上&#xff0c;谷歌云建议使用The Transformer作为参…

C语言第八课-----函数定义和使用的延续

作者前言 个人主页::小小页面 gitee页面:秦大大 一个爱分享的小博主 欢迎小可爱们前来借鉴 __________________________________________________________ 目录 1.复习 库函数 自定义函数 函数参数 函数调用 函数的嵌套调用和链式访问 2. 函…

SQL-每日一题【601.体育馆的人流量】

题目 表&#xff1a;Stadium 编写一个 SQL 查询以找出每行的人数大于或等于 100 且 id 连续的三行或更多行记录。 返回按 visit_date 升序排列 的结果表。 查询结果格式如下所示。 示例 1: 解题思路 前置知识 自然连接 自连接可以理解为自己连接自己&#xff0c;在一张表上…

【JAVASE】初识JAVA语言

⭐ 作者&#xff1a;小胡_不糊涂 &#x1f331; 作者主页&#xff1a;小胡_不糊涂的个人主页 &#x1f4c0; 收录专栏&#xff1a;浅谈Java &#x1f496; 持续更文&#xff0c;关注博主少走弯路&#xff0c;谢谢大家支持 &#x1f496; 初识JAVA 1. Java语言概述1.1 Java是什么…

5月PMP成绩开始公布,你收到邮件了吗?

出&#xff01;成&#xff01;绩&#xff01;啦&#xff01; 分数公布啦&#xff01; 你&#xff01; 收到通过邮件了吗&#xff01; 等了好久终于等到今天&#xff01;心心念念的PMP考试成绩今天终于公布了&#xff01;凌晨五点开始就陆续听到了不少学员通过认证考试的消息…

模型构建——使用逻辑回归构建模型,lightGBM进行特征筛选

1、模型构建流程 1.1 实验设计 新的模型要跟原有方案对比&#xff0c;而且是通过实验证明&#xff0c;特别注意模型和策略不能同时调整。一般实验设计包含以下流程&#xff1a; 问题&#xff1a;业务稳定后&#xff0c;可以去掉人工审核吗&#xff1f; 答&#xff1a;不可以…

PHP百度小程序rtc-room组件token获取经历

【前言】 目前就职盘古网络集团&#xff0c;一名PHPer程序员。我们的主营业务是百度产品相关&#xff0c;所以最近有了一个百度小程序项目&#xff0c;涉及其音视频组件做直播。 开发文档 百度智能小程序文档 鉴权token 百度智能小程序文档 嗯&#xff0c;很好的功能。结果测…

Keil系列教程06_工程目标选项配置(二)

1写在前面 本文接着上一篇文章《Keil系列教程05_工程目标选项配置&#xff08;一&#xff09;》讲述的工程目标选项的后五项配置&#xff1a;C/C编译、 Asm汇编、 Linker链接、 Debug调试、 Utilities公共。 2 C/C编译 这里“C/C选项”和“Asm选项”类似&#xff0c;主要是与…

数学建模-因子分析模型

导入数据的路径不能有英文 这边的框框自己放的

iOS-持久化

目的 1.快速展示&#xff0c;提升体验 已经加载过的数据&#xff0c;用户下次查看时&#xff0c;不需要再次从网络&#xff08;磁盘&#xff09;加载&#xff0c;直接展示给用户 2.节省用户流量&#xff08;节省服务器资源&#xff09; 对于较大的资源数据进行缓存&#xf…

探索容器镜像安全管理之道

邓宇星&#xff0c;Rancher 中国软件架构师&#xff0c;7 年云原生领域经验&#xff0c;参与 Rancher 1.x 到 Rancher 2.x 版本迭代变化&#xff0c;目前负责 Rancher for openEuler(RFO)项目开发。 最近 Rancher v2.7.4 发布了&#xff0c;作为一个安全更新版本&#xff0c;也…

(二)安装部署InfluxDB

以下内容来自 尚硅谷&#xff0c;写这一系列的文章&#xff0c;主要是为了方便后续自己的查看&#xff0c;不用带着个PDF找来找去的&#xff0c;太麻烦&#xff01; 第 2 章 安装部署InfluxDB 1、linux 安装方式如下 通过包管理工具安装&#xff0c;比如apt 和yum直接下载可执…