大模型之三十一-音源分离

news2024/11/13 0:05:26

大模型之三十一-音乐分离模型

因为TTS模型训练还有几个结果没出,本篇先介绍一下音乐分离模型吧。其实可能你也猜到了,一部分TTS的数据是网上爬来的,这种音频可能会有背景音之类的,这里需要将乐器类的伴奏去掉。所以就此介绍一下本篇文章吧。

在选择和使用音乐源分离工具时,没有“一劳永逸”的最佳方案,因为每首歌曲的录制和混音方式都有所不同。因此,尝试和比较不同的模型和设置,根据具体情况调整策略,是达到最佳分离效果的关键。

因为本篇集中在对人声的提取,所以重点关注于vocal的性能。

当前音乐多轨分离比较流行的架构是Demucs、MDX-Net、MDXC以及VR Arch这几种,当前UVR5提供了UI界面进行分离的方法。本篇测试以audio-separator为例进行的。UVR5详细介绍文档

Demucs

“Demucs” 来自meta,经过4个版本的迭代之后,V4集成了 “Hybrid Transformer Demucs”,这是一种混合的频谱/波形分离模型,使用了 Transformer 技术。它能够从音乐伴奏中分离出鼓、贝斯和人声等元素。该模型基于 U-Net 卷积架构,灵感来源于 Wave-U-Net,一种用于音频处理的网络结构。

具体来说,Demucs v4 使用了 “Hybrid Demucs” 作为基础框架,并在最内层使用了跨域 Transformer 编码器来替换原有的一些层。这种 Transformer 在各自的域中进行自注意力处理,并通过跨域的注意力机制实现不同音频成分间的相互影响和处理。
在这里插入图片描述

模型在 MUSDB HQ 测试集上实现了 9.00 分贝的信号失真比(SDR, Signal-to-Distortion Ratio),SDR 越高,表示分离的音频质量越好,原始音源中的噪声和失真越少。此外,通过使用稀疏注意力核来扩展其接收范围以及对每个音源进行微调,该模型在 SDR 上达到了 9.20 分贝。

当前UVR5以及audio seperator支持的模型情况如下:

  • htdemucs_ft - 分离质量最高 fine-tuned v4 模型, SDR instrument:9.9043, SDR vocals:10.2008
  • htdemucs - 质量低,但是速度快
  • htdemucs_6s - 一般分离式bass、drum、vocal、others这四轨,这个模型又增加了"piano" 和 “guitar”
  • hdemucs_mmi 这个是在v3的基础上重新训练的基线模型,使用了最大互信息(MMI)技术进行优化,它在处理特定的音频分离任务时可能表现更好, 速度比较快。

MDX-Net

MDX-Net网络主要是基于TFC-TDF-U-Net的网络,目前项目方开源了当时参赛的源码,其结构上通过堆叠许多具有跳跃连接的层(stacking many layers with many skip connections),可以提高SDR性能。需要大量的计算资源和时间进行训练和评估。因而Minseok Kim等人提出了一种名为KUIELab-MDX-Net的音乐分离双流神经网络,在性能和所需资源之间的良好平衡。所提出的模型具有时频分支和时域分支,每个分支分别分离音轨。
在这里插入图片描述

现在在开源社区已经产生了非常多高质量的、不同针对性的预训练模型。迄今为止MDX-NET-Voc_FT、Kim Vocal 2等预训练模型仍然在MVSEP排行榜中名列前茅。Kim Vocal系列预训练模型甚至能够搭配其他模型提供主唱与和声的分离能力,还有一些模型能够从Reverb中提取出干音。

MDX-UVR 模型分为Inst模型和Vocal模型,Inst模型总是会在人声中留下一些器乐残音,反之亦然——人声模型更有可能在器乐中留下一些人声残音。

  • Kim vocal 1&2: 针对Vocal fine-tuned的MDX比赛用模型,这个模型在Sound Demixing Challenge 2023的MDX’23比赛中获得了第3名的成绩,窄带模型,在生产领域只适用于人声。
  • kim Inst: 针对Instrument的模型,与 inst3/464 相比,它能获得更清晰的结果和更好的 SDR,但有时也会产生更多噪音。这个模型是cutoff的,会切除17.7KHz以上的频率,不适用于生产,只适用于比赛刷分
  • Inst HQ 3: 全频域的针对乐器的分离模型,目前为止细节效果在第一梯队,但是对弦乐的处理有问题,同时,HQ 3对部分吹奏乐器的处理也有一些问题,处理笛子和小号的效果不如其它模型。
  • UVR-MDX-NET Voc FT: Vocal分离单模型,并且在MVSEP排行榜名列前茅,但是是窄带模型,如果之后还有器乐残留,可以考虑再用Kim vocal 2处理一下。
  • inst HQ_1 (450)/HQ_2 (498) (full band): 在大多数情况下,都能使用高质量的模型。后者的 SDR 更好一些,人声残留可能更少一些。虽然不像 inst3 或kim ft那样少,但也是一个很好的起点。
  • Inst 3: 窄带模型,结果会更浑浊一些,但在某些情况下也会更平衡一些, SDR instrument:10.6194, SDR vocals:11.0177
  • Inst Main: 相比Inst 3对Vocal的残留更多
  • 后缀带有Karaoke的系列: Vocal只去除主唱,保留和声的模型,目前效果最好的是UVR-MDX-NET Karoke 2
  • UVR-MDX-NET 1, UVR-MDX-NET 2, UVR-MDX-NET 3: UVR团队自训练的模型,用于Vocal分离,其中模型1获得了9.703的SDR分数,2和3是减少参数的模型。这三个模型都有14.7kHZ的cutoff
    在这里插入图片描述

MDXC

UVR5可以使用一些23年challenge挑战赛的一些模型,其Roformer Model是新出现的,其网络结构如下。
在这里插入图片描述
vocal和inst分离的质量如下表:
在这里插入图片描述

VR Arch

VR Architecture方法中,基本有5个模型,可以从设置中下载附加模型,总共可以选择25种模型。在5种基本模型中,

  • 1_HP-UVR.pth 和 2_HP-UVR.pth 是适合从歌曲中去除人声的模型,
  • 3_HP-Vocal-UVR.pth 和 4_HP-Vocal-UVR.pth 是适合从歌曲中提取人声的模型,
  • 5_HP-karaoke-UVR.pth 则适合去除歌曲中仅有主唱(保留背景合唱)。其他设置如下。窗口大小:较小则品质更高,但会花费更多时间。320 是高品质,1024 是低品质。聚合设置:音频的人声和歌曲移除强度设置。无需更改默认值 10。GPU 转换:设置是否使用 GPU。必须使用支持 CUDA 的 GPU。仅保存人声/器乐:设置保存仅有人声或无人声的音源。TTA:使用“测试时间增强”可以提高分离质量,但会增加执行时间。模型测试模式:当想要尝试多个模型时,启用后输出文件名会附加使用的模型名称。

当前各个场景算法的得分情况见link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2123252.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

U盘格式化怎么办?这4款软件可以帮你进行数据恢复。

如果你的U 盘被格式化,里面的数据就会被清除掉了。有备份的话,就不用担心丢失那些重要的数据;如果没有备份,也有办法解决;可以用电脑自带的一些功能恢复,或者是使用专业的恢复软件。如果大家有需求&#xf…

【软考】信息安全

【软考】信息安全 一.信息安全基础知识 信息安全是保障信息系统和数据的保密性、完整性、可用性、可控性和可追溯性的综合措施。这五个要素是信息安全的基础,缺一不可。 1. 保密性 (Confidentiality) 定义: 保证信息只被授权人员访问。举例: 银行账户信息、医疗…

【JAVA】Tomcat性能优化、安全配置、资源控制以及运行模式超详细

文章目录 一、Tomcat性能优化application.yml配置maxThreads 连接数限制压缩传输AJP禁用 二、JVM方向优化设置并行垃圾回收器查看gc日志文件 三、Tomcat安全配置入侵防范禁用非法HTTP请求方法禁止目录列出防止恶意关闭服务配置HTTPS加密协议HttpOnly标记安全头配置 四、Tomcat资…

Rancher 与 Kubernetes(K8s)的关系

1. 简介 1.1 Kubernetes 作为容器编排平台 Kubernetes 是一个开源平台,用于自动化部署、扩展和管理容器化的应用。它提供了容器调度、自动伸缩、健康检查、滚动更新等功能。 例子:假设您有一个微服务架构的应用程序,需要运行在多个节…

基于arcpro3.0.2版的使用深度学习目标提取之建筑房屋

基于arcpro3.0.2版的使用深度学习目标提取之建筑房屋 采用像素分类方法,像素分类一般把多边形详细轮廓给标注出来, 而目标检测就标注出对象大致矩形框就行, 本次训练结果:采用GPU显卡Nivda 1080 训练模型图 20个周期GPU训练 (一…

【JavaEE】TCP协议 (TCP-传输层协议 万字详解)

🔥个人主页: 中草药 🔥专栏:【Java】登神长阶 史诗般的Java成神之路 🎤一.报头格式 TCP (Transmission Control Protocol) 是一种面向连接的、可靠的、基于字节流的传输层通信协议。TCP 被设计用来提供端到端的数据传…

Brequinar (Synonyms: 布喹那; DUP785; NSC 368390) AbMole介绍

Brequinar(布喹那)是一种合成的喹啉羧酸类似物,也是有效的二氢乳清酸脱氢酶(DHODH)抑制剂,对人 的 IC50 值为 5.2 nM,可以通过抑制DHODH,从而阻断嘧啶的从头合成。此外,Brequinar还可诱导肿瘤的…

【kafka】消息队列

本文主要通过字节的团队的博客学习kafka,写的真不错:一键跳转 1.kafka的架构 2.kafka的副本管理 3.日志同步管理 4.kafka快的原因? 批量处理、消息压缩、建立索引、分区、一致性、顺序写盘、页缓存、0拷贝 5.kafka怎么保证可靠&#xff1f…

【C++ Qt day10】

2、 完善对话框,点击登录对话框,如果账号和密码匹配,则弹出信息对话框,给出提示”登录成功“,提供一个Ok按钮,用户点击Ok后,关闭登录界面,跳转到其他界面 如果账号和密码不匹配&am…

OCR在线识别网站现已上线!

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架 由作者亲自开发的ocr识别网站哈哈,暂时汇聚了三十多种验证码模型以及算法,欢迎各路朋友去尝试,网站地址如下 http://gbj5w3.natappfree.cc/ocr 验证码类型包括但…

【MADRL】反事实多智能体策略梯度法(COMA)算法

本篇文章是博主强化学习RL领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在强化学习专栏&#xff1…

前端开发的观察者模式

什么是观察者设计模式 观察者模式(Observer Pattern)是前端开发中常用的一种设计模式。它定义了一种一对多的依赖关系,使得当一个对象的状态发生改变时,其所有依赖对象都能收到通知并自动更新。观察者模式广泛应用于事件驱动的系…

56页PPT | 大数据决策分析平台怎么建设?经典实践方案推荐

一、现状和目标 企业用户现状:数据分散,利用率低,业务需求变化快但IT响应慢。 问题:数据展示不及时、不准确,缺乏深入分析工具,报表制作效率低下。 目标:建设统一的数据整合平台,…

四款数据恢复精灵好用之处及使用感受~

在数字化的时代,数据的重要性不言而喻;不慎删除重要文件、格式化磁盘后数据丢失、存储设备故障……这些情况都可能让我们痛心疾首;这时,数据恢复软件就显得尤为重要了,今天,就为大家介绍四款备受好评的数据…

服装|基于Java+vue的服装定制系统(源码+数据库+文档)

服装定制系统 目录 基于Javavue的服装定制系统 一、前言 二、系统设计 三、系统功能设计 系统功能实现 管理员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布…

Linux——redis主从复制、集群模式、哨兵模式

主从复制 部署至少两个redis的实例 // 提供数据冗余和备份 两个独立服务器两个虚拟机两个容器一个redis的master 节点可以有多个redis的replica 从节点, 而从节点也可以成为其他从节点的主节点 // 方便对于主复制架构进行扩展提供数据灾备,当red…

复赛总榜TOP1方案Champion Chasing Boy分享

关联比赛: 2020数字中国创新大赛—算法赛:智慧海洋建设 写在前面的话 大家好,我是 Champion Chasing Boy的DOTA,在队友 鱼遇雨欲语与余、 尘沙杰少、林有夕、嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的成绩…

Java通过jna调用c++动态库

1、pom文件添加jna依赖 <dependency><groupId>net.java.dev.jna</groupId><artifactId>jna</artifactId><version>5.14.0</version></dependency> 2、注意问题 要实现Java调用C的动态库&#xff0c;需要使用"extern C&…

Script-server: 一款开源的脚本管理工具,为你的Python脚本提供一个直观的 Web UI

在日常工作中&#xff0c;我们经常会使用各种脚本来自动化任务&#xff0c;提升效率。但传统的脚本管理方式往往伴随着一些困扰&#xff1a;复杂的命令行操作、难以理解的脚本参数、缺乏直观的反馈等等。这些问题&#xff0c;让原本应该便捷的脚本管理变得繁琐。 Script-server…

Qt-QWidget的focusPolicy属性(20)

目录 描述 相关API 使用 描述 这里引入了焦点的概念&#xff0c;这个很重要&#xff0c;也是伴随后面介绍中的一个很重要的概念 拿魔兽世界来举例&#xff0c;如下我们在操作兵种的时候&#xff0c;需要先选中单位&#xff0c;然后才能对这些单位进行命令的下达 这一点在笔…