Dpm-tse:目标声音提取的扩散概率模型

news2024/11/15 6:55:38

第二章 目标说话人提取之《DPM-TSE: A DIFFUSION PROBABILISTIC MODEL FOR TARGET SOUND EXTRACTION》



前言

语音新手入门,学习读懂论文。
本文作者机构是美国巴尔的摩约翰霍普金斯大学计算听觉实验室2美国巴尔的摩约翰霍普金斯大学语言与语音处理中心3香港中文大学,中国香港特别特区
在这里插入图片描述


一、任务

此研究引入了DPM-TSE,一种基于扩散概率建模(DPM)的目标声音提取(TSE)生成方法,以实现更清晰的目标渲染,并提高与不需要的声音的可分离性。该技术还通过引入噪声表和采样步骤的校正方法来解决DPM的噪声问题。

二、动机

与判别方法不同,旨在匹配信号分布的生成建模允许近似复杂的数据分布,这有可能产生更自然的音频。基于dpm的生成模型由于其出色的性能和可靠的训练,近年来越来越受欢迎。

三、挑战

以前的方法,对于非重叠区域,它们可以产生良好的分离效果,但在处理重叠区域时,它们的性能总是会下降。
在图像生成领域中,这一问题被假设为将生成的图像限制为普通中等亮度,难以生成完全黑暗或完全白色的图像内容。当涉及到TSE时,所提取的目标音通常包含许多沉默区。因此,非零终端信噪比可能会阻止模型生成完全无声帧,从而影响声音提取的纯度和整体性能。

四、方法

1.概率扩散模型

扩散概率模型包括前向过程和后向过程。前向过程逐渐向数据中加入高斯噪声,通常基于手动定义的方差表β1,…, βt。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

扩散模型学习逆向过程,逐步恢复信息。这样,DPM可以从随机高斯噪声中生成新的数据。当βt较小时,反阶跃也为高斯阶跃:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.修正噪音时间表和采样步骤

调整了现有的噪声计划,通过保持√¯α1不变,将√¯αT更改为零,并对中间t∈[2,…]线性重新缩放√¯αT来强制实现零终端信噪比。当终端阶跃的信噪比为零时,由于输入和输出变得相同,预测噪声λ就变得没有意义了。因此,将神经网络改为预测速度v:
在这里插入图片描述
逆向过程由以下函数执行:在这里插入图片描述

3. 模型框架

在这里插入图片描述

利用扩散模型中参数为θ的神经网络vθ(xt, m, c, t)在给定噪声目标声音xt、混合音频m、单热目标声音标记c和相应扩散步长t的情况下预测速度vt。
U-Net,由4个下采样块和4个上采样块组成,每个上采样块包括2个卷积块和2个自关注块,因此该模型将能够捕获声音事件的局部和时间特征。分别配置128、256、512和512通道,共计106.40M个参数。较大型号变型有194、384、768、768通道配置,总参数239.3 30m。
采用AudioSet上训练的HiFi-GAN声码器作为通用音频波形重建的神经声码器。

4.

五、实验评价

1.数据集

Freesound Dataset Kaggle 2018语料库(FSD)制定了由合成声事件混合组成的数据集。该语料库包含41种声音事件类别,范围从人类产生的声音到乐器和物体噪音。我们生成10秒的音频混合。每个混合包含一个目标声音和从FSD随机选择的1-3个干扰声音。然后在任意时间点叠加10秒背景噪声。

2.消融实验

3.客观评价

我们使用两个最新的TSE模型,WaveFormer和TimTSENet,其原始实现的设置相同,作为我们的基线。WaveFormer和Tim-TSENet都使用基于掩模的TSE判别策略。
我们使用了两个自动评估函数:(1)ViSQOL是一种最初设计用于预测语音信号质量的算法,后来被用于评估音频信号的质量,方法是基于五级平均意见得分近似人类感知反应。(2) CDPAM是一种基于深度神经网络的感知音频度量,它与人类在音质评估任务中的主观评分有很好的相关性,通过深度特征的距离来测量音频相似性。
人的评价:(1)提取:生成的音频是否包含参考音频的所有内容?等级从1到5,1表示在生成的音频中根本听不到参考音频的内容,5表示生成的音频完全包含了参考音频的所有内容。(2)纯度:生成的音频是否只有参考音频的声音?等级从1到5,1表示生成的音频有很多参考音频没有的声音,5表示生成的音频只有参考音频对应的声音,其他声音无法检测到。
在这里插入图片描述在图2中,我们探索了基于客观指标的不同声音类别中目标声音提取的性能。这三种模型同时在短时间事件(如掰手指、手鼓、牛铃和高帽)中显示出良好的结果,而在长时间复杂事件(如公共汽车、萨克斯管、编钟和长笛)中表现则有所下降。CDPAM和ViSQOL在大多数类中具有相似的分布。因此,我们清楚地注意到,DPM-TSE在大多数类别中显示出明显的优势。
在这里插入图片描述
如表2所示,提出的修正噪声时间表显著提高了模型性能。我们发现使用原始噪声表的DPM-TSE会产生额外的噪声,这在非目标声音区域非常明显。较大模型的DPM-TSE表现出性能下降,这可能是由于过拟合。
在这里插入图片描述

4.主观评价


六、结论

在本文中,我们提出了一种基于dpm的TSE生成方法,该方法在提取目标声音和去除无关声音方面非常有效。在未来的工作中,我们的重点将集中在(1)提高DPM-TSE的采样速度;(2)探索零采样TSE、文本引导TSE和音频编辑技术等创新途径。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1926467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

链接追踪系列-10.mall-swarm微服务运行并整合elk-上一篇的番外

因为上一篇没对微服务代码很详细地说明,所以在此借花献佛,使用开源的微服务代码去说明如何去做链路追踪。 项目是开源项目,fork到github以及gitee中,然后拉取到本地 后端代码: https://gitee.com/jelex/mall-swarm.gi…

全栈 Discord 克隆:Next.js 13、React、Socket.io、Prisma、Tailwind、MySQL笔记(一)

前言 阅读本文你需要有 Next.js 基础 React 基础 Prisma 基础 tailwind 基础 MySql基础 准备工作 打开网站 https://ui.shadcn.com/docs 这不是一个组件库。它是可重用组件的集合,您可以将其复制并粘贴到应用中。 打开installation 选择Next.js 也就是此页面…

C字符串和内存函数介绍(三)——其他的字符串函数

在#include<string.h>的这个头文件里面&#xff0c;除了前面给大家介绍的两大类——长度固定的字符串函数和长度不固定的字符串函数。还有一些函数以其独特的用途占据一席之地。 今天要给大家介绍的是下面这三个字符串函数&#xff1a;strstr&#xff0c;strtok&#xf…

php 可逆与不可逆加密函数

https://andi.cn/page/621536.html

基于机器学习的锂离子电池容量估计(MATLAB R2021B)

锂离子电池已经广泛应用于电动汽车或混合动力汽车的能源存储装置。由于电化学成分的衰退&#xff0c;锂离子电池随着使用时间的增加&#xff0c;电池性能不断退化&#xff0c;导致电池容量和功率发生衰退。电池容量衰退的因素主要有金属锂沉积&#xff0c;活性物质分解和电解液…

周报(1)<仅供自己学习>

文章目录 一.pytorch学习1.配置GPU2.数据读取问题1&#xff08;已解决问题2&#xff08;已解决 3.卷积的学习 二.NeRF学习1.介绍部分问题1&#xff08;已解决 2.神经辐射场表示问题2&#xff08;已解决问题3&#xff08;已解决问题4&#xff08;已解决问题5&#xff1a;什么是视…

NSSCTF中24网安培训day1中web的题目

我flag呢 直接查看源代码即可CtrlU [SWPUCTF 2021 新生赛]Do_you_know_http 用Burpsuite抓包&#xff0c;之后在User-agent下面添加XFF头&#xff0c;即X-Forwarded-For:127.0.0.1 [SWPUCTF 2022 新生赛]funny_php 首先是php的弱比较&#xff0c;对于num参数&#xff0c;我们…

【ChatGPT】深入解析Prompt提示词及如何高效使用ChatGPT

一、Prompt提示词是什么&#xff1f; 1.1 Prompt的定义 Prompt是人工智能领域中的一个关键概念&#xff0c;尤其在自然语言处理&#xff08;NLP&#xff09;和生成型AI模型中。简而言之&#xff0c;prompt是一段文本或指令&#xff0c;用于引导或启动AI模型的特定响应或操作。…

在pycharm 2023.2.1中运行由R语言编写的ipynb文件

在pycharm 2023.2.1中运行由R语言编写的ipynb文件 背景与目标&#xff1a; 项目中包含由R语言编写的ipynb文件&#xff0c;希望能在pycharm中运行该ipynb文件。 最终实现情况&#xff1a; 未能直接在pycharm中运行该ipynb文件&#xff0c;但是替代的实现方法有&#xff1a;…

SuperCLUE:中文大模型基准测评2024年上半年报告

SuperCLUE是一个中文通用大模型的综合性评测基准&#xff0c;其前身是CLUE&#xff08;The Chinese Language Understanding Evaluation&#xff09;&#xff0c;自2019年成立以来&#xff0c;CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLU…

【前端Vue3】——Vue基础知识点总结(万字总结)

&#x1f3bc;个人主页&#xff1a;【Y小夜】 &#x1f60e;作者简介&#xff1a;一位双非学校的大二学生&#xff0c;编程爱好者&#xff0c; 专注于基础和实战分享&#xff0c;欢迎私信咨询&#xff01; &#x1f386;入门知识专栏&#xff1a;&#x1f387;【MySQL&#…

24.7.14(板刷数据结构,警钟长鸣)

上周六&#xff1a; 算是暑假训练第一天&#xff0c;期末考完了真好 cf round951 div2 D cf传送门 之前用正解补过&#xff0c;又臭又长&#xff0c;写完就跑了&#xff0c;这次用哈希补一发 思路&#xff1a;目标字符…

2022睿抗CAIP-编程技能赛-本科组省赛(c++)(未完结)

RC-u1 不要浪费金币 模拟 AC: #include<iostream> #define int long long using namespace std; const int N1e35; int n,m,p[N],ans; signed main(){cin>>n>>m;for(int i1;i<n;i) cin>>p[i];int sum0;for(int i1;i<n;i){if(sump[i]<m) sump…

昇思25天学习打卡营第21天|ResNet50迁移学习

在实际应用场景中&#xff0c;由于训练数据集不足&#xff0c;所以很少有人会从头开始训练整个网络。普遍的做法是&#xff0c;在一个非常大的基础数据集上训练得到一个预训练模型&#xff0c;然后使用该模型来初始化网络的权重参数或作为固定特征提取器应用于特定的任务中。 …

STM32MP135裸机编程:BOOT跳转到APP前关闭所有中断、清除所有中断挂起标志操作方法

0 前言 一般来说&#xff0c;MCU/SOC的BOOT在跳转到APP前都需要进行环境清理的操作&#xff0c;其中必须进行的一项操作便是关闭所有中断、清除所有中断挂起标志。本文介绍基于STM32MP135裸机编程下关闭所有中断、清除所有中断挂起标志的操作方法。 1 操作方法 STM32MP135裸…

缓存与分布式锁

一、缓存 1、缓存使用 为了系统性能的提升&#xff0c;我们一般都会将部分数据放入缓存中&#xff0c;加速访问。 适合放入缓存的数据有&#xff1a; 即时性、数据一致性要求不高的&#xff1b;访问量大且更新频率不高的数据。 在开发中&#xff0c;凡是放入缓存中的数据我们都…

机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E&#xff0c;发表时间为2023.03&#xff0c;其中的Palm是谷歌内部在2022.04开发的大语言模型&#xff0c;功能类似ChatGPT&#xff0c;只是由于各种原因没有那样火起来&#xff0c;E是Embodied的首字母&#xff0c;翻译过来就是具身多模态大语言模型…

基于5个K7的多FPGA PCIE总线架构的高性能数据预处理平台

板载FPGA实时处理器&#xff1a;XCKU060-2FFVA15172个QSFP光纤接口&#xff0c;最大支持10Gbps/lane板载DMA控制器&#xff0c;能实现双向DMA高速传输支持x8 PCIE主机接口&#xff0c;系统带宽5GByte/s1个R45自适应千兆以太网口1个FMC子卡扩展接口 基于PCIE总线架构的高性能数据…

c++包管理器

conan conan search&#xff0c;查看网络库 conan profile detect&#xff0c;生成缓存信息conan new cmake_exe/cmake_lib&#xff0c;创建cmakelists.txtconan install .&#xff0c;执行Conanfile.txt中的配置&#xff0c;生成相关的bat文件 项目中配置Conanfile.txt(或者…

【学习笔记】无人机(UAV)在3GPP系统中的增强支持(十一)-无人机服务可用性用例需求

引言 本文是3GPP TR 22.829 V17.1.0技术报告&#xff0c;专注于无人机&#xff08;UAV&#xff09;在3GPP系统中的增强支持。文章提出了多个无人机应用场景&#xff0c;分析了相应的能力要求&#xff0c;并建议了新的服务级别要求和关键性能指标&#xff08;KPIs&#xff09;。…