第二章 目标说话人提取之《DPM-TSE: A DIFFUSION PROBABILISTIC MODEL FOR TARGET SOUND EXTRACTION》
文章目录
- 前言
- 一、任务
- 二、动机
- 三、挑战
- 四、方法
- 1.概率扩散模型
- 2.修正噪音时间表和采样步骤
- 3. 模型框架
- 4.
- 五、实验评价
- 1.数据集
- 2.消融实验
- 3.客观评价
- 4.主观评价
- 六、结论
- 七、知识小结
前言
语音新手入门,学习读懂论文。
本文作者机构是美国巴尔的摩约翰霍普金斯大学计算听觉实验室2美国巴尔的摩约翰霍普金斯大学语言与语音处理中心3香港中文大学,中国香港特别特区
一、任务
此研究引入了DPM-TSE,一种基于扩散概率建模(DPM)的目标声音提取(TSE)生成方法,以实现更清晰的目标渲染,并提高与不需要的声音的可分离性。该技术还通过引入噪声表和采样步骤的校正方法来解决DPM的噪声问题。
二、动机
与判别方法不同,旨在匹配信号分布的生成建模允许近似复杂的数据分布,这有可能产生更自然的音频。基于dpm的生成模型由于其出色的性能和可靠的训练,近年来越来越受欢迎。
三、挑战
以前的方法,对于非重叠区域,它们可以产生良好的分离效果,但在处理重叠区域时,它们的性能总是会下降。
在图像生成领域中,这一问题被假设为将生成的图像限制为普通中等亮度,难以生成完全黑暗或完全白色的图像内容。当涉及到TSE时,所提取的目标音通常包含许多沉默区。因此,非零终端信噪比可能会阻止模型生成完全无声帧,从而影响声音提取的纯度和整体性能。
四、方法
1.概率扩散模型
扩散概率模型包括前向过程和后向过程。前向过程逐渐向数据中加入高斯噪声,通常基于手动定义的方差表β1,…, βt。
扩散模型学习逆向过程,逐步恢复信息。这样,DPM可以从随机高斯噪声中生成新的数据。当βt较小时,反阶跃也为高斯阶跃:
2.修正噪音时间表和采样步骤
调整了现有的噪声计划,通过保持√¯α1不变,将√¯αT更改为零,并对中间t∈[2,…]线性重新缩放√¯αT来强制实现零终端信噪比。当终端阶跃的信噪比为零时,由于输入和输出变得相同,预测噪声λ就变得没有意义了。因此,将神经网络改为预测速度v:
逆向过程由以下函数执行:
3. 模型框架
利用扩散模型中参数为θ的神经网络vθ(xt, m, c, t)在给定噪声目标声音xt、混合音频m、单热目标声音标记c和相应扩散步长t的情况下预测速度vt。
U-Net,由4个下采样块和4个上采样块组成,每个上采样块包括2个卷积块和2个自关注块,因此该模型将能够捕获声音事件的局部和时间特征。分别配置128、256、512和512通道,共计106.40M个参数。较大型号变型有194、384、768、768通道配置,总参数239.3 30m。
采用AudioSet上训练的HiFi-GAN声码器作为通用音频波形重建的神经声码器。
4.
五、实验评价
1.数据集
Freesound Dataset Kaggle 2018语料库(FSD)制定了由合成声事件混合组成的数据集。该语料库包含41种声音事件类别,范围从人类产生的声音到乐器和物体噪音。我们生成10秒的音频混合。每个混合包含一个目标声音和从FSD随机选择的1-3个干扰声音。然后在任意时间点叠加10秒背景噪声。
2.消融实验
3.客观评价
我们使用两个最新的TSE模型,WaveFormer和TimTSENet,其原始实现的设置相同,作为我们的基线。WaveFormer和Tim-TSENet都使用基于掩模的TSE判别策略。
我们使用了两个自动评估函数:(1)ViSQOL是一种最初设计用于预测语音信号质量的算法,后来被用于评估音频信号的质量,方法是基于五级平均意见得分近似人类感知反应。(2) CDPAM是一种基于深度神经网络的感知音频度量,它与人类在音质评估任务中的主观评分有很好的相关性,通过深度特征的距离来测量音频相似性。
人的评价:(1)提取:生成的音频是否包含参考音频的所有内容?等级从1到5,1表示在生成的音频中根本听不到参考音频的内容,5表示生成的音频完全包含了参考音频的所有内容。(2)纯度:生成的音频是否只有参考音频的声音?等级从1到5,1表示生成的音频有很多参考音频没有的声音,5表示生成的音频只有参考音频对应的声音,其他声音无法检测到。
在图2中,我们探索了基于客观指标的不同声音类别中目标声音提取的性能。这三种模型同时在短时间事件(如掰手指、手鼓、牛铃和高帽)中显示出良好的结果,而在长时间复杂事件(如公共汽车、萨克斯管、编钟和长笛)中表现则有所下降。CDPAM和ViSQOL在大多数类中具有相似的分布。因此,我们清楚地注意到,DPM-TSE在大多数类别中显示出明显的优势。
如表2所示,提出的修正噪声时间表显著提高了模型性能。我们发现使用原始噪声表的DPM-TSE会产生额外的噪声,这在非目标声音区域非常明显。较大模型的DPM-TSE表现出性能下降,这可能是由于过拟合。
4.主观评价
六、结论
在本文中,我们提出了一种基于dpm的TSE生成方法,该方法在提取目标声音和去除无关声音方面非常有效。在未来的工作中,我们的重点将集中在(1)提高DPM-TSE的采样速度;(2)探索零采样TSE、文本引导TSE和音频编辑技术等创新途径。