PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
preprint Korea Seoul, Korea
文章目录
abstract method Flow Matching for Waveform Generation High-frequency Information Modeling for Flow Matching
demo page, PeriodWave 三者最好,而且能把原声中的噪声去掉,GAN一类声码器做不到的。 PeriodWave + FreeU (step 16) 有白噪声 MB-PeriodWave (step 16) 有电音 abstract
PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。 使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。 使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。 此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。
method
加速infer:(1)多个不同周期的估计器并行推理预测,sum,然后由final block 预测波形;(2)mel-Encoder 编码time-shared conditional 用于flow-base estimators;
Flow Matching for Waveform Generation
wav 的范围【-1,1】,因此正态分布的噪声对于优化路径是比较大的值,会导致高频信息损失;因此噪声
x
0
∗
0.5
x_0 * 0.5
x 0 ∗ 0.5 做了1之后还有轻微白噪声,从mel中得到一个时间相关的energy condition;
High-frequency Information Modeling for Flow Matching
flow-matching 重建波形,会有高频损失; 【Roman,From discrete tokens to high-fidelity audio using multi-band diffusion】,解决方法:Roman提出multi-band diffusion,每个band使用特定的降噪器,还提出frequency equlizer 通过正则每个band 噪声energy scale来减少白噪声;本文用DWT,将频带分成 [0-3, 3-6, 6-9, 9-12 kHz],首先生成低频结构,加在
x
0
x_0
x 0 上,生成更高的频带,这样做显著的提升了生成音质(even in small sampling steps);将mel 按照band平均,得到先验,[0-61, 60-81, 80-93, 91-100 bins]. ----- 各个band 是wav -dwt 变换之后的;infer时候,第一个band idwt 得到波形; FreeU证明skip connection会包含很多高频信息,从而让模型忽视语义信息 【Freeu: Free lunch in diffusion u-net.】本文实验也发现skip connection会包含很多高频信息,导致噪声。因此在skip阶段,对信息进行加权
x
=
α
⋅
z
s
k
i
p
+
β
⋅
x
x=α⋅zskip +β⋅x
x = α ⋅ zs ki p + β ⋅ x ,增大backbone特征(x)可以改善听感质量,降低噪声。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2077521.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!