浙大阿里联合开源AudioLCM，在通用音频合成领域实现潜在一致性模型的新突破...

文本到通用音频生成（Text-to-Audio Generation，简称 TTA）作为生成任务的一个子领域，涵盖了音效创作、音乐创作和合成语音，具有广泛的应用潜力。在此前的神经 TTA 模型中，潜在扩散模型（Latent Diffusion Models，LDMs）在众多生成任务中表现卓越。然而，LDMs 的迭代采样过程带来了巨大的计算负担，导致生成速度缓慢，从而限制了它们在实际 TTA 应用中的部署。

为了解决这一问题，浙大联合阿里提出了一种新型的高效高质量文本-音频生成模型——AudioLCM。该模型将一致性模型（Consistency Models，CMs）融入生成过程，并引入了多步常微分方程（multi-step ODE）求解器的指导一致性蒸馏技术。同时，将 LLaMA 开创的先进技术集成到 Transformer 基础框架中，确保了强大的文本到音频合成性能。

实验结果显示，AudioLCM 仅需 2 次迭代即可合成高保真音频，同时保持了与使用数百步的最先进模型竞争的样本质量。在单个 NVIDIA 4090Ti GPU 上，AudioLCM 实现了超越实时 333 倍的采样速度，使得生成模型在文本到音频生成部署中实际可行。该工作已经被顶级会议 ACM MM 2024 录用为主会论文。

论文题目：

AudioLCM: Text-to-Audio Generation with Latent Consistency Models

论文链接：

https://arxiv.org/html/2406.00356

代码链接：

https://github.com/Text-to-Audio/AudioLCM

背景介绍

神经 TTA 模型的先前迭代主要分为两种主要类型：语言模型和扩散模型。尽管这两种方法都证明了产生高质量音频样本的能力，尤其 LDM [1] 在包括图像合成、视频生成和音频合成在内的各个领域都取得了前所未有的突破，但亦通常受到高计算成本的限制，这使得音频生成难以实现质量和效率。

为了缓解这一计算瓶颈，目前的方法集中在通过蒸馏模型提高样品效率，但现有的蒸馏过程需要大量的计算资源，且两阶段引导蒸馏过程可能会无意中引入累积误差，导致结果欠佳。

因此，作者提出了基于一致性模型的 AudioLCM，专为高效和高质量的文本到音频生成量身定制，技术亮点总结如下：

1. 一致性模型集成

不同于依赖迭代过程去除噪声的传统方法，AudioLCM 集成了一致性模型（CM）[2] 进入生成过程中，通过将任意时间步的任何点映射到轨迹的初始点，促进快速推理，避免因为减少反向迭代导致感知质量显著下降的问题。

2. 多步 ODE 求解器的单阶段指导一致性蒸馏

为克服 LDM 固有的收敛问题并减少迭代步骤，AudioLCM 引入了多步常微分方程（ODE）求解器，进行单阶段的指导一致性蒸馏。这项创新在保持样品质量的同时，大幅度缩短了时间步长，从数千步减少到数十步，实现了快速的收敛。

3. 集成 LLaMA 的先进技术

AudioLCM 通过集成 LLaMA [3] 开创的先进技术，增强了基于 Transformer 的神经网络架构，这些技术为量身定制的因果变压器架构提供了更高的性能和训练稳定性。

▲ 图1 AudioLCM 框架图

方法

2.1 增强的Transformer-based骨干网络

作者选择了 Make-An-Audio 2 作为教师模型，并在保留其他设计的同时，修改其前馈 Transformer 结构，采用增强的 Transformer-based 骨干网络，以实现感知质量和采样速度之间的平衡。

之前的研究将梅尔频谱图作为单通道图像进行处理，类似于文本到图像生成，但梅尔频谱图由于其频域表示，缺乏空间翻译不变性。因此，不同高度的补丁有不同的意义，不应被同等对待。此外，使用二维卷积层和空间 Transformer 堆叠的 U-Net 架构限制了模型生成可变长度音频的能力。受 LLaMA 成功经验的启发，作者将 LLaMA 的先进技术集成到前馈 Transformer 的基础框架中。主要改进点包括：

1. 预归一化：使用 RMSNorm 归一化函数并归一化每个 Transformer 层的输入以增加训练的稳定性。

2. 旋转嵌入：将绝对位置嵌入替换为旋转位置嵌入（RoPE）。

3. SwiGLU 激活：移除 SiLU 函数，增加 SwiGLU 激活函数以提高性能。

2.2 指导一致性蒸馏

在教师模型构建的音频潜在空间基础上，为了减少计算开销并提升性能，作者重新定义了反向扩散过程的 PF-ODE。引入一致性函数，将一致性噪声预测模型参数化以满足边界条件。通过利用 DDIM [4] 作为 ODE 求解器在训练时确切估计音频潜在变量的演变，大幅缩短了时间步长，同时维持了生成质量。

2.3 多步ODE求解加速蒸馏

潜在扩散模型通常训练具有长时间步的噪声预测模型，以实现高质量生成。教师模型需要在所有 1000 时间步进行采样，这对于指导一致性蒸馏而言高度耗时和耗费计算资源。为了快速收敛，同时保持生成质量，作者引入了多步 ODE 求解器，极大地缩短了时间步长。通过选择适当的 k 值，实现快速收敛并保留样本质量。

实验

作者从多维度验证每种设计的有效性，从文本-音效与文本-音乐生成两方面将 AudioLCM 与同期最先进模型（SOTA）的生成样本质量相对比，证明了在采样速度与音频质量方面强大的优越性，并通过初步分析验证了提出方法的有效性。

3.1 初步分析

a. 多步 ODE 求解器加速收敛

▲ 图 2 多步 ODE 求解器（左图）与无分类器引导（右图）的初步分析。

通过评估音频质量与估计间隔之间的相关性在测试集上 ODE 求解器的性能，并深入探究不同规模的无分类器指导如何影响 FAD 的整体性能。

明显看到多步 ODE 求解器的收敛速度更快，凸显了使用多步法在加速收敛速度方面的有效性，选择 k = 20 以在样本质量和收敛速度之间取得平衡。

▲ b. 无分类器指导（Classifier-free Guidance, CFG）

较大的推理步骤表现出更好的性能，并在某个值处达到峰值。此处作者选择 5 作为 Scale 值。其次，2、4 和 8 推理步骤之间的性能差异很小，表明 LCM 在 2-8 步范围内的有效性。

3.2 文本转音频生成性能

作者对各种系统（包括 GT（即真实音频）、AudioGen、Make-An-Audio、AudioLDM-L、TANGO、Make-An-Audio 2 和 AudioLDM 2）中生成的音频样本的质量和推理延迟进行了比较分析，使用各自论文中发布的模型和相同的 100 个推理步骤进行公平比较。使用 AudioCaps 测试集进行评估，然后计算客观和主观指标。

▲ 表格1：音频质量和采样速度比较。评估在具有 1 个 NVIDIA 4090Ti GPU 和批大小为 1 的服务器上进行。NFE（Number of Function Evaluations）测量计算成本，指生成过程中评估降噪函数的总次数。

AudioLCM 表现出出色的在音频质量与高效的采样速度，仅需 2 次迭代即可合成高保真音频样本。在配置了 2 个推理步骤时，AudioLCM 的 Fréchet 音频距离（FAD）为 1.56，Kullback-Leibler 散度（KL）为 1.30，生成的音频与地面实况之间的频谱和分布差异最小。

▲ 图3 FAD 测量的推理延迟和样本质量之间的关系评估。

AudioLCM 在 RTF 降至 0.0015（即一步推理）之前表现出最小的性能下降，突显了其在仅需很少推理步骤即可实现高质量音频生成的稳健性。

▲ 表2 零样本生成结果研究模型的泛化性能，AudioLCM 2 步模型表现出与 baseline 相媲美的竞争力

3.3 文本到音乐的生成

在本节中，作者将 AudioLCM 生成的音频样本与一系列成熟的音乐生成系统进行比较分析。

▲ 表3 AudioLCM 与 MusicCaps 评估集上的基线模型之间的比较。

在音频质量方面，AudioLCM 的教师模型在一系列客观和主观指标上始终优于所有基于扩散的方法和语言模型；在采样速度方面，AudioLCM 仅需 2 次迭代即可生成高保真音乐样本，说明其在样本质量和推理所需时间之间取得最佳平衡的强大能力。

结论

AudioLCM 专为高效、高质量的文本到音频生成而量身定制，突破了 LDM 在生成任务中的固有收敛问题瓶颈，在保持样本质量的同时，将时间表从数千步缩短到数十步。作者广泛的初步分析表明，AudioLCM 中的每种设计都是有效且具有突破性的。

参考文献

[1] Rombach, Robin, et al. 'High-resolution image synthesis with latent diffusion models.' Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[2] Song Y, Dhariwal P, Chen M, et al. Consistency models[J]. arXiv preprint arXiv:2303.01469, 2023.

[3] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.

[4] Song J, Meng C, Ermon S. Denoising diffusion implicit models[J]. arXiv preprint arXiv:2010.02502, 2020.

更多阅读