浙大阿里联合开源AudioLCM,在通用音频合成领域实现潜在一致性模型的新突破...

news2025/1/11 20:59:55

5a1f37f67a5ce21e0a6b37464ea4d59a.gif

文本到通用音频生成(Text-to-Audio Generation,简称 TTA)作为生成任务的一个子领域,涵盖了音效创作、音乐创作和合成语音,具有广泛的应用潜力。在此前的神经 TTA 模型中,潜在扩散模型(Latent Diffusion Models,LDMs)在众多生成任务中表现卓越。然而,LDMs 的迭代采样过程带来了巨大的计算负担,导致生成速度缓慢,从而限制了它们在实际 TTA 应用中的部署。

为了解决这一问题,浙大联合阿里提出了一种新型的高效高质量文本-音频生成模型——AudioLCM。该模型将一致性模型(Consistency Models,CMs)融入生成过程,并引入了多步常微分方程(multi-step ODE)求解器的指导一致性蒸馏技术。同时,将 LLaMA 开创的先进技术集成到 Transformer 基础框架中,确保了强大的文本到音频合成性能。

实验结果显示,AudioLCM 仅需 2 次迭代即可合成高保真音频,同时保持了与使用数百步的最先进模型竞争的样本质量。在单个 NVIDIA 4090Ti GPU 上,AudioLCM 实现了超越实时 333 倍的采样速度,使得生成模型在文本到音频生成部署中实际可行。该工作已经被顶级会议 ACM MM 2024 录用为主会论文。

6802b9b0d6fa01ce133bb953c423eba2.png

论文题目:

AudioLCM: Text-to-Audio Generation with Latent Consistency Models

论文链接:

https://arxiv.org/html/2406.00356

代码链接:

https://github.com/Text-to-Audio/AudioLCM

d3f4caf38db8bdbae1cb218a85d0cd1f.png

背景介绍

神经 TTA 模型的先前迭代主要分为两种主要类型:语言模型和扩散模型。尽管这两种方法都证明了产生高质量音频样本的能力,尤其 LDM [1] 在包括图像合成、视频生成和音频合成在内的各个领域都取得了前所未有的突破,但亦通常受到高计算成本的限制,这使得音频生成难以实现质量和效率。

为了缓解这一计算瓶颈,目前的方法集中在通过蒸馏模型提高样品效率,但现有的蒸馏过程需要大量的计算资源,且两阶段引导蒸馏过程可能会无意中引入累积误差,导致结果欠佳。

因此,作者提出了基于一致性模型的 AudioLCM,专为高效和高质量的文本到音频生成量身定制,技术亮点总结如下:

1. 一致性模型集成


不同于依赖迭代过程去除噪声的传统方法,AudioLCM 集成了一致性模型(CM)[2] 进入生成过程中,通过将任意时间步的任何点映射到轨迹的初始点,促进快速推理,避免因为减少反向迭代导致感知质量显著下降的问题。

2. 多步 ODE 求解器的单阶段指导一致性蒸馏


为克服 LDM 固有的收敛问题并减少迭代步骤,AudioLCM 引入了多步常微分方程(ODE)求解器,进行单阶段的指导一致性蒸馏。这项创新在保持样品质量的同时,大幅度缩短了时间步长,从数千步减少到数十步,实现了快速的收敛。

3. 集成 LLaMA 的先进技术


AudioLCM 通过集成 LLaMA [3] 开创的先进技术,增强了基于 Transformer 的神经网络架构,这些技术为量身定制的因果变压器架构提供了更高的性能和训练稳定性。

7f696e61c53dce12da2fac7eca113d38.jpeg

▲ 图1 AudioLCM 框架图

c0c254438b34c987301f770c89891520.png

方法

2.1 增强的Transformer-based骨干网络

作者选择了 Make-An-Audio 2 作为教师模型,并在保留其他设计的同时,修改其前馈 Transformer 结构,采用增强的 Transformer-based 骨干网络,以实现感知质量和采样速度之间的平衡。

之前的研究将梅尔频谱图作为单通道图像进行处理,类似于文本到图像生成,但梅尔频谱图由于其频域表示,缺乏空间翻译不变性。因此,不同高度的补丁有不同的意义,不应被同等对待。此外,使用二维卷积层和空间 Transformer 堆叠的 U-Net 架构限制了模型生成可变长度音频的能力。受 LLaMA 成功经验的启发,作者将 LLaMA 的先进技术集成到前馈 Transformer 的基础框架中。主要改进点包括:

1. 预归一化:使用 RMSNorm 归一化函数并归一化每个 Transformer 层的输入以增加训练的稳定性。

2. 旋转嵌入:将绝对位置嵌入替换为旋转位置嵌入(RoPE)。

3. SwiGLU 激活:移除 SiLU 函数,增加 SwiGLU 激活函数以提高性能。

2.2 指导一致性蒸馏

在教师模型构建的音频潜在空间基础上,为了减少计算开销并提升性能,作者重新定义了反向扩散过程的 PF-ODE。引入一致性函数,将一致性噪声预测模型参数化以满足边界条件。通过利用 DDIM [4] 作为 ODE 求解器在训练时确切估计音频潜在变量的演变,大幅缩短了时间步长,同时维持了生成质量。

9455b10fd31bb7349c710d71d52ec497.png

2.3 多步ODE求解加速蒸馏

潜在扩散模型通常训练具有长时间步的噪声预测模型,以实现高质量生成。教师模型需要在所有 1000 时间步进行采样,这对于指导一致性蒸馏而言高度耗时和耗费计算资源。为了快速收敛,同时保持生成质量,作者引入了多步 ODE 求解器,极大地缩短了时间步长。通过选择适当的 k 值,实现快速收敛并保留样本质量。

11e4e62a34e0c0c50e922a8bf18490ac.png

62769315de616d2b1902e65c0b72ad12.png

实验

作者从多维度验证每种设计的有效性,从文本-音效与文本-音乐生成两方面将 AudioLCM 与同期最先进模型(SOTA)的生成样本质量相对比,证明了在采样速度与音频质量方面强大的优越性,并通过初步分析验证了提出方法的有效性。

3.1 初步分析

a. 多步 ODE 求解器加速收敛

17ebdf014f389828e6e486fcb1ddb936.png

▲ 图 2 多步 ODE 求解器(左图)与无分类器引导(右图)的初步分析。

通过评估音频质量与估计间隔之间的相关性在测试集上 ODE 求解器的性能,并深入探究不同规模的无分类器指导如何影响 FAD 的整体性能。

明显看到多步 ODE 求解器的收敛速度更快,凸显了使用多步法在加速收敛速度方面的有效性,选择 k = 20 以在样本质量和收敛速度之间取得平衡。

▲ b. 无分类器指导(Classifier-free Guidance, CFG)

较大的推理步骤表现出更好的性能,并在某个值处达到峰值。此处作者选择 5 作为 Scale 值。其次,2、4 和 8 推理步骤之间的性能差异很小,表明 LCM 在 2-8 步范围内的有效性。

3.2 文本转音频生成性能

作者对各种系统(包括 GT(即真实音频)、AudioGen、Make-An-Audio、AudioLDM-L、TANGO、Make-An-Audio 2 和 AudioLDM  2)中生成的音频样本的质量和推理延迟进行了比较分析,使用各自论文中发布的模型和相同的 100 个推理步骤进行公平比较。使用 AudioCaps 测试集进行评估,然后计算客观和主观指标。

d6e513bc52222d5d1e5bc61e2b2b1c2a.png

▲ 表格1:音频质量和采样速度比较。评估在具有 1 个 NVIDIA 4090Ti GPU 和批大小为 1 的服务器上进行。NFE(Number of Function Evaluations)测量计算成本,指生成过程中评估降噪函数的总次数。

AudioLCM 表现出出色的在音频质量与高效的采样速度,仅需 2 次迭代即可合成高保真音频样本。在配置了 2 个推理步骤时,AudioLCM 的 Fréchet 音频距离(FAD)为 1.56,Kullback-Leibler 散度(KL)为 1.30,生成的音频与地面实况之间的频谱和分布差异最小。

fbe390faa3d076a1173e38d952bf750c.png

▲ 图3 FAD 测量的推理延迟和样本质量之间的关系评估。

AudioLCM 在 RTF 降至 0.0015(即一步推理)之前表现出最小的性能下降,突显了其在仅需很少推理步骤即可实现高质量音频生成的稳健性。

4fd7eb777fcb02c7d601f45967631f65.png

▲ 表2 零样本生成结果研究模型的泛化性能,AudioLCM 2 步模型表现出与 baseline 相媲美的竞争力

3.3 文本到音乐的生成

在本节中,作者将 AudioLCM 生成的音频样本与一系列成熟的音乐生成系统进行比较分析。

505fca6f8f0e7ee34af4290124486093.png

▲ 表3 AudioLCM 与 MusicCaps 评估集上的基线模型之间的比较。

在音频质量方面,AudioLCM 的教师模型在一系列客观和主观指标上始终优于所有基于扩散的方法和语言模型;在采样速度方面,AudioLCM 仅需 2 次迭代即可生成高保真音乐样本,说明其在样本质量和推理所需时间之间取得最佳平衡的强大能力。

1370dcc04f672805df8733e97805e569.png

结论

AudioLCM 专为高效、高质量的文本到音频生成而量身定制,突破了 LDM 在生成任务中的固有收敛问题瓶颈,在保持样本质量的同时,将时间表从数千步缩短到数十步。作者广泛的初步分析表明,AudioLCM 中的每种设计都是有效且具有突破性的。

outside_default.png

参考文献

outside_default.png

[1] Rombach, Robin, et al. 'High-resolution image synthesis with latent diffusion models.' Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[2] Song Y, Dhariwal P, Chen M, et al. Consistency models[J]. arXiv preprint arXiv:2303.01469, 2023.

[3] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.

[4] Song J, Meng C, Ermon S. Denoising diffusion implicit models[J]. arXiv preprint arXiv:2010.02502, 2020.

更多阅读

54284a11dfa526e3bfd50895fa2189fa.png

28b7ddc769d204e01f9638e1098295fe.png

42523fcc0038d0db880ae1f5cdf1188a.png

b37962ed773820ca81f61f417d59daec.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

73f1ac6b6647f95fad78bd4e6520b845.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

a3497be1bf8bcce675bee5ae41b5cb74.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1982321.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【RHEL7】无人值守安装系统

目录 一、kickstart服务 1.下载kickstart 2.启动图形制作工具 3.选择设置 4.查看生成的文件 5.修改ks.cfg文件 二、HTTP服务 1.下载HTTP服务 2.启动HTTP服务 3.将挂载文件和ks.cfg放在HTTP默认目录下 4.测试HTTP服务 三、PXE 1.查看pxe需要安装什么 2.安装 四、…

批量按照原图片名排序修改图片格式为00000001.png(附代码)

💪 专业从事且热爱图像处理,图像处理专栏更新如下👇: 📝《图像去噪》 📝《超分辨率重建》 📝《语义分割》 📝《风格迁移》 📝《目标检测》 📝《暗光增强》 &a…

ARMxy工控机使用Node-Red教程:安装工具和依赖(2)

2.3 工具安装 Node-Red 安装过程需要用到网络。请通过网线将设备千兆网口 ETH1 连接至互联网,确保可正常访问互联网。 Node-Red 是一个基于Node的可视化编程工具,因此需要先安装Node。为了便于测试,我司提供的 node-v16.14.0-linux-arm64.t…

原神升级计划数据表:4个倒计时可以修改提示信息和时间,可以点击等级、命座、天赋、备注进行修改。

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><title>原神倒计时</title><style>* {margin: 0;padding: 0;box-sizing: border-box;body {background: #0b1b2c;}}header {width: 100vw;heigh…

「队列」实现FIFO队列(先进先出队列|queue)的功能 / 手撕数据结构(C++)

概述 队列&#xff0c;是一种基本的数据结构&#xff0c;也是一种数据适配器。它在底层上以链表方法实现。 队列的显著特点是他的添加元素与删除元素操作&#xff1a;先加入的元素总是被先弹出。 一个队列应该应该是这样的&#xff1a; --------------QUEUE-------------——…

大数据资源平台建设可行性研究方案(58页PPT)

方案介绍: 在当今信息化高速发展的时代&#xff0c;大数据已成为推动各行各业创新与转型的关键力量。为了充分利用大数据的潜在价值&#xff0c;构建一个高效、安全、可扩展的大数据资源平台显得尤为重要。通过本方案的实施企业可以显著提升数据处理能力、优化资源配置、促进业…

SQL注入实例(sqli-labs/less-8)

0、初始页面 1、确定闭合字符 ?id1 and 11 ?id1 and 12 ?id1 ?id1 and 11 -- ?id1 and 12 -- 确定闭合字符为单引号&#xff0c;并且正确页面与错误页面的显示不同 2、爆库名 使用python脚本 def inject_database1(url):name for i in range(1, 20):low 32high 1…

【大模型从入门到精通5】openAI API高级内容审核-1

这里写目录标题 高级内容审核利用 OpenAI 内容审核 API 的高级内容审核技术整合与实施使用自定义规则增强审核综合示例防止提示注入的策略使用分隔符隔离命令理解分隔符使用分隔符实现命令隔离 高级内容审核 利用 OpenAI 内容审核 API 的高级内容审核技术 OpenAI 内容审核 AP…

SQL注入漏洞复现1

一、靶场信息 sqli-labs下载&#xff1a;https://github.com/Audi-1/sqli-labs phpstudy下载地址&#xff1a;http://down.php.cn/PhpStudy20180211.zip 我是在本地安装小皮搭建环境&#xff0c;相比于在服务器上搭建环境&#xff0c;更加简单 二、注入实操 Less-1 爆库名…

搭建高可用OpenStack(Queen版)集群(三)之部署认证管理服务(Keystone)控制节点集群

一、搭建高可用OpenStack&#xff08;Queen版&#xff09;集群之部署认证服务&#xff08;Keystone&#xff09;控制节点集群 一、Identity 服务简介 1、Identity概述 Identity为认证管理&#xff0c;授权管理和服务目录服务管理提供单点整合。其它Openstack服务将身份认证服务…

常用的图像增强操作

我们将介绍如何用PIL库实现一些简单的图像增强方法。 [!NOTE] 初始化配置 import numpy as np from PIL import Image, ImageOps, ImageEnhance import warningswarnings.filterwarnings(ignore) IMAGE_SIZE 640[!important] 辅助函数 主要用于控制增强幅度 def int_param…

centos7.9升级rocky

ELevate Quickstart Guide | AlmaLinux Wiki 将 CentOS 7 升级到 AlmaLinux 9 由于 Leapp 工具设计为执行一步升级&#xff0c;为了将您的 CentOS 7 机器升级到 AlmaLinux 9&#xff0c;您需要拆分升级过程&#xff1a; CentOS 7 到 AlmaLinux 8AlmaLinux 8 到 AlmaLinux 9 …

Chainlit快速实现AI对话应用1 分钟内实现聊天数据的持久化保存

概述 默认情况下&#xff0c;Chainlit 应用不会保留其生成的聊天和元素。即网页一刷新&#xff0c;所有的聊天记录&#xff0c;页面上的所有聊天记录都会消失。但是&#xff0c;存储和利用这些数据的能力可能是您的项目或组织的重要组成部分。 一旦启用&#xff0c;数据持久性…

3d模型贴图后有部分阴影怎么解决?---模大狮模型网

在展览3D模型设计行业中&#xff0c;贴图是使展品栩栩如生的关键步骤之一。然而&#xff0c;有时在贴图后可能会出现一些意外的阴影&#xff0c;影响了展品的逼真度和视觉效果。本文将探讨在3D模型贴图后出现部分阴影的原因及解决方法&#xff0c;帮助设计师有效应对这一常见问…

Transwarp Data Studio 4.0 :适应AI新时代实现三大能力提升

企业数据资产管理能力建设需要经历资源化、资产化和资本化三个阶段&#xff0c;对应数据底座建设、资产管理平台建设、流通运营平台建设三大任务。星环科技大数据开发工具 Transwarp Data Studio&#xff0c;在此过程中发挥着承上启下的关键作用。近日&#xff0c;星环科技重磅…

ESP8266 烧录----待坑

虚焊&#xff0c;连接不稳定&#xff08;*******&#xff09;&#xff1b;暂时只有通过测试接口电压进行判断&#xff0c;无其它方法 问题总结 1. 输入电压为3.3V USB转TTL RX TX 必须不能高3.3否则无输出(USB转TTL有多种类型&#xff0c;测RX TX电源&#xff1b;天问的是5V的…

sqli-labs闯关1-4

第一关&#xff1a; 这里的输入了 &#xff1f;id1 意思是以GET方式传入id1的参数 就等于SELECT * FROM users WHERE id1 LIMIT 0,1 注意&#xff1a;-- 与-- 空格的区别 在url中输入了--以后&#xff0c;后端数据会变成--空格。在 url中输入 -- 空格 变成 -- 在mysql中&…

fieldIndex on a Row without schema is undefined

Bug信息 Caused by: java.lang.UnsupportedOperationException: fieldIndex on a Row without schema is undefined.at org.apache.spark.sql.Row$class.fieldIndex(Row.scala:342)at org.apache.spark.sql.catalyst.expressions.GenericRow.fieldIndex(rows.scala:166)at org…

Java - 2.1 Java基础

2.1 Java基础 &#xff08;1&#xff09;JVM & JRE & JDK JVM &#xff08;Java Virtual Machine&#xff09;是 Java 虚拟机&#xff0c;它的作用是运行 Java 字节码文件&#xff0c;它有针对不同系统的不同实现&#xff0c;以此达成一次编译&#xff0c;随处运行的…