Stability AI发布AI音频模型Stable Audio Open，文本生成47秒高清音效

news2026/2/14 19:26:53

前言

Stability AI这家以开源图像生成模型 Stable Diffusion 而闻名的公司，在 6 月 6 日宣布开源其最新的 AI 音频模型 Stable Audio Open。这一新模型可以根据简单的文本提示生成最多 47 秒的高质量音频数据，为音乐制作和声音设计领域带来了新的可能性。

Huggingface模型下载：https://huggingface.co/stabilityai/stable-audio-open-1.0
AI快站模型免费加速下载：https://aifasthub.com/models/stabilityai/stable-audio-open-1.0

技术特点

Stable Audio Open 的核心技术基于文本条件下的扩散模型（Diffusion Model），并结合了音频编码器和 T5 文本嵌入模型，实现了从文本到音频的高质量生成：

扩散模型： 模型的核心是基于 Transformer 架构的扩散模型 (DiT)，它能够在音频编码器的潜在空间中进行操作，生成高质量的音频数据。
音频编码器： 模型使用了一个专门的音频编码器，将音频波形压缩成可管理的序列长度，方便扩散模型进行处理。
文本嵌入： 模型使用了预训练的 T5 模型 (t5-base) 对文本进行嵌入，将文本信息转化为模型可理解的向量，从而实现根据文本提示生成音频。

Stable Audio Open 1.0 可以生成长度可变 (最长 47 秒) 的立体声音频，采样率为 44.1kHz。该模型使用了 486,492 个录音数据进行训练，其中 472,618 个来自 Freesound，13,874 个来自免费音乐档案馆 (FMA)。所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 获得了商业许可。

性能表现

Stable Audio Open 在音频生成方面表现出色，能够根据文本提示生成各种类型的音效，包括：

乐器音效： 例如钢琴、笛子、鼓点等。
环境音效： 例如雨声、风声、鸟叫声等。
音效素材： 例如脚步声、开门声、关门声等。
模拟人声： 模型可以生成简短的模拟人声，但尚未针对完整歌曲、旋律或人声进行优化。

应用场景

Stable Audio Open 在音乐制作、声音设计、游戏开发、影视制作等多个领域都有广泛的应用场景：

音乐制作： 音乐人可以利用 Stable Audio Open 快速生成新的音乐素材，例如鼓点、音效、旋律等，加速音乐创作流程。
声音设计： 音频设计师可以利用 Stable Audio Open 生成各种音效，例如环境音效、特殊音效等，为影视作品、游戏等增添音效细节。
游戏开发： 游戏开发者可以利用 Stable Audio Open 生成游戏中的背景音乐、音效，为游戏增添更加逼真的音效体验。
影视制作： 电影、电视剧等影视作品的制作人员可以利用 Stable Audio Open 生成各种音效，例如环境音效、人物音效等，为影视作品增添更丰富的声音细节。

总结

Stable Audio Open 的开源，为 AI 音频生成领域带来了新的突破。它不仅能够生成高质量的音频数据，还支持自定义数据微调，为音乐人、音频设计师等提供了强大的音频创作工具。未来，随着 AI 技术的不断发展，Stable Audio Open 可能会带来更多新的应用场景和可能性，为声音创作领域带来更大的革新。