文本直接生成20多种背景音乐,免费版Stable Audio来了!

news2024/11/25 19:25:25

9月14日,著名开源平台Stability AI在官网发布了,音频生成式AI产品Stable Audio。(免费使用地址:https://www.stableaudio.com/generate)

用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

例如,输入迪斯科、鼓机、合成器、贝司、钢琴、吉他、欢快、115 BPM等关键词,就能生成背景音乐。

目前,Stable Audio有免费和付费两个版本:免费版,每月可生成20个音乐,最大时长45秒,不能用于商业;付费版,每月11.99美元(约87元),可生成500个音乐,最大时长90秒,可用于商业。

如果你不想付费可以多注册几个账号,可以通过AU(一种音频编辑器)或PR将生成的音乐拼接起来可达到同样效果。
在这里插入图片描述

Stable Audio简单介绍

在过去几年,扩散模型在图像、视频、音频等领域获得了飞速发展,可显著提升训练和推理效率。但音频领域的扩散模型存在一个问题,通常会生成固定大小的内容。

例如,音频扩散模型可能在30秒的音频片段上进行训练,并且只能生成30秒的音频片段。为了打破这个技术瓶颈Stable Audio使用了一种更先进的模型。
这是一种基于文本元数据以及音频文件持续时间,和开始时间调整的音频潜在扩散模型,允许对生成音频的内容和长度进行控制。这种额外的时间条件使用户能够生成指定长度的音频。
在这里插入图片描述

与原始音频相比,使用大幅度下采样的音频潜在表示可以实现更快的推理效率。通过最新稳定音频模型,Stable Audio能在不到一秒的时间内,使用NVIDIA A100 GPU渲染出95秒的立体声音频,采样率为44.1 kHz。

训练数据方面,Stable Audio使用了一个超过80万个音频文件组成的数据集,包含音乐、音效以及各种乐器。

该数据集总计超过1.95万小时的音频,同时与音乐服务商AudioSparx进行合作,所以,生成的音乐可以用于商业化。

潜在扩散模型

Stable Audio所使用的潜在扩散模型(Latent Diffusion Models)是一种基于扩散的生成模型,主要在预训练的自动编码器的潜在编码空间中使用。这是一种结合了自动编码器和扩散模型的方法。

自动编码器首先被用来学习输入数据(例如图像或音频)的低维潜在表示。这个潜在表示捕捉了输入数据的重要特征,并且可以被用来重构原始数据。
然后,扩散模型在这个潜在空间中进行训练,逐步改变潜在变量,从而生成新的数据。
在这里插入图片描述

这种方法的主要优点是可以显著提高扩散模型的训练和推理速度。因为扩散过程在一个相对较小的潜在空间中进行,而不是在原始数据空间中进行,因此可以更高效地生成新的数据。

此外,通过在潜在空间中进行操作,这种模型还可以提供对生成数据的更好控制。例如,可以通过操纵潜在变量来改变生成数据的某些特性,或者通过对潜在变量施加约束来引导数据生成过程。

Stable Audio使用和案例展示

「AIGC开放社区」体验了一下免费版Stable Audio,使用方法与ChatGPT差不多直接输入文本提示即可。提示内容包括细节、心态、乐器和节拍四大类。
需要注意的是,如果想生成的音乐更细腻、有律动性和节奏,输入的文本也需要更细化。也就是说,你输入的文本提示越多,那么生成的效果就约好。
在这里插入图片描述

Stable Audio使用界面

以下是生成音频案例展示。

恍惚、岛屿、海滩、太阳、凌晨4点、渐进、合成器、909、戏剧和弦、合唱、欢快、怀旧、动态。

柔软的拥抱,舒适,低合成,闪烁,风和树叶,环境,和平,放松,水。

流行电子、大混响合成器、控鼓机、大气、穆迪、怀旧、酷、流行乐器、100 BPM。
3/4,3拍,吉他,鼓,明亮,快乐,拍手

本文素材来源Stability AI官网,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1009423.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java复习-线程的同步和死锁

线程的同步和死锁 同步问题引出 当多个线程访问同一资源时,会出现不同步问题。比如当票贩子A(线程A)已经通过了“判断”,但由于网络延迟,暂未修改票数的间隔时间内,票贩子B(线程B)…

2023全新云渲染测评!效果图渲染哪个平台性价比更高?

 近期我们的青团平台全新上线了!“青团平台”是专为效果图渲染用户量身打造的全新云渲染平台。目前平台活动力度很大,充值后单图最高优惠低至2元封顶,非常具有性价比。接下来,我将对比我们的青团平台和另外两个平台&…

远程桌面工具

PRemoteM 是一款现代的远程会话管理和启动器,它让你能够在任何时候快速开启一个远程会话。目前 PRemoteM 已支持 微软远程桌面(RDP)、VNC、SSH、Telnet、SFTP, FTP, RemoteApp等协议。 图片 1 PRemoteM 简介 如果你远程连接windows桌面仍旧在使用winR,输…

tensorflow cuda gpu 安装

Windows 安装 CUDA/cuDNN 需要注意的是一定要选择 TensorFlow 和 CUDA相匹配,还需要查看下自己GPU的驱动版本,如果不匹配会出现很多问题。GPU驱动的版本可在 NVIDIA控制面板里找到: CUDA个版本与驱动的关系如下: GPU版本的 Tensor…

陷波器设计

中心频率 f c H z f_c \rm Hz fc​Hz 3dB陷波器带宽 f b H z f_b \rm Hz fb​Hz 陷波器深度 d d d 倍,即 20 log ⁡ ( d ) d B 20\log(d) \rm dB 20log(d)dB 则 B 2 π f b ω n 2 π f c \begin{aligned} B &2\pi f_b \\ \omega_n & 2\pi f_c \end…

「中秋来袭」没想到,用OpenCV竟能画出这么漂亮的月饼「附源码」

一、前言 中秋佳节即将来临,作为传统的中国节日之一,人们除了品尝美味的月饼、赏月外,还喜欢通过绘画来表达对这个节日的喜悦和祝福。而如今,随着科技的不断发展,竟然可以借助计算机视觉库OpenCV来绘制精美的月饼和可…

Flutter的oktoast插件详解

文章目录 简介详细介绍安装和导入导入在MaterialApp外面套一层OKToast组件为什么是包住MaterialApp? 显示Toast消息: 高级使用Toast位置Toast持续时间自定义Toast样式高级用法 使用场景提示消息表单验证操作反馈网络请求状态调试信息小结 总结 简介 okt…

剑指offer刷题笔记 开端

剑指offer刷题笔记 文章目录 剑指offer刷题笔记注意内容 时间复杂度C 语法知识补充:优先级new 和 delete树的遍历 算法模板string类判断字符串为空归并递归整数二分算法模板 注意内容 map 是 O(logn) ,底层实现是平衡树,unorder_map 是 O(1)…

Thinkphp6 配置并使用redis图文详解 小皮面板

这篇文章主要介绍了Thinkphp6 配置并使用redis的方法,结合实例形式详细分析了Redis的安装、配置以及thinkphp6操作Redis的基本技巧,需要的朋友可以参考下 一、安装redis ThinkPHP内置支持的缓存类型包括file、memcache、wincache、sqlite。ThinkPHP默认使用自带的采用think\Ca…

zabbix监控多实例redis

Zabbix监控多实例Redis 软件名称软件版本Zabbix Server6.0.17Zabbix Agent5.4.1Redis6.2.10 Zabbix客户端配置 编辑自动发现脚本 vim /usr/local/zabbix/scripts/redis_discovery.sh #!/bin/bash #Fucation:redis low-level discovery #Script_name redis_discovery.sh red…

软件外包开发原型图工具

国内有一些原型图管理工具,这些工具旨在帮助团队创建、协作和管理应用程序的原型图。以下是一些国内的原型图管理工具及其特点,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.墨刀&…

学习视觉SLAM需要会些什么?

前言 SLAM是现阶段很多研究生的研究方向,我也是作为一个即将步入视觉SLAM的研究生,网上对于SLAM的介绍很多,但很少有人完整系统的告诉你学习视觉SLAM该有那些基础,那么此贴将告诉你学习SLAM你要有那些方面的基础。 文章目录 前言…

在Linux上利用宝塔面板搭建网站,并通过内网穿透方便地实现公网访问

文章目录 前言1. 环境安装2. 安装cpolar内网穿透3. 内网穿透4. 固定http地址5. 配置二级子域名6. 创建一个测试页面 前言 宝塔面板作为简单好用的服务器运维管理面板,它支持Linux/Windows系统,我们可用它来一键配置LAMP/LNMP环境、网站、数据库、FTP等&…

大数据课程M2——ELK的ELASTICSEARCH概述

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解ELK的ELASTICSEARCH概括; ⚪ 掌握ELK的ELASTICSEARCH核心概念; 一、ELASTICSEARCH概括 1. ES安装和启动 注意:如果使用达内云主机,无需安装es,直接配置yml启动即可。 1. 安装 下…

普中51-蜂鸣器实验

蜂鸣器实验 蜂鸣器主要分为压电式蜂鸣器和电磁式蜂鸣器两种类型 压电式蜂鸣器主要由多谐振荡器、压电蜂鸣片、阻抗匹配器及共鸣箱、外壳等组成。多谐振荡器由晶体管或集成电路构成,当接通电源后(1.5~15V 直流工 作电压),多谐振荡…

量化INT8模型报错记录及解决方案

基于C将onnx 模型 转 TensorRT 模型(int8) 部分命令如下: config->setFlag(nvinfer1::BuilderFlag::kINT8); ICudaEngine* engine builder->buildEngineWithConfig(*network, *config); 出现以下报错: Error Code 4: I…

使用凌鲨进行聚合搜索

作为研发人员,我们经常需要在多个来源之间查找信息,以便进行研发工作。除了常用的搜索引擎如百度和必应之外,我们还需要查阅各种代码文档和依赖包等资源。这些资源通常分散在各个网站和文档库中,需要花费一定的时间和精力才能找到…

闲置的固定资产怎么账务管理

对于那些被遗忘或闲置的固定资产,如何进行有效的账务管理,以实现资产的最大价值,却往往被忽视。本文旨在探讨这一主题,并提供一些创新的策略和实践方法。  需要认识到,闲置的固定资产并非仅仅是财务问题。它们可能代…

【css | loading】各种简单的loading特效

先看一下简单的效果图 线上预览 https://code.juejin.cn/pen/7278511766991339579 代码 HTML <!-- / 1 --><section><div class"sk-rotating-plane"></div></section><!-- / 2 --><section><div class"sk-doub…

OOM分析实战

OOM分析&实战 OOM分析&实战引言&#xff1a;一、JVM内存结构二、JVM OOM错误情况三、实践案例一案例二案例三 四、总结五、分析工具推荐六、参考文献 OOM分析&实战 引言&#xff1a; 在Java开发中&#xff0c;随着应用程序变得越来越复杂&#xff0c;内存管理问题…