人工智能现在可以从文本中生成具有CD音质的音乐,而且只会越来越好

news2024/10/7 3:18:27

现在说,否则永远停止你的节拍
想象一下,键入“戏剧性的介绍音乐”并听到一首飙升的交响乐,或者编写“令人毛骨悚然的脚步声”并获得高质量的音效。这是稳定音频的承诺,一个文本到音频的人工智能模型周三宣布由能合成立体声的稳定人工智能44.1千赫来自文字描述的音乐或声音。不久,类似的技术可能会挑战音乐家的工作。

如果你还记得的话,Stability AI是帮助投资创建稳定扩散,2022年8月发布的潜在扩散图像合成模型。该公司不满足于制作图像,还通过后台支持将业务扩展到了音频领域哈蒙奈,一个推出音乐生成器的人工智能实验室舞蹈扩散九月。

现在Stability和Harmonai想用稳定音频打入商业ai音频制作。由…判断生产样品,这似乎是一个重大的音频质量升级,从以前的人工智能音频发生器,我们已经看到了。

在其宣传页面上,Stability提供了人工智能模型的例子,并提供了“史诗预告片音乐,强烈的部落打击乐器和铜管乐器”和“lofi hip hop beat melody chill hop 85 BPM”等提示。它还提供了使用稳定音频生成的声音效果样本,如航空公司飞行员通过对讲机讲话和人们在繁忙的餐馆中交谈。

为了训练它的模型,稳定性与股票音乐提供商合作AudioSparx并授权了一个数据集“由超过800,000个音频文件组成,包含音乐、声音效果和单乐器词干,以及相应的文本元数据。”在将19,500小时的音频输入模型后,Stable Audio知道如何模仿它在命令下听到的某些声音,因为这些声音在其神经网络中与它们的文本描述相关联。

由Stability AI提供的稳定音频架构的框图
稳定音频包含几个部分,它们协同工作以快速创建自定音频。一部分以保留重要特征的方式缩小音频文件,同时去除不必要的噪音。这使得系统既能更快地进行教学,又能更快地创建新的音频。另一部分使用文本(音乐和声音的元数据描述)来帮助指导生成哪种音频。

为了加快速度,稳定音频架构对高度简化的压缩音频表示进行操作,以减少推理时间(机器学习模型在获得输入后生成输出所需的时间)。根据Stability AI的说法,Stable Audio可以以44.1 kHz的采样率渲染95秒的16位立体声音频(通常称为“CD质量因为它符合CD格式的技术规格)Nvidia A100 GPU。A100是为人工智能使用而设计的强大的数据中心GPU,它比典型的桌面游戏GPU更有能力。

虽然生成的音频在位深度和采样速率方面可能符合CD规范,但值得注意的是,稳定音频产生的音乐的实际感知质量可能会有很大差异,尤其是因为音频是从数据集中的压缩表示中生成的。

如上所述,稳定的音频并不是第一个基于潜在扩散技术的音乐发生器。去年12月,我们报道了重复融合一个业余爱好者对稳定扩散的音频版本感兴趣,尽管其产生的几代产品在质量上远远达不到稳定音频的样本。今年1月,谷歌发布了MusicLM,这是一个24 kHz音频的人工智能音乐生成器,Meta推出了一套开源音频工具(包括一个文本到音乐生成器),名为音频工艺八月。现在,随着44.1千赫立体声音频,稳定的扩散正在增加赌注。

稳定性说,稳定的音频将可在一个免费层和12美元每月专业计划。通过免费选项,用户每月可以生成多达20首曲目,每首曲目最长20秒。Pro计划扩展了这些限制,允许每月生成500首曲目,曲目长度可达90秒。未来的稳定版本预计将包括基于稳定音频架构的开源模型,以及为那些对开发音频生成模型感兴趣的人提供的培训代码。

就目前情况而言,考虑到音频保真度,我们可能处于生产质量的人工智能生成的稳定音频音乐的边缘。音乐人被AI模特取代会开心吗?不太可能,如果历史告诉我们艾在视觉艺术领域的抗议。目前,人类可以轻松超越人工智能可以产生的任何东西,但这种情况可能不会持续太久。无论如何,人工智能生成的音频可能会成为专业人员音频制作工具箱中的另一个工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1011565.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

antv-G6知识图谱安装--使用(实例)--连接线修改成动态,并添加跟随线移动的光圈,设置分支跟踪定位功能

这系列文章主要是完成一个图谱的自定义修改(最近太忙了长篇分段更新自己使用流程) 1. 连接线修改成动态,并添加跟随线移动的光圈 2. 自定义卡片样式和文字内容 3. 自定义伸缩节点的样式,并添加动画样式 3. 自定义弹窗样式 4. 自定…

Redis缓存更新策略、详解并发条件下数据库与缓存的一致性问题以及消息队列解决方案

0、前言 我们知道,缓存由于在内存中,数据处理速度比直接操作数据库要快很多,因此常常将数据先读到缓存中,再进行查询、更新等操作。 但与之而来的问题就是,内存中的数据不仅没有持久化,而且需要保证…

Dajngo02_第一个Django案例

Dajngo02_第一个Django案例 经过之前学习,我们已经可以创建Django环境 现在开始尝试快速使用Django开发一个案例 案例:利用Django实现一个查看当前时间的web页面。 在django中要提供数据展示给用户,一般情况下我们需要完成3个步骤: 在urls.…

如何选择合适的预测性维护工具和平台

随着技术的不断进步,预测性维护(Predictive Maintenance,简称PdM)已经成为许多企业提高生产效率、减少停机时间和维护成本的核心策略。然而,选择适合自己业务需求的PdM工具和平台可能并不容易。本文将为您提供一些关键…

传统机器学习总结以及深度学习初识

传统机器学习总结以及深度学习初识 文章目录 前言一、传统机器学习总结1.1. 监督学习算法(Supervised Learning)1.2. 无监督学习算法(Unsupervised Learning) 二、深度学习初识三、github与gitee的介绍3.1. GitHub:3.2…

Sqlserver 监控使用磁盘空间情况

最近遇到一个小问题:为了保存以往的一些数据,间了大量临时表,导致SQLserver 数据增长过快,不得不想个办法监控磁盘空间使用情况。 网上一般有几种办法: 一是使用 dm_os_volume_stats函数,缺点是 无法获取非…

【实践篇】MySQL执行计划详解

文章目录 本文知识大纲速览1. 前言2. 基本介绍1. 什么是执行计划2. 如何查看执行计划3. 执行计划的组成部分 3. 执行计划的关键元素1. id2. select_type3. table:4. type:5. possible_keys:6. key:7. key_len8. ref:9. rows:10. Extra 4. 底层原理5. 执行计划示例解读本文知识图…

本地引入 Axios 报错

目录 报错信息: 报错截图: ​编辑报错原因: 解决方法: ​编辑运行结果成功: 报错信息: Cannot read properties of undefined (reading post) TypeError: Cannot read properties of undefined (rea…

SpringBoot,Mybatis 使用Java8(JSR310)时间日期规范

目录 一. 依赖二. 前台三. Controller&#xff0c;Form&#xff0c;Service四. 数据库类型五. 效果 一. 依赖 ⏹若使用的是SpringBoot <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifac…

Microsoft 365跨平台协同办公功能,实现Mac、iOS、Windows用户的实时无缝协作

Microsoft 365 for Mac(Office 365)现已更新&#xff0c;最新版本的Microsoft 365 现已支持跨平台协同办公&#xff0c;接下来为你介绍一些使用office 365 Mac版进行创作及写作的好方法。 Microsoft 365 在全平台共用相同的代码库&#xff0c;这意味着使用 Mac、ios 和Windows…

【日积月累】SpringBoot启动流程

目录 SpringBoot启动流程 1.前言2.构造一个SpringApplication的实例&#xff0c;完成初始化的工作SpringApplication实例构造完之后调用run方法&#xff0c;启动SpringApplication3.SpringBoot启动代码SpringBootConfigurationComponentScanEnableAutoConfiguration 总结参考…

随手笔记(四十六)——idea source root错乱

一般问题会出现在这里&#xff0c;写着别的项目的项目名&#xff0c;就是因为reload了别的项目的maven文件&#xff0c;借鉴了很多网上的说法&#xff0c;比如改project Structure里面改子项目的source。确实讲得挺好&#xff0c;就是不会用&#xff1b;所以最后的解决方案就是…

多云系列|10个关键的多云战略:简介

随着VMware继续向客户介绍多云问题以及VMware跨云服务在云智能计算历程中的优势&#xff0c;有一个问题经常被提及&#xff0c;“我如何开始&#xff1f;”。本博客系列旨在为客户提供指导&#xff0c;并回顾多云的十大领域&#xff0c;介绍我们应该关注哪些方面。此外&#xf…

引领UI设计生产工具进入AI时代,猿辅导旗下Motiff发布三大AI功能

近期&#xff0c;IXDC 2023国际体验设计大会在北京国家会议中心举行&#xff0c;共邀请全球800企业&#xff0c;1000名设计师共襄主题为“设计领导力”的创新盛会。作为全球最具影响力的创新设计大会之一&#xff0c;大会围绕创新、系统、商业三个关键维度&#xff0c;结合在AI…

MySQL优化第二篇

MySQL优化第二篇 性能分析小表驱动大表慢查询日志日志分析工具mysqldumpslow Show Profile进行SQL分析&#xff08;重中之重&#xff09; 七种JOIN 1、inner join &#xff1a;可以简写为join&#xff0c;表示的是交集&#xff0c;也就是两张表的共同数据 sql语句&#xff1a…

Recognize Anything:一个强大的图像标记模型

Recognize Anything是一种新的图像标记基础模型&#xff0c;与传统模型不同&#xff0c;它不依赖于手动注释进行训练;相反&#xff0c;它利用大规模的图像-文本对。RAM的开发过程包括四个关键阶段: 通过自动文本语义解析获得大规模的无标注图像标签。结合标题和标注任务&#…

网络电视盒子哪个品牌好?测评工作室深入分析电视盒子排名

电视盒子只需要联网就可以收看海量资源&#xff0c;不需要每月缴费&#xff0c;玩游戏、上网课、K歌都不在话下&#xff0c;对新手来说电视盒子如何选择&#xff1f;网络电视盒子哪个品牌好&#xff1f;工作室购入了最热销的15款电视盒子经过多角度对比后整理了电视盒子排名&am…

Linux内核源码分析 (B.x)Linux页表的映射

Linux内核源码分析 (B.x)Linux页表的映射 文章目录 Linux内核源码分析 (B.x)Linux页表的映射一、ARM32页表1、页表术语2、虚拟地址到物理地址转换3、一级页表项4、二级页表项 二、ARM64页表1、ARMv8-A架构2、4KB大小页4级映射 三、Linux内核中关于页表的函数和宏1、查询页表2、…

第三方ipad笔哪个牌子好用?开学季比较好用的电容笔

新学期有什么电容笔值得入手&#xff1f;这款平替电容笔&#xff0c;名为Apple Pencil&#xff0c;唯一的区别就是它的压力感应功能&#xff0c;同时拥有重力压感以及倾斜压感&#xff0c;而平替电容笔仅只拥有倾斜压感一种功能&#xff0c;不过它的压力感应能力很强&#xff0…

034:vue项目利用qrcodejs2生成二维码示例

第034个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下&#xff0c;本专栏提供行之有效的源代码示例和信息点介绍&#xff0c;做到灵活运用。 &#xff08;1&#xff09;提供vue2的一些基本操作&#xff1a;安装、引用&#xff0c;模板使…