上海AI实验室等开源,音频、音乐统一开发工具包Amphion

news2025/2/26 13:12:38

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。

Amphion包含了数据处理、通用模块、优化算法等基础设施。同时针对文本到语音、歌声转换、文本到音频生成等任务,提供了特定的框架、模型和开发说明,还内置了各类神经语音编解码器和评价指标。

尤其是对于那些刚接触生成式AI开发的新手来说,Amphion非常容易上手。

开源地址:https://github.com/open-mmlab/Amphion

论文地址:https://arxiv.org/abs/2312.09911

图片

以下是Amphion包含的各种模型

文本到语音合成

Amphion内置的文本到语音合成模型,涵盖从传统到当前最先进的技术。例如,FastSpeech 2使用前馈式Transformer架构实现快速语音合成;

VITS融合了条件变分自编码器,可实现端到端的语音合成;Vall-E使用神经编解码器语言模型一键实现零资源的语音合成;NaturalSpeech 2利用潜在扩散模型合成高质量语音。

图片

开发者可根据业务需求,选择使用不同的模型进行语音合成。

歌声转换

Amphion提供了提取说话人无关表示的各类基于内容的特征,例如,来自WeNet、Whisper和ContentVec的预训练语音特征。

同时实现了多种声学解码器架构,比如基于扩散模型、变压器和变分自编码器的方法。

图片

此外,借助内置的神经语音编解码器合成声波输出,开发者可以灵活配置不同模块,进行不同歌声风格转换。

文本到音频生成

Amphion使用了主流的潜在扩散生成模型。该模型包含一个将频谱映射到潜空间的变分自动编码器,一个接受文本并输出条件的T5编码器,以及一个扩散网络生成最终音频。

用户只需给出音频描述文本,就可以生成语义一致的背景音效。

神经语音编解码器

Amphion提供了丰富的编解码器算法选项,涵盖主流的自动回归模型、流模型、对抗生成模型、扩散模型等。

图片

例如,WaveNet使用膨胀卷积实现高质量语音合成;HiFi-GAN应用多尺度判别器实现高保真的语音重构等,可满足不同业务场景的需求。

性能评估模块

为了帮助开发者全面评估生成语音的质量和性能,Amphion提供了丰富的评估模块。

评估基频建模、能量建模、频谱失真、可懂度等语音维度,可帮助开发者简单直观地比较不同模型的性能。

图片

开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。

本文素材来源Amphion论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1379967.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【开源】基于JAVA+Vue+SpringBoot的考研专业课程管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 考研高校模块2.3 高校教师管理模块2.4 考研专业模块2.5 考研政策模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 考研高校表3.2.2 高校教师表3.2.3 考研专业表3.2.4 考研政策表 四、系统展示五、核…

面试题:说一下缓存穿透?缓存击穿?缓存雪崩?

文章目录 面试题1:怎么解决缓存穿透问题的?那我们怎样来解决这种缓存穿透问题呢?布隆过滤器的优缺点 面试题2:说一下缓存击穿吧,你们是怎么解决的?解决方案: 面试题3:那缓存雪崩说说…

【服务器数据恢复】服务器硬盘磁头损坏的数据恢复案例

服务器硬盘故障: 一台服务器上raid阵列上有两块硬盘出现故障,用户方已经将故障硬盘送到其他机构检测过,其中一块硬盘已经开盘,检测结果是盘片损伤严重;另一块硬盘尚未开盘,初步判断也存在硬件故障&#xff…

大数据技术原理与应用 期末复习 知识点全总结(林子雨版

目录 1.第一章 大数据概述:(一)三次信息化浪潮(二)人类社会数据产生方式的3个阶段(三)大数据的3个发展阶段(四)大数据4V概念(五)数据存储单位之间…

九、IndexedDB前端缓存

前言 在通才 3D 数字工厂项目中,由于场景文件(glb 资源文件)过大,并且每次加载页面时,glb 文件都会被重新加载,造成页面加载缓慢,最后通过保存生成 Blob 格式存储到 IndexedDB 中,增加文件缓存,减少资源重复加载。 为什么需要 IndexedDB 随着前端技术的发展和浏览器…

上门回收小程序开发,让回收更加简单

资源回收一直是当下深受大众关注的话题,如何做到资源不浪费,成为了大众要考虑的问题。在人们环保意识的加深下,回收行业也是获得了大众的关注,逐渐形成了一个新的商业模式。 随着互联网技术的发展,回收行业也更加方便…

中霖教育:CPA注册会计师报考注意事项有哪些?

在报考注册会计师时,以下这些注意事项你一定要了解! 1.CPA报考的条件 考生需要具备完全民事行为能力;具有高等专科以上学校毕业学历,或者具有会计或者相关专业中级以上技术职称。 2.专业阶段考试科目为: 《会计》、《审计》、《税法》、《…

HarmonyOS讲解并演示 animateTo 动画效果

本文 我们一起看一看动画 首先 harmonyos中的东西 其实就是通过改变 响应式数据的值 以及配合动画参数 即可完成 我们先来看 布局更新动画 中的 显示动画 简单说 触发事件 改变组件的位置信息 我们先编写代码如下 Entry Component struct Index {State itemAlign: Horizont…

【Maven】005-基于 IDEA 进行 Maven 依赖管理

【Maven】005-基于 IDEA 进行 Maven 依赖管理 文章目录 【Maven】005-基于 IDEA 进行 Maven 依赖管理一、Maven 依赖管理二、GAVP 再说明三、Maven 工程依赖管理配置1、依赖配置2、版本统一声明和使用3、依赖范围说明4、Maven工程依赖下载失败错误解决(重点&#xf…

WAMP apache 无法启动(端口 80 未使用)

这段时间系统重装后,安装WAMP Server,装好后点击启动绿了下然后又变成了黄色,托盘图标无论是左键点击还是右键点击都没有反应,wampapache64服务也启动不起来,提示“windows不能在本地计算机启动wampapache”&#xff0…

Linux QT以太网配置及相关知识

Linux QT以太网配置及相关知识 平台和内容概述安装Qt Creator设计用户界面编辑源代码自定义LineEdit创建槽函数以太网逻辑功能实现静态配置ui逻辑:功能概述代码实现DNS退出程序输入框中的ip规范保存数据和读取数据构建文件编译运行平台注意点开机自动配置以太网总结平台和内容…

世界人口数据分析与探索

文章目录 世界人口数据集介绍数据集 1:世界国家统计数据:数据集 2:世界人口详细信息(2023 年):数据集 3:按年份划分的世界人口(1950-2023): 数据分析导入必要…

Linux中DNS域名解析服务及实验

一、DNS介绍 1、DNS 是域名系统,应用层协议,是互联网的一项服务,是将域名转换成网络可以识别的IP地址,再通过IP地址访问主机。这种由文字组成的名称更容易记忆。 DNS是“域名系统"的英文缩写。它作为将域名和IP地址相互映…

小学信息科技Python课程第2课:坐标与画笔

一、turtle画布与坐标系 在同一平面互相垂直且有公共原点的两条数轴构成平面直角坐标系。在坐标系中,水平方向的轴都称为x轴,垂直方向的轴都称为y轴 它们相交于O点,在这一个点里,x轴的值为0,y轴的值也为0,所…

解决SlF4J配置冲突警告:【SLF4J: Class path contains multiple SLF4J providers】

1、问题背景 最近在启动Springboot的时候出现了SLF4J相关的报红警告,虽然是不影响程序运行,但是作为一个有着代码洁癖的人看的是真难受。 警告信息如下: SLF4J: Class path contains multiple SLF4J providers. SLF4J: Found provider [ch…

WPF真入门教程27--项目案例--设备数据实时监测

1、上图看效果 今天要做的一个案例是这样的效果,它能实时监测车间设备有关数据,并以表格和图形显示在界面上,这个比上个案例要复杂些,颜值也高些,通过这个来巩固wpf的技能,用到了命令绑定,样式…

UCB Data100:数据科学的原理和技巧:第二十一章到第二十六章

二十一、SQL II 原文:SQL II 译者:飞龙 协议:CC BY-NC-SA 4.0 学习成果 介绍过滤组的能力 在 SQL 中执行数据清理和文本操作 跨表连接数据 在本讲座中,我们将继续上次的工作,介绍一些高级的 SQL 语法。 首先&…

PHP在线文档管理系统源码

PHP在线文档管理系统源码 系统功能与介绍 在数据持续、快速增长背景下,企业面临海量非结构化数据处理需求,企业现有架构 通常无法应对海量非结构化数据的管理与应用。 支持私有化部署,完全内网环境下也可正常使用。 Windows、Linux、Mac等全平…

Java异常处理--异常处理的方式1:try-catch-finally

文章目录 一、异常处理概述二、方式1:捕获异常(try-catch-finally)(1)抓抛模型(2)try-catch-finally基本格式1、基本语法2、整体执行过程3、try和catch3.1 try3.2 catch (Exceptiontype e) &…

OSG加载STL模型

下载了2个简单stl模型,用基本的加载代码;直接可以加载; 查一点资料; 怎样在OSG中添加支持STL格式的模型文件? 使用OSG时,如果需要导入STL格式的模型文件,需要添加STL插件。 可以通过在代码中调…