MetaAI发布人工智能语音模型Voicebox

news2024/10/6 22:29:46

Meta官网博客更新:人工智能研究人员在语音生成人工智能方面取得了突破。我们开发了Voicebox,这是第一个可以推广到语音生成任务的模型,它没有经过专门训练,以最先进的性能来完成。

 

与图像和文本的生成系统一样,Voicebox以各种风格创建输出,它可以从头开始创建输出,也可以修改给出的样本。但是,Voicebox不是创建图片或文本段落,而是生成高质量的音频剪辑。该模型可以跨六种语言合成语音,以及执行降噪、内容编辑、样式转换和多样化的样本生成。

论文地址:https://research.facebook.com/file/649409006862002/paper_fixed.pdf 

Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning Hsu。

在Voicebox之前,生成语音人工智能需要使用精心准备的训练数据对每项任务进行特定培训。Voicebox使用一种新方法,仅从原始音频和随附的转录中学习。与音频生成的自动回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定音频剪辑的结尾。

Voicebox基于一种名为Flow Matching的方法,该方法已被证明可以改进扩散模型。Voicebox在零拍摄文本转语音方面优于当前最先进的英语模型VALL-E,在可理解性(5.9%对1.9%的单词错误率)和音频相似性(0.580对0.681)方面,同时速度高达20倍。对于跨语言风格的传输,Voicebox的性能优于YourTTS,将平均单词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。

Voicebox还分别在英语和多语言基准的音频风格相似性指标上取得了新的先进成果。
 
生成语音模型有许多令人兴奋的用例,但由于滥用的潜在风险,我们目前没有公开Voicebox模型或代码。虽然我们认为必须向人工智能社区开放,并分享我们的研究,以推进人工智能的最新技术,但也有必要在开放与责任之间取得适当的平衡。考虑到这些,今天我们正在分享音频样本和一份研究论文,详细说明我们所取得的方法和结果。在论文中,我们还详细介绍了我们如何构建一个高效的分类器,可以区分使用Voicebox生成的真实语音和音频。
语音生成的新方法

现有语音合成器的主要局限性之一是,它们只能根据专门为该任务准备的数据进行训练。这些输入——被称为单调、干净的数据——很难产生,因此它们只存在于有限的数量上,它们导致听起来单调的输出。

我们在流匹配模型上构建了Voicebox,这是Meta在非自回归生成模型上的最新进展,该模型可以学习文本和语音之间的高度非确定性映射。非确定性映射很有用,因为它使Voicebox能够从不同的语音数据中学习,而无需仔细标记这些变体。这意味着Voicebox可以在更多样化的数据和更大规模的数据上进行训练。

我们用英语、法语、西班牙语、德语、波兰语和葡萄牙语的公共领域有声读物录制了超过5万小时的演讲和成绩单。Voicebox经过训练,在给定周围的演讲和该段的成绩单时预测演讲段。在学会了从上下文填充语音后,该模型可以将其应用于语音生成任务,包括在音频录制中间生成部分,而无需重新创建整个输入。

这种多功能性使Voicebox能够在各种任务中执行良好,包括:

上下文文本到语音合成:使用长度仅两秒钟的输入音频样本,Voicebox可以匹配样本的音频样式,并将其用于文本到语音生成。未来的项目可以利用这种能力,为不会说话的人带来演讲,或者允许人们自定义非玩家角色和虚拟助理使用的声音。

跨语言风格转换:给定英语、法语、德语、西班牙语、波兰语或葡萄牙语的语音样本和一段文本,Voicebox可以读取该语言的文本。这种能力令人兴奋,因为在未来,它可用于帮助人们以自然、真实的方式进行交流——即使他们不会说相同的语言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/669677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CRC校验码详解、常见算法实现及代码实例

一、CRC概念 1. 什么是CRC? 在前面的文章中通过小例子的比喻,简单介绍过什么是CRC,这里再详细的讲解一次。 CRC(Cyclic Redundancy Checksum)是一种纠错技术,代表循环冗余校验和。 数据通信领域中最常用的…

第二十二章_Redis经典五大类型源码及底层实现

redis源码在哪里 \redis-7.0.5\src https://github.com/redis/redis 源码分析参考书(推荐) 《Redis设计与实现》 《Redis5设计与源码分析》 Redis源代码的核心部分 src源码包下面该如何看? 源码分析思路 这么多你如何看? 1、外…

C/C++ VS2019连接MySQL数据库 - 增删改查(详细步骤)

一、配置Visual Studio 找到自己安装MySQL的路径,确保有include和lib两个文件夹 打开创建的Visual Studio项目,切换x64平台 注意:如果你的项目中没有x64平台,请严格按照下面图片的步骤进行操作 a. 点击下拉框,点击配…

面向对象程序设计|理解++i和i++

首先我们从最简单的整型运算来理解前和后: 将a10再赋值20意味着(a10)返回的是a的空间,又把这个20赋值给这个空间的内存,最后a20; (a)意味着a返回的是空间(引用),可以继续作的调用,引…

Java版本工程项目管理系统源码

Java版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目显示…

STM32存储器映射

STM32的寻址范围 32位的单片机有32根地址线(每根地址线有两种状态:导通或者不导通)。 单片机内存地址访问的存储单元是按字节编址的。 存储器映射 存储器指可以存储数据的设备,本身没有地址信息,对存储器分配地址…

JAVA_HOME变量的详细配置(图文)

用到Java项目的时候,有时候要用到Java_home,这个需要在系统配置中配置一下。如何操作呢?以下为详细的图文步骤。 1)打开环境变量的窗口 2)打开新建系统变量 3)编辑JAVA_HOME 在变量名后输入JAVA_HOME,找到…

IDEA配置本地Maven详细教程

IDEA配置本地Maven详细教程 一、下载二、安装三、配置环境变量四、IDEA配置Maven 一、下载 官网下载:点击下载 网盘下载:点击下载 二、安装 将下载后的zip文件(免安装版)解压到自己想要放的位置,,我这里…

第八十一天学习记录:gVim的使用

首先,根据所使用的系统下载VIM,百度搜索或者CSDN搜索有资源可以下载。 gVim是Windows下的一个Vim实现,它提供了类似于Vim命令行界面的编辑器视窗,并且支持通过鼠标和菜单来执行一些基本的编辑命令。 安装完成后,桌面上…

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中…

软考A计划-系统集成项目管理工程师-信息化系统的生命周期-上

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列 👉关于作者 专注于Android/Unity和各种游戏开发技巧&#xff…

【GESP】2023年03月图形化一级 -- 问路

文章目录 问路1. 准备工作2. 功能实现3. 设计思路与实现(1)角色、舞台背景设置a. 角色设置b. 舞台背景设置 (2)脚本编写a. 角色:Averyb. 角色:Dee 4. 评分标准 问路 1. 准备工作 (1&#xff09…

全网超详细的【Axure】Axure RP 10 的下载、安装、中文字体、免授权

文章目录 1. 文章引言2. axure10的安装3. axure10的元件库4. axure10的下载地址 1. 文章引言 最近在学习原型图,针对画原型图的工具,反复对比墨刀、Axure、xiaopiu后,最终选择了Axure。 接下来,我便详细介绍如何安装axure10&…

将模型从 PyTorch 导出到 ONNX 并使用 ONNX 运行时运行它

将模型从 PyTorch 导出到 ONNX 并使用 ONNX 运行时运行它(可选) 在本教程中,我们描述了如何将 PyTorch 中定义的模型转换为 ONNX 格式,然后在 ONNX 运行时中运行它。 ONNX 运行时是针对 ONNX 模型的以性能为中心的引擎&#xff…

微服务简介,Springcloud-alibaba中的Nacos简介

目录 一:微服务架构 1.0:单体架构 1.1:微服务架构 1.2:微服务架构的优势 1.3:微服务架构的缺点(挑战) 1.4:SpringCloud与微服务关系 1.5:SpringBoot和SpringCloud关系 二:服务…

RabbitMQ下载与安装

RabbitMQ下载与安装 想要使用RabbitMQ首先要有Erlang/OTP的运行环境,也就是说首先要下载erlang 在下载Erlang/OTP之前,需要弄清楚RabbitMQ和ErLang之间的版本对应关系。 The table below provides an Erlang compatibility matrix of currently suppo…

用html5、css3和一些简单的js代码写了一个个人网站,之后如何上线?

💂 个人网站:【海拥】【游戏大全】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 目录 前言网站上线方案1 Git…

跨境电商怎么做?如何选品及销售?

跨境电商是指在不同国家和地区之间进行的电子商务交易活动。它的出现极大地促进了国际贸易和跨境交流。对于个人来说,通过跨境电商可以更加方便地购买到国外的优质商品,也可以将自己的产品推向全球市场。但是,对于大多数人来说,跨…

一文搞定Shell编程中的单引号、双引号、反引号和转义符的区别和使用

前言 Shell编程中,不仅会是使用变量,还经常会使用$、\、单引号、双引号、反引号等符号。 这些符号在使用中,有时候难免混乱,所以整理此文,便于学习,希望对你有用 文章目录 前言一. 符号的介绍与对比二. 单…

复习html的第二章

什么是 HTML? HTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言 (Hyper Text Markup Language)HTML 不是一种编程语言,而是一种标记语言 (markup language)标记语言是一套标记标签 (markup tag)HTML 使用标记标签来描述网页 HTML 标签 HT…