VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音

news2025/1/11 21:00:20

近日,微软研究人员宣布了一种新的语音合成AI模型 VALL-E,给出3秒样音就可以精确地模拟一个人的声音。一旦它学会了一个特定的声音,VALL-E可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。

论文地址:

https://arxiv.org/pdf/2301.02111.pdf

它的创建者推测,VALL-E可用于高质量的文本转语音应用程序、语音编辑,其中可以编辑一个人的录音并从文本转录中更改(让他们说出他们最初没有说的话),以及与其他生成AI模型(如GPT-3)结合使用时的音频内容创建。

GPT-3:

https://arstechnica.com/information-technology/2022/11/openai-conquers-rhyming-poetry-with-new-gpt-3-update/

微软称VALL-E为“神经编解码器语言模型”,它建立在Meta于2022年10月宣布的一项名为EnCodec的技术之上(https://arstechnica.com/information-technology/2022/11/metas-ai-powered-audio-codec-promises-10x-compression-over-mp3/)。与其他通常通过操作波形合成语音的文本转语音方法不同,VALL-E从文本和声学提示生成离散音频编解码器代码。它基本上分析一个人的声音,通过EnCodec将这些信息分解成离散的组件(称为“令牌”),并使用训练数据来匹配它“知道”的声音,如果它说的是三秒样本之外的其他短语,声音会是什么样子。或者,正如微软在VALL-E论文中所说的那样:

为了合成个性化语音(例如,zero-shot TTS),VALL-E生成相应的声学令牌,条件是3秒注册录音和音素提示的声学令牌,分别约束扬声器和内容信息。最后,使用生成的声学标记与相应的神经编解码器解码器合成最终波形。

微软在Meta组装的名为LibriLight的音频库上训练了VALL-E的语音合成能力。它包含来自7000多名演讲者的60000小时的英语演讲,其中大部分来自LibriVox公共领域的有声读物。为了使VALL-E生成良好的结果,三秒样本中的语音必须与训练数据中的语音紧密匹配。

在VALL-E示例网站上,微软提供了数十个AI模型的音频示例。在样本中,“Speaker Prompt”是提供给VALL-E的三秒音频,它必须模仿。“Ground Truth”是同一个说话者为了比较目的而说出特定短语的预先存在的录音(有点像实验中的“对照”)。“Baseline”是传统文本到语音合成方法提供的合成示例,“VALL-E”示例是VALL-E模型的输出。

微软研究人员提供的VALL-E框图

该模型基于transformer,具有Dale-1外观。不要与基于扩散的Dalle-2混淆。下面是微软发布的该模型的几个实例,很明显这是TTS技术的一个重大进步。

在使用VALL-E生成这些结果时,研究人员只将三秒钟的“Speaker Prompt”样本和一个文本字符串(他们希望语音说的话)输入VALL-E。因此,将“Ground Truth”样本与“VALL-E”样本进行比较。在某些情况下,两个样本非常接近。一些VALL-E结果似乎是计算机生成的,但其他结果可能会被误认为是人类的语音,这是模型的目标。

除了保留说话者的人声音色和情感音调外,VALL-E还可以模仿样本音频的“声学环境”。例如,如果样本来自电话,则音频输出将在其合成输出中模拟电话呼叫的声学和频率属性(这是一种奇特的说法,听起来也像电话)。微软的样本(在“多样性合成”部分)表明,VALL-E可以通过改变生成过程中使用的随机种子来产生语音音调的变化。

也许是由于VALL-E可能助长恶作剧和欺骗的能力,微软没有提供VALL-E代码供其他人试验,所以我们无法测试VALL-E的功能。研究人员似乎意识到这项技术可能带来的潜在社会危害。对于论文的结论,他们写道:

“由于VALL-E可以合成符合说话人身份的语音,因此滥用模型可能会带来潜在风险,例如欺骗语音识别或冒充特定说话人。为了降低此类风险,可以构建一个检测模型来区分音频剪辑是否由VALL-E合成。在进一步开发模型时,我们还将把微软人工智能原则付诸实践。”

原文地址:

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

xlCompiler转换为程序的优秀工具

xlCompiler转换为程序的优秀工具 xlCompiler是将oxel文件转换为程序的优秀工具。无需担心删除oxel文件中使用的宏和公式。该工具将您所做的转换为Exe可执行文件,这比分发原始文件时要低得多。最终的文件不需要氧气来执行,您也会有一种在简单的氧气环境中…

D. Friendly Spiders(bfs+筛法)

传送门题意:给你n个蜘蛛,每个蜘蛛有自己的腿数,如果某两个蜘蛛可以直接联系,那么这两个蜘蛛的最大公约数就不为1,否则这两只蜘蛛就不能直接联系。现在给你两个蜘蛛的序号i,j问这两只蜘蛛是否可以直接或者通过其他的蜘蛛…

SDK安全专项评测证书

SDK安全专项行动”是中国信息通信研究院安全研究所大数据应用与安全创新实验室共同发起的,实验室紧跟信息技术发展趋势,依托数据安全、移动安全等领域深厚积累,通过前瞻研究和实践探索,形成了完整的SDK评测方案和指标体系。 SDK产…

【HCIA-openEuler】实验手册—05【openEuler软件管理】

文章目录一、实验介绍1、内容描述2、实验目的二、配置Yum源步骤1:进入yum repo目录步骤2:更改openEuler_x86_64.repo文件步骤3:刷新列出软件列表三、使用RPM命令管理软件1、RPM查询命令步骤1:执行以下命令,通过yum和rp…

华为DHCP实验配置

配置AR1为PC2分配地址 dhcp enable ip pool DHCP_PC2 network 192.168.20.200 mask 24 gateway-list 192.168.20.254 dns-list 192.168.20.100 excluded-ip-address 192.168.20.100 int g0/0/1 ip address 192.168.20.254 24 dhcp select global 配置AR1为PC3分配IP地址 dhcp e…

一个令人赞不绝口的代码 Debug 神器

在编写程序时,无论是对于初学者还是对于专业开发人员,都会花费大量时间来调试或修复源代码错误,也就是 Debug。 这个过程繁琐复杂,包括 Bug 复现和 Bug 定位等环节。如果有了自动化的 Debug 程序,就可以显著提高编程实…

Three.js一学就会系列:05 加载3D模型

系列文章目录 Three.js一学就会系列:01 第一个3D网站 Three.js一学就会系列:02 画线 Three.js一学就会系列:03 炫酷3D划线 Three.js一学就会系列:04 炫酷3D文字 文章目录系列文章目录前言一、核心代码讲解引入插件轨道控制器加载…

ES6 课程概述⑤

文章目录9-1. Fetch Api 概述9-2. 基本使用参数返回值9-3 **Response 对象**9-4 Request 对象9-5 Headers 对象9-6 文件上传10-1 迭代器背景知识JS 中的迭代器可迭代协议 与 for-of 循环可迭代协议for-of 循环展开运算符与可迭代对象生成器 (Generator)set 集合9-1. Fetch Api …

Unity 之 Addressable可寻址系统 -- 代码加载介绍

Unity 之 可寻址系统 -- 代码加载介绍 -- 进阶(一)一,可寻址系统代码加载1.1 回调形式1.2 异步等待1.3 面板赋值1.4 同步加载二,可寻址系统分标签加载2.1 场景搭建2.2 代码示例2.3 效果展示三,代码加载可寻址的解释概述…

算法第九期——DFS(深度优先搜索)的树上应用

树 树是一种特殊的图 。 特点: 若树有n个点,则有n-1条边。树有连通性但没有回路。从一个点出发可以到达任意一个,而且路径是唯一的。树的重心u(最平衡的点): 以树上任意一个结点为根计算它的子树的结点数,如果结点…

二部图和匈牙利算法

1.二分图最大匹配 设G为二分图,若在G的子图M中,任意两条边都没有公共节点,那么称M为二分图G的一组匹配。在二分图中,包含边数最多的一组匹配称为二分图的最大匹配。 交替路:从一个未匹配点出发,依次经过非匹配边、匹配边、非匹配边…形成的路径叫交替路。 …

【算法】深度优先搜索 (DFS)

目录1.概述2.代码实现3.应用1.概述 (1)深度优先遍历 (Depth First Search, DFS),是图的搜索算法之一,本质其实就是一个递归的过程,它就像是一棵树的前序遍历。 (2)DFS 从图中某个顶点 start 出…

游戏如何解决注入挂难题

游戏黑灰产的攻击角度除了常见的内存修改、模拟点击、破解等作弊手段,还有门槛相对较高的「专用插件类」。 专用插件类外挂是指针对特定游戏定制的外挂,其在实现方式上,类似插件,也称“定制挂”、“注入挂”。 游戏面临多样化的安…

招聘老师的最佳实践及工作交流坊

香港 — 如果你在招聘外籍老师途中遇到极大的挑战,你并不是孤独的。由于新冠肺炎的限制及对于外籍老师的需求增加,招聘及留住高质量的外籍老师对于学校来说已经越来越困难。在疫情之下, 许多学校展现了非凡的韧性来确保他们的教学质量及学习供…

【HCIA-openEuler】实验手册—04【openEuler用户及权限管理】

文章目录一、实验介绍1、关于本实验2、实验目的二、实验任务配置1、配置步骤(1)用户和用户组的管理步骤1:who命令是显示目前登录系统的用户信息步骤2:id命令用于显示用户的ID,以及所属群组的ID步骤3:以root…

Vivado 错误代码 [Place 30-574]解决思路

问题描述 最近利用手头的开发板作UDP通信的设计。准备生成比特流时,出现这个错误: 具体信息: [Place 30-574] Poor placement for routing between an IO pin and BUFG. If this sub optimal condition is acceptable for this design, you …

Java(105):Java通过键盘(Scanner)输入数据

Java通过键盘(Scanner)输入数据 在Java中,我们可以使用Scanner 类来获取用户的输入。 Java 中添加了java.util.Scanner类,这是一个用于扫描输入文本的新的实用程序。相比于其他获取用户输入的方式,Scanner是非常方便的。 如果使用Scanner&…

如何理解鲁棒性?为什么robustness会翻译为鲁棒性?

鲁棒性,英文为Robustness(承受故障和干扰的能力),是许多复杂系统(包括复杂网络)的关键属性。复杂网络的鲁棒性研究对许多领域都非常重要。本文着重介绍了鲁棒性的基本定义、命名起源、分类区别、提升方法和…

一图读懂mybatis插件plugin原理

插件是用来改变或者扩展mybatis的原有的功能,mybaits的插件就是通过继承Interceptor拦截器实现的;mybatis中能使用插件进行拦截的 可以进行拦截的 接口和方法如下: Executor (update、query 、 flushStatment 、 commit 、 rollback 、 getTransaction 、 close 、…

机试_1_暴力求解_习题

暴力求解——习题 学习完第一章–暴力求解之后,当然要做相应地练习啦~ https://blog.csdn.net/Window_mouse/article/details/128632426 注:上述习题都可以在牛客进行测试。 例如,第9题链接:xxx定律_牛客题霸_牛客网 (nowcode…