微软发布E2 TTS: 一种简单但效果优秀的文本转语音技术

微软发布E2 TTS: 一种简单但效果优秀的文本转语音技术

news2026/2/15 2:10:54

本文介绍了一种名为“Embarrassingly Easy Text-to-Speech（E2 TTS）”的文本转语音系统。

该系统通过将输入文本转换为填充标记字符序列，并基于音频填充值任务训练流匹配基mel频谱生成器，实现了人类水平的自然度和最先进的说话人相似性和可理解性。

与许多先前的工作不同，它不需要额外组件或复杂技术的支持。尽管简单，但E2 TTS在零样本TTS能力方面取得了与先前工作相当甚至超越的效果，包括Voicebox和NaturalSpeech 3。

此外，E2 TTS的简单性也允许灵活地表示输入。本文还提出了几种E2 TTS变体以提高推理时的可用性。

地址：https://arxiv.org/pdf/2406.18009

代码：https://aka.ms/e2tts/

方法改进

相较于传统的语音合成方法，E2 TTS 的改进主要体现在以下两个方面：

使用字符序列替代音素序列：E2 TTS 将音素序列替换为字符序列，避免了需要进行音素转写、音素对齐和音素时长模型等额外处理的需求。

增加了两个扩展功能：第一个扩展功能（E2 TTS X1）消除了在推理中对音频提示进行转录的需求；第二个扩展功能（E2 TTS X2）允许用户在句子中的特定单词上明确指定发音。

解决的问题

E2 TTS 主要解决了以下几个问题：

零样本语音合成：传统的语音合成方法通常需要大量的样本数据进行训练，而 E2 TTS 可以在没有样本数据的情况下进行语音合成。

简化模型结构：E2 TTS 通过使用字符序列替代音素序列，简化了模型结构，减少了额外的处理需求。

支持新的单词发音：E2 TTS X2 扩展功能允许用户在句子中的特定单词上明确指定发音，从而满足个性化需求。

论文实验

E2 TTS模型使用了Transformer架构和U-Net风格的skip连接，具有出色的零样本语音合成能力。

实验数据和模型配置。

实验数据来源于Libriheavy和LibriSpeech-PC等数据集，包括50,000小时的英语语音和200,000小时的额外数据。模型采用了Transformer架构，其中包括24层、16个注意力头、1024维嵌入维度、4096维线性层维度和0.1的dropout率。该模型用于将log mel滤波器组特征转换为波形，使用的BigVGAN-vocoder模型在测试中表现良好。

评估数据和指标。

评估数据来源于LibriSpeech-PC数据集，包括1,132个音频样本和39个演讲者。评估指标包括单词错误率（WER）和相似度评分（SIM-o）。此外，还进行了客观和主观评估，分别通过计算平均值来得出结果。

实验结果和分析。

作者对四种模型进行了比较，包括Voicebox、VALL-E和NaturalSpeech 3。结果显示，E2 TTS模型在所有方面都优于这些基准模型，包括更好的WER、更高的自然度和更好的说话人相似度。此外，E2 TTS还可以扩展到不同的应用场景，例如不需要音频转录和指定新术语的发音。最后，作者还分析了E2 TTS模型的行为，包括训练进度、音频提示长度和改变语速的影响

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1913713.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

大模型应用中什么是SFT（监督微调）？

大模型应用中什么是SFT（监督微调）？

大模型应用中什么是SFT（监督微调）？ 一、SFT的基本概念监督微调（Supervised Fine-Tuning, SFT）是对已经预训练的模型进行特定任务的训练，以提高其在该任务上的表现。预训练模型通常在大量通用数据上进行训…

阅读更多...

APP项目开发的费用估计

APP项目开发的费用估计

APP项目的开发方式主要有以下几种，需要注意的是，以下只是一些估算值，实际的开发成本可能会有所不同。建议您在开发APP项目之前，先咨询专业的开发公司，获取详细的报价。北京木奇移动技术有限公司，专业的软件…

阅读更多...

QT开发积累——qt中的注释和多行注释的几种方式，函数方法注释生成

QT开发积累——qt中的注释和多行注释的几种方式，函数方法注释生成

目录引出qt中的注释和多行注释方法的注释生成总结日积月累，开发集锦方法参数加const和不加const的区别方法加static和不加static的区别Qt遍历list提高效率显示函数的调用使用&与不使用&qt方法的参数中使用&与不使用&除法的一个坑项目创建相关新建…

阅读更多...

爬虫-豆瓣读书排行榜

爬虫-豆瓣读书排行榜

获取数据 requests库获取数据环节需要用到requests库。安装方式也简单 pip install requests 爬取页面豆瓣读书 Top 250 用requests库来访问 import requests res requests.get(https://book.douban.com/top250/) 解析： 导入requests库调用了requests库中的…

阅读更多...

人生苦短，我用Python+Docker

人生苦短，我用Python+Docker

今天用一个简单的例子，介绍下如何使用Docker进行Python部署。前期准备本地需要有Python环境； 一个Linux的服务器并已经装好Docker ； 能把代码上传到服务端的工具。本文的本地环境是Win10Python3.12，服务器使用Ubuntu的云服…

阅读更多...

二进制安装nexus

二进制安装nexus

今天安装nexus，想看看别人怎么安装的，结果找了一圈，没有一个靠谱的， 有些题目是二进制安装nexus，内容是东家长李家短胡扯，一个字，不要脸； 详细安装步骤如下，一起学习&…

阅读更多...

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

AI通用智能体的自我进化能力，并非遥不可及。 LLM-based Agent，已经不再需要人类监督者的帮助，开始实现「自我进化」！ 这个智能体在学习了专家轨迹以后，获得了基础的通用能力，能够在更广泛、更真实的未知环…

阅读更多...

ELK集群搭建

ELK集群搭建

ELK集群搭建文章目录 ELK集群搭建1.环境准备2.Elasticsearch环境搭建1.创建es账户并设置密码2.选择对应版本进行下载3.编辑配置文件4.设置JVM堆大小 #7.0默认为4G5.创建es数据及日志存储目录6.修改安装目录和存储目录权限 3.系统优化1.增加最大文件打开数2.增加最大进程数3.增…

阅读更多...

kettle中调用restful接口时的SSL信任证书问题

kettle中调用restful接口时的SSL信任证书问题

1、找第三方获取SSL证书，（本案例为自签名证书） C:\Program Files\Java\jdk1.8.0_241\jre\lib\security>keytool -import -alias aliyun-maven -keystore cacerts -file E:\entSoftware\aliyun-maven.cer 输入密钥库口令: …………一堆证…

阅读更多...

电脑怎样连接打印机？详细步骤告诉你！

在现代办公环境中，打印机是必不可少的设备之一。无论是打印文档、图片还是其他资料，连接打印机都是我们日常工作中的基本操作。然而，不同类型的打印机和连接方式可能会让人感到困惑。本文将介绍电脑怎样连接打印机的3种方法，帮助您…

阅读更多...

MySQL 数据库基础概念

MySQL 数据库基础概念

一、什么是数据库？ 数据库（Database）是按照数据结构来组织、存储和管理数据的仓库。每个数据库都有一个或多个不同的 API 用于创建，访问，管理，搜索和复制所保存的数据。我们也可以将数据存储在文件中&…

阅读更多...

[计网初识1] TCP/UDP

[计网初识1] TCP/UDP

学习内容 1.TCP建立链接的3次握手，断开连接的4次挥手 2.TCP报文段组成内容 1.TCP 建立连接的3次握手? 假设主动方是客户端，被动方是服务端。第一次客户端给服务端发送 “hello,我是客户端” (TCP段中 SYN1) 第二次服务端给客户端发送"我接…

阅读更多...

【C++项目】从零实现一个在线编译器

【C++项目】从零实现一个在线编译器

前言身为一名程序员，想必大家都有接触过像leetcode这样的刷题网站，不知你们在刷题的过程中是否思考过一个问题：它们是如何实现在线编译运行的功能。如果你对此感到好奇，那么本文将一步步带你来实现一个简易在线编译器。项目概…

阅读更多...

【ai_agent】从零写一个agent框架（四）用rust制作一个python的虚拟运行环境。

【ai_agent】从零写一个agent框架（四）用rust制作一个python的虚拟运行环境。

前言为了增加框架的扩展性和适用性，我们要能够在流程节点中运行python脚本。这个时候需要考虑几个问题： 1 为什么是python？ 思考：老实说我并不喜欢python，我更倾向于lua这种短小轻快的脚本。在我之前写的规则引擎…

阅读更多...

简单仿写SpringIOC

简单仿写SpringIOC

gitee地址（需要自取）ioc_Imitation: 简单仿写IOC (gitee.com) 项目目录结构 Autowired Target(ElementType.FIELD) Retention(RetentionPolicy.RUNTIME) public interface Autowired { }Component Target(ElementType.TYPE) Retention(RetentionPoli…

阅读更多...

云服务器centos7报错：Cannot find a valid baseurl for repo: base/7/x86_64

云服务器centos7报错：Cannot find a valid baseurl for repo: base/7/x86_64

报错显示我是使用FinalShell连接centos7； 如下图所示，尝试更新显示Cannot find a valid baseurl for repo: base/7/x86_64 网上找了很多教程最后没在点子上，最后我用gpt解决的，这里仅仅做一下记录（因为我会忘记^_^&…

阅读更多...

pnpm workspace使用教程【Monorepo项目】

pnpm workspace使用教程【Monorepo项目】

目录前言一、pnpm简介特点：对比二、创建项目添加文件 pnpm-workspace.yaml目录结构pnpm workspace: 协议修改配置文件执行安装三、命令解析执行包命令所有包操作命令四、实例代码前言前面两篇，我们讲了 yarn workspace 和 lerna ， …

阅读更多...

枚举类 (enum)

枚举类 (enum)

目录一、为什么要有枚举类？ 二、枚举的简介三、自定义枚举类四、使用enum关键字五、注意事项一、为什么要有枚举类？ 假如我们有这样的一个需求：设计季节类，并创建对象。我们就需要以下操作，创建Season类&…

阅读更多...

基于FPGA的数字信号处理（16）--定点数的舍入模式（7）6种舍入模式的总结

基于FPGA的数字信号处理（16）--定点数的舍入模式（7）6种舍入模式的总结

前言在前面的6篇文章中，分别对6中舍入模式做了详细的介绍，本文在前文的基础上，再对这6种舍入模式做一个对比和总结。 6种舍入模式在数据处理过程中，为了防止数据溢出而增加位宽是一种很常见的处理方式，但是随着算法链…

阅读更多...

保姆级教程：Linux (Ubuntu) 部署流光卡片开源 API

保姆级教程：Linux (Ubuntu) 部署流光卡片开源 API

流光卡片 API 开源地址 Github：https://github.com/ygh3279799773/streamer-card 流光卡片 API 开源地址 Gitee：https://gitee.com/y-gh/streamer-card 流光卡片在线使用地址：https://fireflycard.shushiai.com/ 等等，你说你不…

阅读更多...

推荐文章

最新文章