AI工具推荐:开源TTS(文本生成语音)模型集合

news2025/1/8 6:20:06

在这里插入图片描述

XTTS

TTS是一个语音生成模型,可以通过一个简短的6秒音频片段将声音克隆到不同的语言。它不需要大量的训练数据,也不需要耗费大量时间。TTS支持17种语言,可以进行声音克隆、情感和风格转移、跨语言声音克隆以及多语言语音生成等功能。XTTS-v2相比XTTS-v1有两个新语言:匈牙利语和韩语。它还有架构改进、稳定性改进、更好的韵律和音频质量。XTTS-v2支持的语言包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文、日语、匈牙利语、韩语和印地语。XTTS是根据Coqui公共模型许可证许可的。XTTS的演示空间包括XTTS空间和XTTS语音聊天,用户可以在支持的语言上观察模型的表现,并可以使用自己的参考或麦克风输入进行尝试。XTTS还提供API和命令行的使用方法。XTTS是一个强大的语音生成模型,可以克隆声音、进行情感和风格转移,实现跨语言声音克隆和多语言语音生成。

YourTTS

该模型基于VITS模型,通过多种新颖的修改实现了零唱者多语言语音合成和训练。在VCTK数据集上,该方法取得了零唱者多语音语音合成的最新成果,并在零唱者语音转换方面取得了与最新成果相媲美的结果。此外,该方法在单一语音数据集中实现了有前景的结果,为低资源语言中的零唱者多语音语音合成和零唱者语音转换系统开辟了可能性。最后,可以用不到1分钟的语音进行YourTTS模型的微调,并获得语音相似性方面的最新成果,同时保证了合理的音质。

IMS-Toucan

IMS Toucan是德国斯图加特大学自然语言处理研究所(IMS)开发的一个工具包,用于教学、培训和使用最先进的语音合成模型。它的一切都是纯Python和基于PyTorch的,旨在尽可能简单和适合初学者使用,同时又尽可能强大。IMS Toucan提供了许多演示、预训练模型以及新功能,比如多语言和多说话者音频、克隆音调等。这些功能使得用户可以尝试使用预训练的检查点,或者利用提供的预训练检查点进行模型微调。IMS Toucan还提供了一些新特性,例如改进的生成器,以及一种很稳定且音质很好的ToucanTTS架构。IMS Toucan还支持从头训练模型,并提供了一系列的安装和使用说明。

VITS

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种端到端语音合成模型,它可以根据输入的文本序列来预测语音波形。这是一个条件变分自动编码器(VAE),由后验编码器、解码器和条件先验组成。VITS模型通过基于Transformer的文本编码器和多个耦合层组成的流模块来预测一组基于声谱图的声学特征。声谱图使用一系列转置卷积层进行解码,类似于HiFi-GAN声码器的风格。为了解决TTS问题中一个文本输入可以以多种方式发音的特性,模型还包括一个随机持续时间预测器,允许模型从相同的输入文本中合成具有不同节奏的语音。模型通过变分下界和对抗训练导出的损失的组合进行端到端训练。为提高模型的表现力,对条件先验分布应用了正则化流。在推理过程中,文本编码根据持续时间预测模块进行上采样,然后通过一系列流模块和HiFi-GAN解码器映射到波形。由于持续时间预测器的随机性,模型是非确定性的,因此需要固定的种子来生成相同的语音波形。

TorToiSe

TorToiSe是一个文本转语音程序,其优先级是:

强大的多音色能力。
高度逼真的韵律和语调。 这个程序使用PyTorch实现,支持在NVIDIA GPU上运行。

Pheme

Pheme TTS模型是一种高效和对话式语音生成模型,可以在训练时使用比VALL-E或SoundStorm(例如,数据少10倍)更少的数据。它还具有参数效率、数据效率和推理效率等特点。此外,它使用了语义和声学标记的分离以及适当的语音标记器。另外,它还可以通过第三方提供商生成的(合成的)数据进行师生训练,以提高单一说话者的质量。

EmotiVoice

EmotiVoice是一款功能强大且现代的开源文本转语音引擎,支持英语和中文,并拥有2000多种不同的发音声音。它最显著的特点是情感合成,可以让你的语音具有多种情感,包括快乐、兴奋、悲伤、愤怒等。该引擎提供了易于使用的网络界面,同时也支持脚本接口进行批量生成结果。EmotiVoice还支持声音速度调整、语音克隆等功能,并正在开发支持更多语言的特性。

StyleTTS 2

StyleTTS 2是一种文本到语音(TTS)模型,利用大型语音语言模型(SLMs)进行风格扩散和对抗训练,以实现人类级别的TTS合成。StyleTTS 2通过建模风格为潜在随机变量,通过扩散模型生成最适合文本的风格,而无需参考语音,实现了高效的潜在扩散,并从扩散模型提供的多样化语音合成中受益。此外,它还利用大型预先训练的SLM,如WavLM,作为鉴别器,并结合新颖的可微分时长建模进行端到端训练,从而提高了语音的自然度。StyleTTS 2在单说话人LJSpeech数据集上超越了人类录音,在多说话人VCTK数据集上与之匹配。此外,当在LibriTTS数据集上进行训练时,该模型的性能超过了以前公开可用的零样本说话人自适应模型。这项工作在单个和多个说话人数据集上实现了第一个人类级别的TTS合成,展示了风格扩散和对抗训练与大型SLMs的潜力。

pflowtts_pytorch

P-Flow是由NVIDIA提出的一种快速、数据高效的零参考文本到语音合成(TTS)模型。它通过语音提示进行说话者自适应,包括语音提示文本编码器和流匹配生成解码器,以实现高质量且快速的语音合成。相比最近的大规模神经编解码器语言模型,P-Flow使用了两个数量级更少的训练数据,拥有更快的采样速度,并且在发音、人类相似性和说话者相似性方面都有更好的表现。

VALL-E

VALL-E是基于EnCodec tokenizer的一个非官方PyTorch实现。它是一个神经编解码语言模型,可以进行零样本文本到语音合成。该模型的预训练版本尚未发布,需要在DeepSpeed支持的GPU上进行训练,同时需要安装CUDA或ROCm编译器。您可以通过pip安装或者从GitHub上克隆VALL-E的代码库。训练过程包括将数据量化、生成音素、自定义配置以及使用训练脚本进行模型训练。训练完成后,需要将模型导出到指定路径。最后,您可以使用VALL-E进行语音合成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1388663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt实用技巧之二反问式提示

大家好,今天跟大家讲实用gpt的小技巧二、反问式提示 有时候不知道怎么给 GPT 提示词,这时候,就可以反问 GPT 如何更好地给提示词。如图片所示 更详细内容可以看下这篇: 按照 GPT 给出的:故事设定角色故事发展主题结局…

SSM框架学习笔记04 | SpringMVC

文章目录 一、SpringMVC简介二、 请求与响应1. 请求映射路径2. get请求与post请求3. 响应 二、REST风格1.简介 三、 SSM整合四、拦截器1. 定义拦截器2.配置拦截器3.拦截器执行顺序4.拦截器参数5.多个连接器工作流程分析6.拦截器链的运行顺序 一、SpringMVC简介 SpringMVC技术与…

锐意进取,蓬勃发展|爱基百客2023全景图

岁序更迭,2023年已悄然离去。对我们来说,这是充满挑战与机遇的一年。爱基百客作为一家专注于测序服务的公司,我们在这一年里经历了许多挑战,也取得了令人鼓舞的成绩。前面我们盘点了表观产品和单细胞产品,今天再邀您回…

判断交叉编译工具是否支持C++20的标准

写个任意的测试程序hello_world 执行 arm-linux-gnueabihf-g -stdc14 main.cpp arm-linux-gnueabihf-g -stdc17 main.cpp arm-linux-gnueabihf-g -stdc20 main.cpp没报错则代表支持,报错则不支持.

ChatGPT写论文最强指令

一、我正在寻找与(XX主题)相关的高质量学术资源,包括期刊文章、会议论文和研究报告。希望能获取这些文献的摘要和关键词,以便快速评估其相关性。同时,请根据文献的相关度或发布日期进行排序,并提供完整的引…

Unity 编辑器篇|(六)编辑器拓展EditorGUI类 (全面总结 | 建议收藏)

目录 1. 前言2. 参数3. 功能3.1 折叠菜单: Foldout3.2 检查 GUI 更改: BeginChangeCheck 、EndChangeCheck 监听值改变3.3 可禁用控件:BeginDisabledGroup 、EndDisabledGroup 是否禁用组中的控件3.4 下拉菜单:DropdownButton3.5 …

MySQL 查询数据

今天介绍一下 MySQL 数据库使用 SELECT 语句来查询数据。 语法 首先,介绍一下语法。以下为在 MySQL 数据库中查询数据通用的 SELECT 语法: SELECT column1, column2, ... FROM table_name [WHERE condition] [ORDER BY column_name [ASC | DESC]] [LI…

图解基础排序算法(冒泡、插入、选择)(山东大学实验二)

目录 ⚽前言: 🏐 冒泡排序: 设定: 分类: 起源: 图解冒泡: 图中绿色: 图中橙色: 整体思路: 交换思路: 核心代码: &#x…

怎么在桌面查看备忘录新的提醒事项?方法教程

在这个信息爆炸的时代,我们每天都面临着无数的任务和提醒。作为一名忙碌的职场人,我经常需要依赖备忘录来记录重要的待办事项,以免遗漏。备忘录,就像我生活中的小助手,帮我记下工作会议、生日提醒、购物清单等等&#…

2.3数据链路层02

2.3 数据链路层 2.3.5 以太网 1、以太网概念 以太网是一种计算机局域网技术。IEEE(电气与电子工程师协会:Institute of Electrical and Electronics Engineers)组织的IEEE802.3标准制定了以太网的技术标准,它规定了包括物理层的…

matlab行操作快?还是列操作快?

在MATLAB中,通常情况下,对矩阵的列进行操作比对行进行操作更有效率。这是因为MATLAB中内存是按列存储的,因此按列访问数据会更加连续,从而提高访问速度。 一、实例代码 以下是一个简单的测试代码, % 测试矩阵大小 ma…

RK3566RK3568安卓11隐藏状态栏带接口

文章目录 前言一、创建全局变量二、设置应用添加隐藏导航栏按钮三、添加按钮功能四、动态隐藏还有显示功能五、创建系统导航栏广播接口总结 前言 关于Android系统的状态栏,不同的客户有不同的需求: 有些客户需要永久隐藏状态栏,有些客户需要在设置显示中…

鸿蒙 ArkUI - 常用组件和布局

目录 一、组件 1.按钮 2.单选框 3.切换按钮 4.进度条 5.文本 6.文本输入框 二、布局方式 1.线性布局 2.层叠布局 3.弹性布局 4.网格布局 一、组件 ArkUI有丰富的内置组件,包括文本、按钮、图片、进度条、输入框、单选框、多选框等。我们还可以将基础组件…

装饰器模式介绍

目录 一、装饰器模式介绍 1.1 装饰器模式定义 1.2 装饰器模式原理 1.2.1 模式类图 1.2.2 模式角色说明 1.2.3 举例代码 二、装饰器模式的应用 2.1 需求说明 2.2 需求实现 2.2.1 类图 2.2.2 类图说明 2.2.3 具体实现 2.2.3.1 DataLoader类 2.2.3.2 BaseFileDataLoa…

Spring使用注解管理Bean

引入lib包 Spring对Bean管理的常用注解 Component组件(作用在类上) Spring中提供了Component的三个衍生注解:(功能在目前为止是一致的) Controller WEB层 Service 业务层 Repository 持久层 属性注入的注解:(使用注解注入的方式,可以不用提供set方法) Value 用于注入普…

新增PostgreSQL数据库管理功能,1Panel开源面板v1.9.3发布

2024年1月15日,现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.9.3版本。 在这一版本中,1Panel新增了PostgreSQL数据库管理功能,并且支持设置PHP运行环境扩展模版。此外,我们进行了30多项功能更新和问题修复。1Panel应用…

6个免费好用的 PDF 文件加密软件 [Windows Mac]

加密 PDF 文件使您能够保护它们免受未经授权的访问。当重要信息处于危险之中时,黑客可以访问电子文档。 考虑到它们很容易被黑客入侵,您需要迅速采取行动。避免这种情况的方法之一是使用更适合您需要的 PDF 加密软件。 有很多选项可供选择,…

Linux中DCHP与时间同步

目录 一、DHCP (一)工作原理 1.获取 2.续约 (二)分配方式 (三)服务器配置 1.随机地址分配 2.固定地址分配 二、时间同步 (一)ntpdate (二)chrony …

智云谷再获资本市场青睐,完成数千万元A+轮融资

近日,深圳前海智云谷科技有限公司(以下简称“智云谷”)完成数千万元A轮融资,本轮融资由青松基金独家投资,多维资本担任独家融资财务顾问。本轮融资资金将用于扩大新技术研发投入、智能工厂扩产、加速产品交付&#xff…

openpose环境搭建

编程如画,我是panda! 最近学习要用要openpose,配了三天的环境,快疯了,踩了很多坑,在这里和大家分享一下 目录 前言 一、安装openpose 二、运行openpose 三、常见的两个错误 1. No module named pyopen…