MaskGCT——开源文本转语音模型,可模仿任何人说话声音

news2024/12/19 0:12:30

前期介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型,字节跳动自家发布的语音合成模型Seed-TTS。其模型随着技术的不断发展,模型说话的声音也越来越像人类,虽然 seed-tts 可以进行语音合成等功能,但是其模型并没有开源,本期介绍的MaskGCT文本转语音模型是一个开源的模型,不仅可以生成语音,还可以模仿任何人说话的声音,且可以进行语气的转换。

大规模的文本转语音(TTS)系统通常被划分为自回归系统与非自回归系统。自回归系统虽隐式地对时长予以建模,然而在鲁棒性层面呈现出一定的短板,且时长的可控性匮乏。非自回归系统于训练期间,需要文本和语音之间的显性对齐信息,并对语言单位(诸如音素)的时长进行预测,此举或许会折损其自然度。而 Masked Generative Code Transformer(MaskGCT),此乃一个全然非自回归的 TTS 模型,它既无需文本和语音监督之间的显性对齐信息,也无需音素级时长预测。
MaskGCT 属于一个两阶段模型:在第一阶段,该模型凭借文本预测从语音自监督学习(SSL)模型中萃取的语义标记;在第二阶段,模型对以这些语义标记为条件的声学标记予以预测。MaskGCT 遵循掩码和预测的学习范式。在训练进程中,MaskGCT 会依据给定的条件和提示,学习预测被遮蔽的语义或声学标记。在推理过程里,该模型能够以并行的方式生成指定长度的标记。针对 10 万小时的自然语音展开的实验表明,MaskGCT 在质量、相似度以及可理解性等方面,皆胜于当下最为先进的零样本 TTS 系统。

MaskGCT 由四个主要部分组成:
(1)语音语义表示编解码器将语音转换为语义标记;
(2)文本到语义模型使用文本预测语义标记并提示语义标记;
(3)语义到声学模型根据语义标记预测声学标记;
(4)语音声学编解码器根据声学标记重建语音波形。


MaskGCT模型根据用户提供的声音与文本,识别输入数据的语音语调,通过输入其他的文本,合成具有相同语音语调的声音。

在很多自媒体创作中,很多配音都是合成的声音,若是自己拿稿进行配音,不仅需要重复调整,还需要花费大量的时间与精力,而使用MaskGCT模型,就没有这个担忧,直接让模型学习下自己的语音语调,然后就可以一次性输入自己的文案,让模型进行配音了,这样就大大节省了人工配音的时间成本(更不需要一个专业的录音设备)


MaskGCT模型不仅可以模仿说话者的声音,也可以根据需要调整说话人的情绪,比如高兴的,生气等,这样就可以输入MaskGCT模型多段文案,然后控制每段文案的情绪,就可以得到完美的配音了。

当然MaskGCT模型也可以针对原始语音进行调整修改,可以直接修改原始语音的文案,让MaskGCT模型生成其他的语音。更多使用场景可以到MaskGCT模型 GitHub 上面查看。而官方也放出了在线体验地址,可以进行在线体验。

https://maskgct.github.io/ 
https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.md 
https://voice.funnycp.com/
 
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
​

 动画详解transformer  在线教程 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261850.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java全栈day16--Web后端实战(数据库)

一、数据库介绍 二、Mysql安装(自行在网上找,教程简单) 安装好了进行Mysql连接 连接语法:winr输入cmd,在命令行中再输入mysql -uroot -p密码 方法二:winr输入cmd,在命令行中再输入mysql -uroo…

geoserver 瓦片地图,tomcat和nginx实现负载均衡

在地理信息系统(GIS)领域,GeoServer作为一个强大的开源服务器,能够发布各种地图服务,包括瓦片地图服务。为了提高服务的可用性和扩展性,结合Tomcat和Nginx实现负载均衡成为了一个有效的解决方案。本文将详细…

达梦8-达梦数据的示例用户和表

1、示例库说明: 创建达梦数据的示例用户和表,导入测试数据。 在完成达梦数据库的安装之后,在/opt/dmdbms/samples/instance_script目录下有用于创建示例用户的SQL文件。samples目录前的路径根据实际安装情况进行修改,本文将达梦…

利用notepad++删除特定关键字所在的行

1、按组合键Ctrl H,查找模式选择 ‘正则表达式’,不选 ‘.匹配新行’ 2、查找目标输入 : ^.*关键字.*\r\n (不保留空行) ^.*关键字.*$ (保留空行)3、替换为:(空) 配置界面参考下图: ​​…

Qt学习笔记第61到70讲

第61讲 记事本实现当前行高亮功能 实现策略&#xff1a; 获取当前行的光标位置&#xff0c;使用的信号和获取行列值是一样的&#xff0c;即通过ExtraSelection 来配置相关属性。 关键API&#xff1a; QList<QTextEdit::ExtraSelection> extraSelections; void setExtraSe…

Axure高保真数据可视化大屏图表组件库

推出了一款高保真数据可视化大屏图表组件库&#xff0c;旨在为用户提供丰富的图表类型&#xff0c;使数据呈现更加直观、生动。本文将详细介绍该组件库中的各类图表元件&#xff0c;包括面积图、折线图、柱状图、条形图、圆环图、雷达图、仪表图以及综合类图表&#xff0c;以满…

【机器学习】在向量的流光中,揽数理星河为衣,以线性代数为钥,轻启机器学习黎明的瑰丽诗章

文章目录 线性代数入门&#xff1a;机器学习零基础小白指南前言一、向量&#xff1a;数据的基本单元1.1 什么是向量&#xff1f;1.1.1 举个例子&#xff1a; 1.2 向量的表示与维度1.2.1 向量的维度1.2.2 向量的表示方法 1.3 向量的基本运算1.3.1 向量加法1.3.2 向量的数乘1.3.3…

【鸿睿创智开发板试用】RK3568 NPU的人工智能推理测试

目录 引言 驱动移植 例程编译 修改build.sh 执行编译 运行测试 部署libc的库文件 执行测试程序 结语 引言 鸿睿创智的H01开发板是基于RK3568芯片的&#xff0c;瑞芯微芯片的一大特色就是提供了NPU推理的支持。本文将对其NPU推理进行测试。 驱动移植 H01的开发板已经…

3D相框案例讲解(详细)

前言 通过现阶段的学习&#xff0c;我们已经掌握了HTML&#xff0c;CSS和JS部分的相关知识点&#xff0c;现在让我们通过一篇案例&#xff0c;来巩固我们近期所学的知识点。 详细视频讲解戳这里 任务一 了解目标案例样式 1.1了解案例 3D相框 1.2 分析案例 首先我们看到一个…

【试听开放中】新中地2408期GIS特训营同步,学习路线图+职业规划

很多地信相关专业的同学都知道 学习开发很重要&#xff1f;项目实战经验很重要 但是在面对学什么语言&#xff1f;掌握什么技术的时候 同学又就开始犯嘀咕&#xff0c;这么多&#xff0c;到底学什么&#xff1f; 基础入门 1.掌握GIS基础的理论知识 2.HTML5标签搭建页面结构…

Ubuntu 18.04无有线图表且无法设置有线网络

问题背景&#xff1a; 今天在登陆自己的虚拟机Ubuntu系统的时候突然出现 有线连接无法连接的问题&#xff0c;有线连接的图标变为没有了&#xff0c;无法点击网络菜单的Setting模块选项。我的虚拟机有线网络连接方式是NAT方式。 没有如下有线连接图标 解决方法&#xff1a; …

设计规规范:【App 配色】

文章目录 引言I App 配色组成色彩象征 & 联想II 知识扩展设计流程图UI设计交互设计UI交互设计引言 设计规范,保持设计一致性,提高设计效率。宏观上对内统一,管理与合作变得容易。 按类型管理颜色、文本样式、图标、组件(symbol)。 蓝湖设计规范云 https://lanhuapp.co…

[maven]使用spring

为了更好理解springboot&#xff0c;我们先通过学习spring了解其底层。 这里讲一下简单的maven使用spring框架入门使用。因为这一块的东西很多都需要联合起来后才好去细讲&#xff0c;本篇通过spring-context大致地介绍相关内容。 注意&#xff1a;spring只是一个框架&#xff…

Unity性能优化---使用SpriteAtlas创建图集进行批次优化

在日常游戏开发中&#xff0c;UI是不可缺少的模块&#xff0c;而在UI中又使用着大量的图片&#xff0c;特别是2D游戏还有很多精灵图片存在&#xff0c;如果不加以处理&#xff0c;会导致很高的Batches&#xff0c;影响性能。 比如如下的例子&#xff1a; Batches是9&#xff0…

transformer学习笔记-位置编码

在transformer学习笔记-自注意力机制&#xff08;1&#xff09;学习原理的时候&#xff0c;我们提到: 将句子从“苹果梨”&#xff0c;改成“梨苹果”&#xff0c;最终的到的新苹果和新梨&#xff0c;竟然是一样的&#xff0c;因为苹果和梨两个向量调换顺序后&#xff0c;对应计…

【Unity3D】实现UGUI高亮引导点击

Unity版本2019.4.0f1 Personal <DX11> using UnityEngine; using UnityEngine.UI;public class GuideMask : MonoBehaviour, ICanvasRaycastFilter {public Canvas canvas;public Transform guideTargetTrans;public Image image;private Vector3 guideTargetWorldPos;pr…

Springboot3.x配置类(Configuration)和单元测试

配置类在Spring Boot框架中扮演着关键角色&#xff0c;它使开发者能够利用Java代码定义Bean、设定属性及调整其他Spring相关设置&#xff0c;取代了早期版本中依赖的XML配置文件。 集中化管理&#xff1a;借助Configuration注解&#xff0c;Spring Boot让用户能在一个或几个配…

SpringBoot增删改查导入导出操作【模板】

SpringBoot增删改查导入导出操作【模板】 文章目录 SpringBoot增删改查导入导出操作【模板】前期数据库操作IDEA上进行操作1. 创建 Spring Boot 项目2. 项目结构3. pom.xml文件4. 配置数据库连接并进行测试5. 创建实体类6. 创建 MyBatis Mapper7. 创建服务层8. 创建控制器9. 启…

mfc140.dll是什么东西?mfc140.dll缺失的几种具体解决方法

mfc140.dll是Microsoft Foundation Classes&#xff08;MFC&#xff09;库中的一个动态链接库&#xff08;DLL&#xff09;文件&#xff0c;它是微软基础类库的一部分&#xff0c;为Windows应用程序的开发提供了丰富的类库和接口。MFC库旨在简化Windows应用程序的开发过程&…

探索Starship:一款用Rust打造的高性能终端

在终端的世界里&#xff0c;效率和美观往往并行不悖。今天&#xff0c;我们要介绍的是一款名为Starship的终端工具&#xff0c;它以其轻量级、高颜值和强大的自定义功能&#xff0c;赢得了众多开发者的青睐。 安装 任选一种方式进行安装 Windows &#x1fa9f; # scoop scoo…