声音合成与克隆——制作用于训练的声音数据集

news2026/2/11 9:42:03

前言

1.PaddleSpeech 是一个简单易用的all-in-one 的语音工具箱，支持语音处理的相关操作，如语音知别，语音合成，声纹识别，声音分类，语音翻译，语音唤醒等多个方向的应用开发。

这里只使用到语音合成与声音克隆，主要由文本前端（Text Frontend）、声学模型（Acoustic Model）和声码器（Vocoder）三个主要模块，模块工作流程如下：

通过文本前端模块将原始文本转换为字符/音素。
通过声学模型将字符/音素转换为声学特征，如线性频谱图、mel 频谱图、LPC 特征等。
通过声码器将声学特征转换为波形。

2.要完成整个项目，大致可以分以下几个步骤：

语音数据收集，处理。
语音合成与克隆模型微调。
模型离线应用部署。

数据集制作

1.如果想训练自己的声音，可以使用录音设备录制自己的声音，发声中英都可以，录制的环境尽量没有杂音，录制时长越多越好。

2.如果使用网络上的声音数据，那么视频与音频都可以。

3.我这里演示使用的是B站上的一个UP主的语音，我剪切大概10段5分钟以上的视频，因为视频的声音带着背景音乐，为了训练效果，这里要去掉背景音乐。去掉背景音乐有很多种方法，专业的做语音处理的人喜欢用Adobe Audition来处理，但学起来太麻烦了。这里可以借助深度学习的魔法来去掉背景音乐。

Ultimate Vocal Remover是一款超好用的伴奏人声提取工具，安装完成之后就可以使用UVR来分离伴奏与人声了，使用说明如下：

基本选项（不是深度使用者一般都只用到这几个功能）

VR Architecture 选项

MDX-Net 选项

Demucs v3 选项

Ensemble Mode 合奏选项

Manual Ensemble 手动合奏

4.去掉背景音乐后，就要把音频剪切成2秒到10秒长度（不能超过10秒）的音频段。音频剪切标注则使用Adobe Audition来处理。安装完Adobe Audition之后，使用Adobe Audition打开准备好的视频或者音频文件，然后对着文件名点击—>插入到多轨混音中—>新建多轨会话，如果下图：

给要编辑的项目起个名：

之后Adobe Audition界面的刀片就可以使用了，做切片的时候，切开的部分尽量是没有语音的部分，就是没有声波的部分，如果有很长一段没有声波，就切出来删除掉。做切片时要注意不能小于2秒不能大于10秒。

切完整个音频之后，把每个音频段拖动到单独的音轨里面，不用的片断则删除就行：、

然后选中所有剪切的片断（Ctrl+A）,点击文件—>导出—>所有编辑

在导出界面把采样类型改成24000Hz，导出全部文件：

导出音频片断，保存的文件名有中文，要改成英文或者数字文件名。

相关软件下载

1.声音片断剪切软件下载：

https://download.csdn.net/download/matt45m/88033209

2.伴奏人声提取工具下载：

https://download.csdn.net/download/matt45m/88033228

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/741471.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

C++之模板类重写基类构造函数(一百五十七)

C++之模板类重写基类构造函数(一百五十七)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…

阅读更多...

matlab[1,1]生成100个随机点

matlab[1,1]生成100个随机点

close all; clc; x linspace(0,1,200); y 0 rand(1,200); sz 25; c linspace(1,10,length(x)); scatter(x,y,sz,c,filled)

阅读更多...

IO流学习07（Java）

IO流学习07（Java）

序列化流（对象操作输出流）： 可以把java中的对象写到本地文件中。 public objectoutputstream(outputstream out) 把基本流包装成高级流。 public final void writeobject(object obj) 把对象序列化（写出）到文…

阅读更多...

如何在Docker和Kubernetes中使用代理IP？

如何在Docker和Kubernetes中使用代理IP？

Docker和Kubernetes是目前非常流行的容器化技术，这些技术被广泛用于开发、部署和管理应用程序。在某些情况下，需要使用代理IP来访问特定的网络资源。本文将介绍如何在Docker和Kubernetes中使用代理IP，并提供详细的举例说明。一、在Docker中使…

阅读更多...

如何增强农业防灾减灾能力，加强灾情监测与风险预估

如何增强农业防灾减灾能力，加强灾情监测与风险预估

近日，农业农村部会同各部门联合下发通知，要求各地坚持问题导向，分区分类指导，细化实化措施，千方百计夺取秋粮和全年粮食丰收。文件中提到要通过加强灾害风险预报预警和灾情监测调度、分区分类做好灾情防范应对来应对气…

阅读更多...

ASEMI整流桥GBU808参数和应用

ASEMI整流桥GBU808参数和应用

编辑-Z 整流桥GBU808是一种常见的电子元件，用于将交流电转换为直流电。它由四个二极管组成，可以全波整流。GBU808具有高电流和高电压的特点，适用于各种电源和电路应用。 GBU808的主要特点之一是其高电流能力。它可以承受高达8安培的电流&…

阅读更多...

嵌入式开发之串口通讯

嵌入式开发之串口通讯

串口通信(Serial Communication)， 是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传输速度比并行传输低&…

阅读更多...

springboot会员制医疗预约服务管理信息系统

springboot会员制医疗预约服务管理信息系统

针对会员制医疗预约服务行业的管理现状，本会员制医疗预约服务管理信息系统主要实现以下几个目标： 1.系统界面简洁，操作简便。 2.拥有精准，高效的查询功能。 3.使管理人员能够及时的获得精确的报表。 4.对数据…

阅读更多...

docker入门(Linux环境下安装Docker,Docker构建镜像)

docker入门(Linux环境下安装Docker,Docker构建镜像)

docker入门(利用docker部署web应用) 一:什么是Docker 1.1 官方解释 Docker is the world’s leading software containerization platform。 Docker公司开发，开源，托管在github跨平台， 支持Windows、Macos、Linux。 1.2 抽象解释 docker…

阅读更多...

【状态设计优化DP】ABC307 E

【状态设计优化DP】ABC307 E

E - Distinct Adjacent (atcoder.jp) 题意： 思路： 组合问题，考虑DP或组合数组合数不好考虑，我们去考虑DP 因为是个环，我们把环拆成一条链，然后加一个N1，颜色和起点1相同，在这条…

阅读更多...

天台玻璃折叠门可实现室内外空间的无缝连接

天台玻璃折叠门可实现室内外空间的无缝连接

天玻璃折叠门是指安装在天台上的可折叠开合的玻璃门，可用于将室外空间与室内空间进行隔离或连接。设计天台玻璃折叠门时需要注意以下几点： 1. 结构稳固性：选择坚固、稳定的材料和结构设计，确保门体在风力和其他外力作用下不易摇晃…

阅读更多...

如何规范的设计数据库表

如何规范的设计数据库表

前言对于后端开发同学来说，访问数据库，是代码中必不可少的一个环节。系统中收集到用户的核心数据，为了安全性，我们一般会存储到数据库，比如：mysql，oracle等。后端开发的日常工作，需要…

阅读更多...

制作搭建宠物商城小程序，打造便捷的宠物购物体验

制作搭建宠物商城小程序，打造便捷的宠物购物体验

随着宠物市场的不断发展，宠物商城小程序成为了满足宠物爱好者需求的重要工具。在现代社会，宠物已经成为人们生活中不可或缺的一部分。作为宠物爱好者，我们对于宠物食品、用品、医疗保健品等需求日益增长。而宠物商城小程序则为我们提供了一个…

阅读更多...

python_day5_file

python_day5_file

open()打开函数： f open(name,mode,encoding) name:要打开的目标文件名 mode:访问模式：只读r、写入w、追加a 等 encoding:编码格式，常为UTF-8 f open("D:\Test.txt", "r", encoding"UTF-8") print(type(f))r…

阅读更多...

Dbeaver 显示字段备注信息

Dbeaver 显示字段备注信息

一、全局设置显示字段描述

阅读更多...

@所有人，酷雷曼年中答卷，请查收！

@所有人，酷雷曼年中答卷，请查收！

2023 酷雷曼VR年中答卷顺势而行携手共赢七月既至，年过已半。半年来， 我们持续以优质的产品研发、专业的客户服务、不断交付的技术方案， 将那些关于VR的美好向往， 变成真实可感的确定， 让每一种相信&am…

阅读更多...

Vue+element实现el-table行内编辑并校验

Vue+element实现el-table行内编辑并校验

el-table行内编辑情况情况概要：之前在开发过程中对于element数据的新增，修改，删除。一般直接结合el-form使用。也就是新增的时候点新增然后出来一个弹框，里面嵌套一个表单，然后保存就好了。这次项目中要求所有的新增&a…

阅读更多...

如何学习编写安全的PHP代码？ - 易智编译EaseEditing

如何学习编写安全的PHP代码？ - 易智编译EaseEditing

学习编写安全的PHP代码是保证应用程序安全的重要一环。下面是几个建议来帮助你学习编写安全的PHP代码： 学习安全编程原则： 了解常见的安全漏洞类型，如跨站脚本攻击（XSS）、SQL注入、跨站请求伪造（CSRF&…

阅读更多...

如何刷新对黑客的认识？

如何刷新对黑客的认识？

黑客一般有10种类型 1、白帽黑客白帽黑客是指通过实施渗透测试，识别网络安全漏洞，为政府及组织工作并获得授权或认证的黑客。他们也确保保护免受恶意网络犯罪。他们在政府提供的规章制度下工作，这就是为什么他们被称为道德黑客或网络安全专…

阅读更多...

springboot项目中引入本地依赖jar包，并打包到lib文件夹中

springboot项目中引入本地依赖jar包，并打包到lib文件夹中

1.springboot项目中引入本地依赖jar包，并打包到lib文件夹中描述：下载了第三方相关jar包后，项目中引入本地jar，测试环境正常，打包线上报错提示为找到该jar 原因：应该在/WEB-INF/lib/xxx.jar，被…

阅读更多...

推荐文章

最新文章