TTS | 语音合成常见数据集及数据格式详情

news2024/10/2 3:23:56

link

  1. LJSpeech

网址 : The LJ Speech Dataset (keithito.com)

数据集描述:

数据集大小:2.6GB

这是一个公共领域的语音数据集,由 13,100 个简短的音频剪辑组成 一位演讲者阅读 7 本非小说类书籍的段落。为每个剪辑提供转录。 剪辑的长度从 1 到 10 秒不等,总长度约为 24小时。

LGSpeech文件格式

数据集描述:

元数据在成绩单.csv中提供。此文件由一条记录组成 每行,由竖线字符 (0x7c) 分隔。这些字段是:

  1. ID:这是对应.wav文件的名称

  1. 转录:读者说出的单词 (UTF-8)

  1. 规范化转录:使用数字、序数和货币单位进行转录 扩展为完整单词 (UTF-8)。

每个音频文件都是一个单通道 16 位 PCM WAV,采样率为 22050 Hz。

总剪辑数    13,100
总字数    225,715
总字符数    1,308,678
总持续时间    23:55:17
平均剪辑持续时间    6.57 秒
最小剪辑持续时间    1.11 秒
最大剪辑持续时间    10.10 秒
每个剪辑的平均字数    17.23
不同的单词    13,821
  1. JSUT

网址 :Shinnosuke Takamichi (高道 慎之介) - JSUT (google.com)

数据集描述:

数据集大小:2.7GB

该语料库由日语文本(转录)和阅读式音频组成。音频数据以48kHz采样并记录在消声室。录制了一位以日语为母语的女性的声音。此语料库包含 10 小时的语音,由以下数据组成:

  • 基本5000 ...涵盖所有日常使用字符(jouyou汉字)。

  • ut释义512 ...将句子的一部分替换为其释义。

  • 拟声词300 ...包括日语的拟声词(拟声词)。

  • 后缀26 ...日语的反后缀

  • 借词128 ...日语的外来词(例如,ググる [“谷歌”作为动词])

  • 声优100 ...对声优语料库的副演讲(专业女性演讲者的免费语料库

  • 旅行1000 ...旅行域语料库

  • 先例130 ...先例句

  • 重复500 ...重复口语(100句*5次)

  1. RUSLAN

网址 :RUSLAN: Russian Spoken Language Corpus For Speech Synthesis

数据集描述:

RUSLAN 是用于文本到语音转换任务的俄语口语语料库。RUSLAN 包含 22,200 个带有文本注释的音频样本——一个人超过 31 小时的高质量演讲——就单个发言者的语音持续时间而言,是最大的带注释的俄语语料库之一。

  1. RyanSpeech

网址 :Mohammad H. Mahoor, PhD

数据集描述:

RyanSpeech是用于研究自动文本到语音(TTS)系统的新语音语料库。公开可用的TTS语料库通常嘈杂,由多个说话者录制,或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求,我们设计并创建了 RyanSpeech。我们从现实世界的对话环境中衍生出RyanSpeech的文本材料,这些材料包含超过10个小时的专业男性配音演员的演讲,录制频率为44.1 kHz。这种语料库创建的设计和管道使RyanSpeech成为在实际应用中开发TTS系统的理想选择。为了为未来的研究、协议和基准提供基线,我们在 RyanSpeech 上训练了 4 个最先进的语音模型和一个声码器。结果显示,在我们的最佳模型中,平均意见得分(MOS)为3.36。我们已公开提供经过训练的模型以供下载。

5.VocBench

网址 :https://github.com/facebookresearch/vocoder-benchmark

数据集描述:

VocBench是一个为最先进的神经声码器的性能提供基准的框架。VocBench采用系统的研究方法,在一个共享的环境中评估不同的神经声码器,使它们之间能够进行公平的比较。

6.Arabic Speech Corpus

网址 :http://en.arabicspeechcorpus.com/

数据集描述:

数据集大小:1.5GB

该语音语料库是南安普敦大学Nawar Halabi博士工作的一部分。语料库是使用专业录音室用南黎凡特阿拉伯语(大马士革口音)录制的。使用此语料库合成语音作为输出,产生了高质量、自然的声音。

7.Silent Speech EMG

网址 :Silent Speech EMG | Zenodo

数据集描述:

无声和发声语音期间的面部肌电图记录。

这些数据在EMNLP 2020(https://arxiv.org/abs/2010.02960)的出版物“无声语音的数字发声”中进行了描述。

可以在 https://github.com/dgaddy/silent_speech 中找到用于处理此数据的代码。

每个数据样本有 5 个数据文件:{i}_emg.npy - 一个保存的大小为 (T, 8) 的 numpy 数组,带有原始 EMG 信号;{i}_audio.flac - 原始录音;{i}_audio_clean.flac - 降低背景噪音的音频;{i}_info.json - 包含额外信息的 JSON,例如读取的文本提示;{i}_button.npy - 包含设备按钮状态的 numpy 数组,通常未使用。请注意,某些样本并不代表实际数据点,而是用作参考肌电图或音频信号。这些示例在相关信息文件中标有“sentence_index:-1”。

https://arxiv.org/pdf/2010.02960.pdf

8.Hi-Fi Multi-Speaker English TTS Dataset

网址 :Hi-Fi Multi-Speaker English TTS Dataset

数据集描述:

该数据集是基于LibriVox的公共有声读物和古腾堡计划的文本。

Hi-Fi TTS数据集包含来自10个发言人的约291.6小时的语音,每个发言人至少有17小时的44.1kHz采样。

"Hi-Fi Multi-Speaker English TTS Dataset" Bakhturina, E., Lavrukhin, V., Ginsburg, B. and Zhang, Y., 2021: arxiv.org/abs/2104.01497.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/397819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

删除的文件怎么恢复?恢复方法在这里(支持Win和Mac)

案例:文件永久删除还能找回来吗?关于Win和Mac系统的恢复方法 “前几天我在清理电脑垃圾,不小心误删了重要的文件。有没有什么比较全面的方法,可以帮助我恢复删除的文件啊?在线急等回复!” 随着电脑使用的…

Golang 中 Slice的分析与使用(含源码)

文章目录1、slice结构体2、slice初始化3、append操作4、slice截取5、slice深拷贝6、值传递还是引用传递参考文献众所周知,在golang中,slice(切片)是我们最常使用到的一种数据结构,是一种可变长度的数组,本篇…

三维人脸实践:基于Face3D的渲染、生成与重构 <二>

face3d: Python tools for processing 3D face git code: https://github.com/yfeng95/face3d paper list: PaperWithCode 3DMM方法,基于平均人脸模型,可广泛用于基于关键点的人脸生成、位姿检测以及渲染等,能够快速实现人脸建模与渲染。推…

MySQL基础篇3

第一章 多表关系实战 1.1 实战1:省和市 方案1:多张表,一对多 方案2:一张表,自关联一对多 id1 name‘北京’ p_id null; id2 name‘昌平’ p_id1 id3 name‘大兴’ p_id1 id3 name‘上海’ p_idnull id4 name‘浦东’…

中国人工智能企业中集飞瞳全球港航人工智能领军者,箱况残缺检测视频流动态感知智能闸口,自动化港口码头数字化智慧港航中国人工智能企业

中国人工智能企业中集飞瞳全球港航人工智能领军者,箱况残缺检测视频流动态感知超级智能闸口,自动化港口码头数字化智慧港航。CIMCAI已完成全球250万人工智能集装箱箱况检验,完成全球上亿集装箱信息,先进产品在全球各港区及集装箱枢…

CNStack 多集群服务:基于 OCM 打造完善的集群管理能力

作者:学靖 概述 随着 Kubernetes 在企业业务中的应用和发展,单集群内的管理能力已经趋于完善,越来越多的客户期望在多云、多集群场景部署其业务,因此需要提供相应的多云、多集群管理能力。 CNStack 多集群服务是 CNStack 面向多…

【实现“大图”功能 Objective-C语言】

一、这时候,我们来实现另外一个功能,就是点击,实现这个“大图”, 1.点击“大图”按钮,实现这个“大图”, 那么我先给大家说一下,这个点击“按钮”,实现“大图”,这个思路是怎样的,大家看一下,这个示例程序,当你点击“大图”的时候,首先,这个图片变大,同时,后…

Nvidia jetson nano 部署yolov5_技术文档

Nvidia jetson nano 部署yolov5_技术文档 每天一句小姜格言:我行,我不是一般人儿 部署开始: 1、通过FileZilla,将window文件传输至jetson nano 上的nano文件夹下。 2、查看cuda 我买的jetson nano是带有配置好的镜像。系统配置…

[数据结构]:16-归并排序(顺序表指针实现形式)(C语言实现)

目录 前言 已完成内容 归并排序实现 01-开发环境 02-文件布局 03-代码 01-主函数 02-头文件 03-PSeqListFunction.cpp 04-SortFunction.cpp 结语 前言 此专栏包含408考研数据结构全部内容,除其中使用到C引用外,全为C语言代码。使用C引用主要是…

嵌入式开发:CIA保护跨连接设备的嵌入式数据

在嵌入式开发中,ITTIA SDL保护数据并确保嵌入式系统的开发安全。嵌入式系统中的数据管理安全威胁是什么?ITTIA如何解决这个问题?嵌入式系统和企业系统的数据管理理想情况下遵循相同的安全威胁。有三个主要的基本原则或目标被称为CIA:保密性&#xff1a…

【FATE联邦学习】standalone版Fateboard修改配置

背景&做法 很多其他程序(比如vscode的code server)也会使用这个 127 0 0 1:8080 socket进行通信,这样就没办法远程用vscode去开发了,所以需要修改下Fateboard的socket配置。官方文档中也给出了如何修改配置 The default data…

代码随想录--数组--滑动窗口解决最长/短子数组题型

注意题目是说找连续数组的和>s的最小长度,是“和”,不然都不知道题目在说什么。 http://【拿下滑动窗口! | LeetCode 209 长度最小的子数组】 https://www.bilibili.com/video/BV1tZ4y1q7XE/?share_sourcecopy_web 看一下暴力算法&…

android 卡顿、ANR优化(1)屏幕刷新机制

前言: 本文通过阅读各种文章和源码总结出来的,如有不对,还望指出 目录 正文 基础概念 视觉暂留 逐行扫描 帧 CPU/GPU/Surface: 帧率、刷新率、画面撕裂 画面撕裂 Android屏幕刷新机制的演变 单缓存(And…

限流算法详解

限流是我们经常会碰到的东西,顾名思义就是限制流量。它能保证我们的系统不会被突然的流量打爆,保证系统的稳定运行。像我们生活中,地铁就会有很多护栏,弯弯绕绕的,这个就是一种限流。像我们抢茅台,肯定大部…

案例17-环境混用带来的影响

目录一、背景介绍背景事故二、思路&方案三、过程四、总结nginx做转发fastdfs(文件上传下载)五、升华一、背景介绍 本篇博客主要介绍开发中项目使用依赖项环境闭一只带来的恶劣影响,在错误中成长进步。 背景 本公司另外一个产品开发God…

爱因斯坦求和约定 含代码einsum

目录 一、简介 1.哑标 2.自由标 二、torch实现 1.计算迹 2.取矩阵对角线 3.计算外积 4.batch矩阵乘法 5.带有子列表和省略号 一、简介 爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定…

position:absolute详解

position:absolute详解 日常开发中,经常会涉及元素的定位,我们都知道,绝对定位相对于最近position不为static的父级元素来定位,但其中定位的位置还是有细微的差别的。 绝对定位根据left和top属性来规定绝对定位元素的位置。 基…

2023年前端面试题集锦

2023年又是行情惨淡的一年,为此我从 「枇杷村IT面试宝典」小程序里收集了一些题目,更多题目可以扫下方二维码查看 现做个总结如下: 1. 在JavaScript中, 0 -0的结果是什么? 结果为true! 严格等于比较的是值和类型&…

tcpdump写文件-w文件大小为0字节问题处理

一同事找来,说用tcpdump在一台linux服务器上抓包写文件,文件大小为0,不知道是什么原因造成,让协助解决。 自己登陆服务器试了一下,发现问题确实如此 不用-w,让打印在平面上,发现正常 以为权限不…

虹科案例 | 如何可持续的对变压器进行温度监控?

为了延长变压器的使用寿命,需要一个测量系统来监测内部整个绕组区域的温度。它必须明确温度升高发生的位置及其强度。您可以在此处了解为什么会这样以及如何在实践中实施? PART 1 变压器多点测温问题 变压器的工作温度越高,使用寿命越短。这里主要存在…