音频数据集1--LJSpeech单人语音

news2024/11/24 5:46:27

LJ Speech Dataset

版本号: 1.1 , 文件大小: 2.6GB

1.简介

1. 1 内容简介

LJS是一个语音数据集,包含 13,100 个音频片段,内容为Linda Johnson(欧美女性)朗读的 7 本书籍段落(非小说类)。每个片段都提供文本转录,片段长度从 1 到 10 秒不等,总长度约为 24 小时。

  • 7本书籍内容

发表于 1884 年至 1964 年之间,内容如下:

1. 莫里斯,威廉等人。《艺术与手工艺论文集》。1893 年。

  2.格里菲思,亚瑟。《纽盖特编年史》,第 2 卷。1884 年。

  3.罗斯福,富兰克林·D。《富兰克林·德拉诺·罗斯福的炉边闲谈》。1933-42 年。

  4.哈兰德,马里恩。《马里恩·哈兰德的初学者烹饪》。1893 年。

  5.罗尔特-惠勒,弗朗西斯。《科学 - 宇宙历史》,第 5 卷:生物学。1910 年。

  6.班克斯,埃德加·J。《古代世界七大奇迹》。1916 年。

  7.总统肯尼迪总统遇刺事件委员会。总统肯尼迪总统遇刺事件委员会报告。1964 年。
  • 数据集参数
总片段数-Total Clips:  13,100

不同单词数-Distinct Words: 13,821

总单词数-Total Words:	225,715  # 单词总数量,重复出现也统计

总字符数-Total Characters:	1,308,678

总时长-Total Duration:	23:55:17

平均片段时长-Mean Clip Duration:	6.57 sec

最短片段时长-Min Clip Duration: 	1.11 sec

最长片段时长-Max Clip Duration:	10.10 sec

每片段的平均单词数-Mean Words per Clip:	17.23

1.2 制作简介

  • 静音分段

通过录音中的静音部分自动分段

  • 文本匹配语音内容

通过质量保证检查 (Quality Assurance Pass)来保证文本的准确性。

  • 比特率:128kbps

数据来原LibriVox的格式为MP3,数据有伪影

伪影 (artifacts) 是指在音频文件的压缩和解压缩过程中,由于丢失特征造成的音频失真或不自然效果

  • 脉冲编码调制(Pulse Code Modulation,PCM):

用于模拟信号转换为数字信号

采样率: 每秒钟采样的次数(例如44.1 kHz)。
位深度: 每个样本使用的比特数(例如16位)。
声道数: 音频的声道数(例如立体声是2个声道)。

比特率 (bps)=采样率×位深度×声道数

对于CD质量的音频(44.1 kHz, 16位, 立体声):

44 , 100 H z × 16 b i t s × 2 c h a n n e l s = 1 , 411 , 200 b p s = 1 , 411.2 k b p s 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps

由于MP3是有损压缩格式,通过去除部分音频信息以压缩数据达到较低的比特率,即本数据的128 kbps。

2.音频文件

  • 音频片段位于 wavs文件夹

单个音频文件命名从 LJ001-0001 到 LJ050-0278

代表有50个段落(章节),每个章节有约 200-300个片段

例如,050章有278个片段

  • 音频可视化

050章的前30个片段可视化:

分别是 时域、频域、频谱(y轴log)、mel谱

在这里插入图片描述

3.标注文件

  • 文本标注位于 metadata.csv 文件。

其中 19 个转录本包含非 ASCII 字符(例如,LJ016-0257 包含“raison d’être”)

样例如下:


第一段音频 LJ001-0001 (10s):

	> Printing in the only sense with which we are at present concerned differs from most if not from all the arts and crafts represented in the Exhibition

第二段音频 LJ001-0002 (2s):

	> in being comparatively modern.|in being comparatively modern.

第三段音频 LJ001-0003 (9s):

	> For although the Chinese took impressions from wood blocks engraved in relief for centuries before the woodcutters of the Netherlands  by a similar process

  • 2次标注

音频的标注文本有2个版本,第1个数字是用阿拉伯字符标记,第2个数字是用英文单词标记,2个标注文本通过字符 ‘|’ 分割。

举几个言例:


LJ001-0008|has never been surpassed.|has never been surpassed.

LJ001-0045|1469, 1470;|fourteen sixty-nine, fourteen seventy;

LJ002-0035|8. The press yard.|eight. The press yard.

  • 缩写

部分标注单词为缩写(Abbreviation), 其展开(Expansion)后对照如下:

Mr.	Mister
Mrs.	Misess (*)
Dr.	Doctor
No.	Number
St.	Saint
Co.	Company
Jr.	Junior
Maj.	Major
Gen.	General
Drs.	Doctors
Rev.	Reverend
Lt.	Lieutenant
Hon.	Honorable
Sgt.	Sergeant
Capt.	Captain
Esq.	Esquire
Ltd.	Limited
Col.	Colonel
Ft.	Fort

4. Pytorch处理

HiFiGAN中处理如下

将文本标注**“metadata.csv“**的文件转为txt格式,并拆分为:

  • 训练集标注”training.txt”

12950个判断

  • 验证集标注”validation.txt”

150个片段

Reference

  • 文中图片代码

  • https://keithito.com/LJ-Speech-Dataset/

  • https://github.com/keithito/tacotron

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1865594.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux - 札记 - W10: Warning: Changing a readonly file

Linux - 札记 - W10: Warning: Changing a readonly file 这里写目录标题 一、问题描述1. 现象2. 原因 二、解决方案 一、问题描述 1. 现象 在使用 vim 编辑文件时(我这里是要编辑 /root/.ssh/authorized_keys)提示:W10: Warning: Changing…

成都晨持绪:抖店橱窗怎么卖货

在数字化浪潮席卷而来的今天,抖音平台凭借其强大的流量优势,为许多商家提供了一个新的销售渠道——抖店橱窗。通过有效地利用抖店橱窗,商家可以吸引更多潜在顾客,增加销售额。 要有效利用抖店橱窗进行销售,首要任务是精…

【曦灵平台】深度体验百度智能云曦灵平台之数字人3.0、声音克隆、直播等功能,AI加持就是不一样,快来一起体验

目录 资产数字人 2D数字人克隆声音克隆 AI卡片更多功能总结推荐文章 资产 可进行人像与声音的定制,让数字人形象和声音成为我们的专属资产,用于后续的内容生产工作 数字人 这里拍摄的视频分辨率和帧率必须要确保是官方要求,这里博主通过第…

【多模态】BEiT v2

链接:https://arxiv.org/pdf/2208.06366 论文:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers Introduction Motivation:Masked image modeling (MIM) 任务在自监督表征学习上取得了不错的成绩,但是现…

ONLYOFFICE 8.1版本桌面编辑器测评:超越想象的办公体验!

在当今数字化办公时代,一个功能强大、操作便捷的办公套件对于提高工作效率至关重要。ONLYOFFICE 8.1作为一款备受瞩目的办公软件,凭借其全面的功能、优异的性能和出色的用户体验,为用户带来了超越想象的办公体验。下面,我们将对ON…

程序员学长 | 快速学会一个算法,RNN

本文来源公众号“程序员学长”,仅用于学术分享,侵权删,干货满满。 原文链接:快速学会一个算法,RNN 今天给大家分享一个超强的算法模型,RNN 循环神经网络(Recurrent Neural Network, RNN&…

怎么打印加密的pfd文件,有那些方法?

现在人们的保密意识越来越强了,越来越多的人在完成pdf文档后就会对文档进行保护,但有的PDF文档被添加了密码,限制了打印的权限,导致我们想打印PDF文档的时候就提示我们要输入密码。面对这种情况,我们要怎样才能把PDF文档打印出来呢…

atcoder abc 359

A count takahashi 问题: 思路&#xff1a;字符串比较 代码&#xff1a; #include <bits/stdc.h>using namespace std;int main() {int n;cin >> n;int ans 0;for(int i 1; i < n; i ) {string s;cin >> s;if(s[0] T) ans ;}cout << ans;re…

BenchmarkSQL 对 MySQL 测试时请注意隔离级别!

BenchmarkSQL 是一款经典的开源数据库测试工具&#xff0c;内含了TPC-C测试脚本&#xff0c;可支持 Oracle、MySQL、PostgreSQL、SQL Server以及一些国产数据库的基准测试。 作者&#xff1a;李彬&#xff0c;爱可生 DBA 团队成员&#xff0c;负责项目日常问题处理及公司平台问…

机器学习--概念理解

知识点 一、机器学习概述 人工智能 机器学习 深度学习 学习的范围&#xff1a;模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理 可以解决的问题&#xff1a;给定数据的预测问题 二、机器学习的类型 监督学习 分类 回归 无监督学习 聚类 降维 强化…

【Java Web】会话管理

目录 一、为什么需要会话管理&#xff1f; 二、会话管理机制 三、Cookie概述 四、HttpSession概述 4.1 HttpSession时效性 一、为什么需要会话管理&#xff1f; HTTP协议在设计之初就是无状态的&#xff0c;所谓无状态就是在浏览器和服务器之间的通信过程中&#xff0c;服务器并…

免费录屏软件哪个好?录屏软件,分享3款免费工具

在日常生活或者工作中&#xff0c;录屏软件已经成为我们的得力助手。无论是教学、演示、娱乐&#xff0c;录屏软件都能为我们带来极大的便利。然而&#xff0c;市面上有些录屏软件的价格却十分的昂贵&#xff0c;让人望而却步。那么市面上到底有没有免费的录屏软件&#xff1f;…

MySQL的jdbc、odbc驱动版本必须和MySQL版本一样吗?

MySQL的版本和JDBC&#xff0c;ODBC驱动版本大体一致就可以 比如说MySQL的版本是8.0.35&#xff0c;您可以用8.0.19版本的JDBC,ODBC。或者8.0.31的版本。 除此之外我也查看了其他资料&#xff0c;这个哥们总结的也不错&#xff0c;我把链接放到这里 MySQL JDBC驱动版本与数据…

电脑可以录屏吗?5个方法,珍藏分享

在数字化时代&#xff0c;电脑的录屏功能已经成为许多人工作和学习的必备工具。录屏可以帮助我们捕捉屏幕上的动态内容&#xff0c;记录下重要的瞬间。所以&#xff0c;录屏是一个非常实用的功能。那么&#xff0c;电脑可以录屏吗&#xff1f;答案是肯定的。本文将为您介绍5种电…

一文详细了解Bootloader

Bootloader是什么 bootloader是一个引导加载程序&#xff0c;它的主要作用是初始化硬件设备、设置硬件参数&#xff0c;并加载操作系统内核。在嵌入式系统中&#xff0c;bootloader是硬件启动后第一个被执行的程序&#xff0c;它位于操作系统和硬件之间&#xff0c;起到桥梁的…

加速科技Flash存储测试解决方案 全面保障数据存储可靠性

Flash存储芯片 现代电子设备的核心数据存储守护者 Flash存储芯片是一种关键的非易失性存储器&#xff0c;作为现代电子设备中不可或缺的核心组件&#xff0c;承载着数据的存取重任。这种小巧而强大的芯片&#xff0c;以其低功耗、可靠性、高速的读写能力和巨大的存储容量&…

聊聊AI在企业数字化转型中的作用

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;已经深入到我们生活的方方面面&#xff0c;尤其在数字化转型的浪潮中&#xff0c;AI技术更是扮演着举足轻重的角色。数字化转型&#xff0c;简而言之&#xff0c;就是企业利用数字技术来改造其业务运营方式&a…

[AI MoneyPrinterTurbo] 一键成片,超级印钞机

今天&#xff0c;我们将踏上一段关于MoneyPrinterTurbo的探索之旅&#xff0c;这是一个文生视频工具&#xff0c;旨在让视频创作变得轻松而有趣。 故事的开始 想象一下&#xff0c;你只需要提供一个视频主题或关键词&#xff0c;剩下的——视频文案、素材、字幕、背景音乐&am…

转:关于征集第三批工业软件新场景新技术难题解决思路的公告

工业软件是先进工业知识与经验的凝炼&#xff0c;工业软件自身的先进性既来自对先进工业先进需求的汲取提炼&#xff0c;也来自对根技术新突破、新成果的高效采用。为增强根技术新成果提供方与工业软件厂家或最终用户方的连接&#xff0c;促进国产工业软件差异化竞争力的打造&a…

浅学JVM

一、基本概念 目录 一、基本概念 二、JVM 运行时内存 1、新生代 1.1 Eden 区 1.2. ServivorFrom 1.3. ServivorTo 1.4 MinorGC 的过程 &#xff08;复制- >清空- >互换&#xff09; 1.4.1&#xff1a;eden 、servicorFrom 复制到ServicorTo&#xff0c;年龄1 …