音频数据集1--LJSpeech单人语音

news2026/2/8 22:17:46

LJ Speech Dataset

版本号: 1.1 , 文件大小: 2.6GB

1.简介

1. 1 内容简介

LJS是一个语音数据集，包含 13,100 个音频片段，内容为Linda Johnson(欧美女性)朗读的 7 本书籍段落(非小说类)。每个片段都提供文本转录，片段长度从 1 到 10 秒不等，总长度约为 24 小时。

7本书籍内容

发表于 1884 年至 1964 年之间，内容如下：

1. 莫里斯，威廉等人。《艺术与手工艺论文集》。1893 年。

  2.格里菲思，亚瑟。《纽盖特编年史》，第 2 卷。1884 年。

  3.罗斯福，富兰克林·D。《富兰克林·德拉诺·罗斯福的炉边闲谈》。1933-42 年。

  4.哈兰德，马里恩。《马里恩·哈兰德的初学者烹饪》。1893 年。

  5.罗尔特-惠勒，弗朗西斯。《科学 - 宇宙历史》，第 5 卷：生物学。1910 年。

  6.班克斯，埃德加·J。《古代世界七大奇迹》。1916 年。

  7.总统肯尼迪总统遇刺事件委员会。总统肯尼迪总统遇刺事件委员会报告。1964 年。

数据集参数

总片段数-Total Clips:  13,100

不同单词数-Distinct Words: 13,821

总单词数-Total Words:	225,715  # 单词总数量，重复出现也统计

总字符数-Total Characters:	1,308,678

总时长-Total Duration:	23:55:17

平均片段时长-Mean Clip Duration:	6.57 sec

最短片段时长-Min Clip Duration: 	1.11 sec

最长片段时长-Max Clip Duration:	10.10 sec

每片段的平均单词数-Mean Words per Clip:	17.23

1.2 制作简介

静音分段

通过录音中的静音部分自动分段

文本匹配语音内容

通过质量保证检查 (Quality Assurance Pass)来保证文本的准确性。

比特率：128kbps

数据来原LibriVox的格式为MP3，数据有伪影

伪影 (artifacts) 是指在音频文件的压缩和解压缩过程中，由于丢失特征造成的音频失真或不自然效果

脉冲编码调制（Pulse Code Modulation，PCM）：

用于模拟信号转换为数字信号

采样率: 每秒钟采样的次数（例如44.1 kHz）。
位深度: 每个样本使用的比特数（例如16位）。
声道数: 音频的声道数（例如立体声是2个声道）。

比特率 (bps)=采样率×位深度×声道数

对于CD质量的音频（44.1 kHz, 16位, 立体声）：

$44, 100 Hz \times 16 bi t s \times 2 c hann e l s = 1, 411, 200 b p s = 1, 411.2 kb p s$

由于MP3是有损压缩格式，通过去除部分音频信息以压缩数据达到较低的比特率，即本数据的128 kbps。

2.音频文件

音频片段位于 wavs文件夹

单个音频文件命名从 LJ001-0001 到 LJ050-0278

代表有50个段落(章节)，每个章节有约 200-300个片段

例如，050章有278个片段

音频可视化

050章的前30个片段可视化：

分别是时域、频域、频谱(y轴log)、mel谱

在这里插入图片描述

3.标注文件

文本标注位于 metadata.csv 文件。

其中 19 个转录本包含非 ASCII 字符（例如，LJ016-0257 包含“raison d’être”）

样例如下：


第一段音频 LJ001-0001 (10s):

	> Printing in the only sense with which we are at present concerned differs from most if not from all the arts and crafts represented in the Exhibition

第二段音频 LJ001-0002 (2s)：

	> in being comparatively modern.|in being comparatively modern.

第三段音频 LJ001-0003 (9s)：

	> For although the Chinese took impressions from wood blocks engraved in relief for centuries before the woodcutters of the Netherlands  by a similar process

2次标注

音频的标注文本有2个版本，第1个数字是用阿拉伯字符标记，第2个数字是用英文单词标记，2个标注文本通过字符 ‘|’ 分割。

举几个言例：


LJ001-0008|has never been surpassed.|has never been surpassed.

LJ001-0045|1469, 1470;|fourteen sixty-nine, fourteen seventy;

LJ002-0035|8. The press yard.|eight. The press yard.

缩写

部分标注单词为缩写(Abbreviation), 其展开(Expansion)后对照如下:

Mr.	Mister
Mrs.	Misess (*)
Dr.	Doctor
No.	Number
St.	Saint
Co.	Company
Jr.	Junior
Maj.	Major
Gen.	General
Drs.	Doctors
Rev.	Reverend
Lt.	Lieutenant
Hon.	Honorable
Sgt.	Sergeant
Capt.	Captain
Esq.	Esquire
Ltd.	Limited
Col.	Colonel
Ft.	Fort