声纹识别资源汇总（不断更新）

一、任务说明
二、指标
三、声纹识别研究现状
四、数据集开源
- （1）VoxCeleb：
- （2）WSJ and LibriSpeech Corpus
- （3）VOiCES Dataset
- （4）English Multi-speaker Corpus for Voice Cloning
五、开源代码
- 1、Alize
- 2、MSR Identity Toolkit
- 3、d-vector
- 4、LSTM with GE2E loss
- 5、y-vector

调研关键词：Speaker Recognition/Identification/Verification/diarization

一、任务说明

Speaker Recognition是一个大方向，包含说话人验证（speaker verification），说话人辨认（speaker identification），说话人分离（diarization）等小方向，本项目中需要的是说话人辨认这个方向。
speaker identification的概念就是拍段一段语音是谁所说，说话人辨认分为开集辨认和闭集辨认，当确定说话人在注册声纹库里时，是一个N选一的有限范围选一个的闭集任务，当不确定当前音频是否在注册声纹库里时，是一个开集任务。开集比闭集的要难很多。（需要明确到底是开集辨认还是闭集辨认）

在这里插入图片描述

二、指标

参考链接：添加链接描述

三、声纹识别研究现状

声纹识别搜索关键词：Speaker Recognition/Identification/Verification
声纹识别有三个阶段：

machine learning：最佳基线模型iVector
deep learning：bottleneck feature、d-vector、x-vector、j-vector
attention mechanism、Learning to rank

声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector，采用pLDA信道补偿算法，所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿，但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector（文本有关）以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。

四、数据集开源

（1）VoxCeleb：

1、属于完全的集外数据集 in the Wild，音频全部采自YouTube，是从网上视频切除出对应的音轨，再根据说话人进行切分；
2、属于完全真实的英文语音；
3、数据集是文本无关的；
4、Speakers总数1,251，句子总数153,516，时长总数351h；
5、每句平均时长8.2s，最大时长145s，最短时长4s，短语音较多；
6、每人平均持有句子116句，最大持有250句，最小持有45句；
7、数据集男女性别较均衡，男性有690人（55%），女性有561人；
8、采样率16kHz，16bit，单声道，PCM-WAV音频格式；
9、语音带有一定真实噪声，非人造白噪声，噪声出现时间点无规律，人声有大有小；
10、噪声包括：环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音；
11、视频场景包括：明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说；
12、音频无静音段，但不是VAD的效果，而是截取了一个人的完整无静音音频片段；
13、说话人范围广泛，具有多样的种族，口音，职业和年龄；
14、数据集自身以划分了开发集Dev和测试集Test，可直接用于Speaker Verification(V)，测试集共676句；
15、做SV的话，可参考voxceleb1_txt这个文件夹的信息，里面的Eartha_Kitt、Eddie_Griffin……Ezra_Miller等等E字母开头的speakers都是被划分为test，其他字母开头的speakers是被划分为dev；
链接：https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
模型：Deep-Speaker就是基于这个数据集

（2）WSJ and LibriSpeech Corpus

数据采集自有声书网站，首先对每个句子做一遍语音识别，识别模型使用WSJ示例中的声学模型，语言模型使用二元文法，语言模型数据为语音数据对应的电子书文本。根据识别结果，统计每个说话人的WER，从低到高排序，前一半标记为clean，表示这些说话人语音比较清晰，其余标记为other。该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐，如果你正在寻找一个起点，请查看已准备好的声学模型，这些模型在kaldi-asr.org和语言模型上进行了训练，适合评估。
Link：https://www.openslr.org/12
使用该数据集的模型：d-vector

（3）VOiCES Dataset

发布时间：2018年
时长：总共15小时（3903个音频文件）
参与人数：300人
这个数据集是在复杂的环境设置（声音）语料库掩盖的声音呈现在声学挑战性条件下的音频记录。录音发生在不同大小的真实房间中，捕捉每个房间的不同背景和混响轮廓。各种类型的干扰器噪声（电视，音乐，或潺潺声）同时播放干净的讲话。在房间内精心布置的12个麦克风在远处录制音频，每个麦克风产生120小时的音频。为了模仿谈话中的人类行为，前景扬声器使用电动平台，在记录期间旋转一系列角度。
三百个不同的扬声器从LibriSpeech的“干净”的数据子集被选择作为源音频，确保50-50女性男性分组。在准备即将到来的数据挑战时，语音语料库的第一次发布将只包括200个发言者。剩下的100个发言者将被保留用于模型验证；一旦数据挑战赛被关闭，完整的语料库（300个发言者）将被释放。除了完整的数据集之外，我们还提供了一个DEV集合和一个迷你DEV集合。两者都保持了语音语料库的数据结构，但都包含了一小部分数据。DEV集包括四个随机选择的扬声器（50-50个女性男性分组）的音频文件，用于ROM-1中记录的数据。这包括所有12个麦克风的数据。迷你开发套件仅包括一个扬声器、一个房间（1号房间）和录音棚话筒.
LINK: https://voices18.github.io/downloads/
https://huggingface.co/datasets/librispeech_asr

（4）English Multi-speaker Corpus for Voice Cloning

这个CSTR VCTK语料库包含109个以不同口音的英语为母语的人的语音数据。每个说话者朗读大约400个句子，其中大部分是从报纸上选出来的。所有的语音数据记录使用相同的录音设置:一个全向头戴式麦克风(DPA 4035)， 96kHz采样频率，在爱丁堡大学的半消声室。所有录音转换为16位，根据STPK下采样到48 kHz
Link：https://www.kaggle.com/datasets/mfekadu/english-multispeaker-corpus-for-voice-cloning/data
模型：LSTM with GE2E loss、y-vector

五、开源代码

1、Alize

主要包括GMM-UBM、i-vector、JFA三种传统的方法，C++版，简单易用。
可以用来生成基线算法。
Link：https://alize.univ-avignon.fr/

2、MSR Identity Toolkit

微软开源的工具箱，MATLAB版本，包含GMM-UBM和i-vector的demo，简单易用。
Link：https://www.microsoft.com/en-us/research/publication/msr-identity-toolbox-v1-0-a-matlab-toolbox-for-speaker-recognition-research-2/

3、d-vector

Data: WSJ and LibriSpeech Corpus
Link: https://github.com/rajathkmp/speaker-verification
（一个简单的教程）https://medium.com/saarthi-ai/using-d-vector-for-speaker-recognition-and-diarization-4a3450dd8a01

4、LSTM with GE2E loss

https://www.kaggle.com/code/mnitin59/tensorflow-speaker-verification

5、y-vector

Link：https://www.kaggle.com/code/mariasamorodova/y-vector-identification
https://github.com/gzhu06/Y-vector

Link：https://github.com/Janghyun1230/Speaker_Verification
Paper: https://arxiv.org/pdf/1710.10467.pdf
一个很好地代码：有噪声
https://www.kaggle.com/code/auishikpyne/speaker-identification/notebook
一些代码资源（之后逐个排查）
http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet

resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频，感觉效果很不错
在这里插入图片描述