声纹识别资源汇总(不断更新)

news2024/11/25 12:33:13

目录

  • 一、任务说明
  • 二、指标
  • 三、声纹识别研究现状
  • 四、数据集开源
    • (1)VoxCeleb:
    • (2)WSJ and LibriSpeech Corpus
    • (3)VOiCES Dataset
    • (4)English Multi-speaker Corpus for Voice Cloning
  • 五、开源代码
    • 1、Alize
    • 2、MSR Identity Toolkit
    • 3、d-vector
    • 4、LSTM with GE2E loss
    • 5、y-vector

调研关键词:Speaker Recognition/Identification/Verification/diarization

一、任务说明

Speaker Recognition是一个大方向,包含说话人验证(speaker verification),说话人辨认(speaker identification),说话人分离(diarization)等小方向,本项目中需要的是说话人辨认这个方向。
speaker identification的概念就是拍段一段语音是谁所说,说话人辨认分为开集辨认和闭集辨认,当确定说话人在注册声纹库里时,是一个N选一的有限范围选一个的闭集任务,当不确定当前音频是否在注册声纹库里时,是一个开集任务。开集比闭集的要难很多。(需要明确到底是开集辨认还是闭集辨认)

在这里插入图片描述

二、指标

参考链接:添加链接描述

三、声纹识别研究现状

声纹识别搜索关键词:Speaker Recognition/Identification/Verification
声纹识别有三个阶段:

  • machine learning:最佳基线模型iVector
  • deep learning:bottleneck feature、d-vector、x-vector、j-vector
  • attention mechanism、Learning to rank
    在这里插入图片描述
    声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector,采用pLDA信道补偿算法,所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿,但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector(文本有关)以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。

四、数据集开源

(1)VoxCeleb:

1、属于完全的集外数据集 in the Wild,音频全部采自YouTube,是从网上视频切除出对应的音轨,再根据说话人进行切分;
2、属于完全真实的英文语音;
3、数据集是文本无关的;
4、Speakers总数1,251,句子总数153,516,时长总数351h;
5、每句平均时长8.2s,最大时长145s,最短时长4s,短语音较多;
6、每人平均持有句子116句,最大持有250句,最小持有45句;
7、数据集男女性别较均衡,男性有690人(55%),女性有561人;
8、采样率16kHz,16bit,单声道,PCM-WAV音频格式;
9、语音带有一定真实噪声,非人造白噪声,噪声出现时间点无规律,人声有大有小;
10、噪声包括:环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音;
11、视频场景包括:明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说;
12、音频无静音段,但不是VAD的效果,而是截取了一个人的完整无静音音频片段;
13、说话人范围广泛,具有多样的种族,口音,职业和年龄;
14、数据集自身以划分了开发集Dev和测试集Test,可直接用于Speaker Verification(V),测试集共676句;
15、做SV的话,可参考voxceleb1_txt这个文件夹的信息,里面的Eartha_Kitt、Eddie_Griffin……Ezra_Miller等等E字母开头的speakers都是被划分为test,其他字母开头的speakers是被划分为dev;
链接:https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
模型:Deep-Speaker就是基于这个数据集

(2)WSJ and LibriSpeech Corpus

数据采集自有声书网站,首先对每个句子做一遍语音识别,识别模型使用WSJ示例中的声学模型,语言模型使用二元文法,语言模型数据为语音数据对应的电子书文本。根据识别结果,统计每个说话人的WER,从低到高排序,前一半标记为clean,表示这些说话人语音比较清晰,其余标记为other。该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。
Link:https://www.openslr.org/12
使用该数据集的模型:d-vector

(3)VOiCES Dataset

发布时间:2018年
时长:总共15小时(3903个音频文件)
参与人数:300人
这个数据集是在复杂的环境设置(声音)语料库掩盖的声音呈现在声学挑战性条件下的音频记录。录音发生在不同大小的真实房间中,捕捉每个房间的不同背景和混响轮廓。各种类型的干扰器噪声(电视,音乐,或潺潺声)同时播放干净的讲话。在房间内精心布置的12个麦克风在远处录制音频,每个麦克风产生120小时的音频。为了模仿谈话中的人类行为,前景扬声器使用电动平台,在记录期间旋转一系列角度。
三百个不同的扬声器从LibriSpeech的“干净”的数据子集被选择作为源音频,确保50-50女性男性分组。在准备即将到来的数据挑战时,语音语料库的第一次发布将只包括200个发言者。剩下的100个发言者将被保留用于模型验证;一旦数据挑战赛被关闭,完整的语料库(300个发言者)将被释放。除了完整的数据集之外,我们还提供了一个DEV集合和一个迷你DEV集合。两者都保持了语音语料库的数据结构,但都包含了一小部分数据。DEV集包括四个随机选择的扬声器(50-50个女性男性分组)的音频文件,用于ROM-1中记录的数据。这包括所有12个麦克风的数据。迷你开发套件仅包括一个扬声器、一个房间(1号房间)和录音棚话筒.
LINK: https://voices18.github.io/downloads/
https://huggingface.co/datasets/librispeech_asr

(4)English Multi-speaker Corpus for Voice Cloning

这个CSTR VCTK语料库包含109个以不同口音的英语为母语的人的语音数据。每个说话者朗读大约400个句子,其中大部分是从报纸上选出来的。所有的语音数据记录使用相同的录音设置:一个全向头戴式麦克风(DPA 4035), 96kHz采样频率,在爱丁堡大学的半消声室。所有录音转换为16位,根据STPK下采样到48 kHz
Link:https://www.kaggle.com/datasets/mfekadu/english-multispeaker-corpus-for-voice-cloning/data
模型:LSTM with GE2E loss、y-vector

五、开源代码

1、Alize

主要包括GMM-UBM、i-vector、JFA三种传统的方法,C++版,简单易用。
可以用来生成基线算法。
Link:https://alize.univ-avignon.fr/

2、MSR Identity Toolkit

微软开源的工具箱,MATLAB版本,包含GMM-UBM和i-vector的demo,简单易用。
Link:https://www.microsoft.com/en-us/research/publication/msr-identity-toolbox-v1-0-a-matlab-toolbox-for-speaker-recognition-research-2/

3、d-vector

Data: WSJ and LibriSpeech Corpus
Link: https://github.com/rajathkmp/speaker-verification
(一个简单的教程)https://medium.com/saarthi-ai/using-d-vector-for-speaker-recognition-and-diarization-4a3450dd8a01

4、LSTM with GE2E loss

https://www.kaggle.com/code/mnitin59/tensorflow-speaker-verification

5、y-vector

Link:https://www.kaggle.com/code/mariasamorodova/y-vector-identification
https://github.com/gzhu06/Y-vector

Link:https://github.com/Janghyun1230/Speaker_Verification
Paper: https://arxiv.org/pdf/1710.10467.pdf
一个很好地代码:有噪声
https://www.kaggle.com/code/auishikpyne/speaker-identification/notebook
一些代码资源(之后逐个排查)
http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet

resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频,感觉效果很不错
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1350091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习笔记(四)初识卷积神经网络

前言 第一次写卷积神经网络,也是照着paddlepaddle的官方文档抄,这里简单讲解一下心得。 首先我们要知道之前写的那些东西都是什么,之前写的我们称之为简单神经网络,也就是简单一层连接输出和输出,通过前向计算和逆向…

LM358 典型应用Multisim仿真设计

一、LM358简介: LM358 运算放大器属于一种低功率双运算放大器,由两个独立的高增益内部频率补偿运算放大器组成,专门设计用于在宽电压范围内由单电源供电。LM358 运算放大器具有低功耗、共模输入电压范围扩展到地/VEE以及单电源或双电源操作。…

代表团坐车 - 华为OD统一考试

OD统一考试(B卷) 分值: 100分 题解: Java / Python / C 题目描述 某组织举行会议,来了多个代表团同时到达,接待处只有一辆汽车可以同时接待多个代表团,为了提高车辆利用率,请帮接待…

Linux 系统拉取 Github项目

一、安装Git 在Linux上拉取GitHub项目可以使用Git命令。首先确保已经安装了Git。如果没有安装,可以通过包管理器(比如apt、yum)来进行安装。 sudo yum install git #查看安装版本 git -version二、关联GitHub 配置本地账户和邮箱 >>…

Redis缓存穿透,缓存击穿,缓存雪崩

文章目录 Redis缓存穿透,缓存击穿,缓存雪崩1. 缓存穿透1.1 解决方案1:缓存空数据1.2 解决方案2:使用布隆过滤器1.2.1 布隆过滤器介绍 2. 缓存击穿2.1 解决方案1:互斥锁2.2 解决方案2:逻辑过期 3. 缓存雪崩3…

抖店和商品橱窗有什么区别?新手应该选哪个?

我是电商珠珠 临近年底了,有的人已经开始为下一年筹谋,有的去抖音做账号做直播带货,不会直播带货的就想尝试做下抖店,来为以后的经济打基础。 刚想要接触却对这类有些迷糊,发现商品橱窗和抖店都可以卖货,…

k8s基础架构

k8s基础架构 创建pod流程 (1)用户通过kubectl向api-server发起创建pod请求; (2)apiserver通过对应的kubeconfig进行认证,认证通过后将yaml中的po信息存到etcd; (3)Contr…

Oracle笔记-查看表已使用空间最大空间

目前以Oracle18c为例,主要是查这个表USER_SEGMENTS。 在 Oracle 18c 数据库中,USER_SEGMENTS 是一个系统表,用于存储当前用户(当前会话)拥有的所有段的信息。段是 Oracle 中分配存储空间的逻辑单位,用于存…

Java智慧校园源码,SaaS云平台,私有云部署,移动端小程序使用小程序原生语言开发

系统概述: 电子班牌系统又称之为智慧班牌,是当前校园数字化信息化建设、文化建设的主流,是校园日常工作安排、校园信息发布、班级文化风采展示、课堂交流的重要应用载体。智慧班牌系统在传统信息发布和校园文化展示功能基础上,融…

Polygon zkEVM ROM Spearbit审计报告解读(2023年6月Dragon Fruit升级版本)

1. 引言 前序博客有: Polygon zkEVM Hexens审计报告解读Polygon zkEVM Spearbit审计报告解读(2022年12月版本)Polygon zkEVM Spearbit审计报告解读(2023年1月版本)Polygon zkEVM Spearbit审计报告解读(20…

计网自顶向下(多线程Web代理服务器)

目录 🌼前言 🌼多线程Web代理服务器 🎒过程 🏀解释 🌳代码 🌼前言 前置知识 (1)进程 与 线程 进程与线程的一个简单解释 - 阮一峰的网络日志 (ruanyifeng.com) (…

计算机组成原理 数据的表示与运算

文章目录 数据的表示与运算数据表示定点数的表示与运算定点数的表示无符号数有符号数定点整数定点小数四码反码补码移码 总结 定点数的运算算术移位原码反码补码总结 逻辑位移循环位移总结 加减运算原码加减法补码加减法 溢出判断采用一位符号位 浮点数的表示与运算表示IEEE 75…

【排序算法】【二叉树】【滑动窗口】LeetCode220: 存在重复元素 III

作者推荐 【二叉树】【单调双向队列】LeetCode239:滑动窗口最大值 本文涉及的基础知识点 C算法&#xff1a;滑动窗口总结 题目 给你一个整数数组 nums 和两个整数 indexDiff 和 valueDiff 。 找出满足下述条件的下标对 (i, j)&#xff1a; i ! j, abs(i - j) < indexDi…

2024校招测试工程师笔试——经典错题记录和解析

大家好&#xff0c;这篇文章记录几个测开方向经典的例题&#xff0c;并给出相应解析&#xff0c;欢迎给出你的看法 下列关于软件性能测试的说法中&#xff0c;正确的是&#xff1a;&#xff08; &#xff09; A 性能测试的目的不是为了发现软件缺陷 B 压力测试与负载测试的目的…

Ansible自动化运维(一)简介及部署、清单

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

腾讯云轻量应用服务器“镜像”如何选择比较好?

腾讯云轻量应用服务器镜像怎么选择&#xff1f;镜像是指轻量服务器的操作系统&#xff0c;可以选择宝塔Linux面板8.0.4腾讯云专享版&#xff0c;如果需要Win系统建议选择Windows Server 2012 R2 中文版&#xff0c;腾讯云服务器网txyfwq.com分享腾讯云轻量应用服务器镜像操作系…

如何使用Pyxamstore快速解析Xamarin AssemblyStore文件

关于Pyxamstore Pyxamstore是一款针对Xamarin AssemblyStore文件&#xff08;assemblies.blob&#xff09;的强大解析工具&#xff0c;该工具基于纯Python 2.7开发&#xff0c;支持从一个APK文件中解包并重封装assemblies.blob和assemblies.manifest Xamarin文件。 什么是ass…

谷歌Gemini Pro模型 Api 调用

写在前面 本篇博客主要介绍如下内容 Gemini Pro模型 ApiKey的申请 Gemini Pro模型 Api调用的方法 几个模型Api调用的demo程序 调用Gemini Pro模型中可能遇到的问题及解决方案 模型 ApiKey的申请 注册好Google账号&#xff0c;并在浏览器完成登录访问 : https://makersuite.g…

低成本TB级数据库技术选型之思考两三点

一、背景 前段时间在搞毕业论文的选题&#xff0c;最头疼的就是大量的文献检索和阅读&#xff0c;从研究的角度上我们可以将文献分为四类&#xff1a; 理论文献&#xff1a;为研究提供理论的框架和基础的文献。这些文献可能并不会和所做的研究直接相关&#xff0c;甚至由于理…

梦里河山:自在正定,跨年寄语

‍ ‍雏鹰高飞&#xff0c;我们也渐渐失去了新年第一天去香炉峰顶祈福的动力。向往着梦里河山&#xff0c;于是启动了这次的跨年之旅。 雾途 放假的第一天&#xff0c;早早起床&#xff0c;7点钟开车驱往赵子龙的故乡——正定。万万没有想到&#xff0c;出了五环&#xff0c;晨…