【音频识别】十大数据集合集,宝藏合集,不容错过!

news2024/9/9 5:58:53

本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

RenderMe-360

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-05-24

  • 简介:

    RenFace是一个大规模多视角人脸高清视频数据集,包含多样的人脸表情、丰富的细粒度发型发色,同时也包含音素均衡的说话视频。可应用于:2D/3D数字人脸生成、人脸重建捕捉等领域。

  • 下载地址:

    https://renderme-360.github.io/; https://openxdlab.org.cn/home

2

ODSQA (Open-Domain Spoken Question Answering)

  • 发布方:

    台湾大学

  • 发布时间:

    2018

  • 简介:

    ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。

  • 下载地址:

    https://github.com/chiahsuan156/ODSQA

  • 论文地址:https://arxiv.org/pdf/1808.02280v1.pdf

3

EDT

  • 发布方:

    Northwestern University

  • 发布时间:

    2021

  • 简介:

    EDT 数据集专为企业事件检测和基于文本的股票预测(交易策略)基准而设计。它包括 9721 篇带有令牌级事件标签的新闻文章和 303893 篇带有分钟级时间戳和综合股价标签的新闻文章。 EDT 包含用于三个目的的数据: 1. 企业事件检测; 2. 基于新闻的交易策略基准; 3.金融领域适配。

  • 下载地址:https://github.com/Zhihan1996/TradeTheEvent/tree/main/data

  • 论文地址:

    https://arxiv.org/pdf/2105.12825v2.pdf

4

WHAM! (WSJ0 Hipster Ambient Mixtures)

  • 发布方:

    三菱电机研究实验室·Whisper AI

  • 发布时间:

    2019

  • 简介:

    “WSJ0 Hipster Ambient Mixtures (WHAM!) 数据集将 wsj0-2mix 数据集中的每个双说话者混合与独特的噪声背景场景配对。它有一个名为 WHAMR! 的扩展,它还为语音信号添加了人工混响到背景噪音。噪音音频于 2018 年底在旧金山湾区的各个城市地点收集。环境主要包括餐馆、咖啡馆、酒吧和公园。音频是使用三脚架上的 Apogee Sennheiser 双耳麦克风录制的离地 1.0 到 1.5 米。”

  • 下载地址:https://renderme-360.github.io/; https://openxdlab.org.cn/home

  • 论文地址:https://arxiv.org/pdf/1907.01160v1.pdf

5

RenderMe-360

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-05-24

  • 简介:

    RenFace是一个大规模多视角人脸高清视频数据集,包含多样的人脸表情、丰富的细粒度发型发色,同时也包含音素均衡的说话视频。可应用于:2D/3D数字人脸生成、人脸重建捕捉等领域。

  • 下载地址:

    https://renderme-360.github.io/; https://openxdlab.org.cn/home

6

UrbanSound8K

  • 发布方:

    纽约大学城市科学与进步中心·纽约大学音乐与音频研究实验室

  • 发布时间:2014

  • 简介:

    “这个数据集包含来自 10 个类别的 8732 个城市声音的标记声音摘录 (<=4s):air_conditioner、car_horn、children_playing、dog_bark、drilling、enginge_idling、gun_shot、jackhammer、siren 和 street_music。这些类别来自城市声音分类法。有关数据集的详细说明及其编译方式,请参阅我们的论文。所有摘录均来自上传到 www.freesound.org 的现场录音。文件预先分类为十个文件夹(文件夹名为 fold1 “

  • 下载地址:https://urbansounddataset.weebly.com/urbansound8k.html

  • 论文地址:

    http://www.justinsalamon.com/uploads/4/3/9/4/4394963/salamon_urbansound_acmmm14.pdf

7

VCTK (CSTR VCTK Corpus)

  • 发布方:

    爱丁堡大学

  • 发布时间:

    2017   

  • 简介:

    这个 CSTR VCTK 语料库包含 110 位不同口音的英语使用者发出的语音数据。每位演讲者读出大约 400 个句子,这些句子选自报纸、彩虹段落和用于演讲口音档案的启发段落。经 Herald & Times Group 许可,报纸上的文字取自 Herald Glasgow。每个演讲者都有一组不同的报纸文本,这些文本是根据增加上下文和语音覆盖率的贪心算法选择的。文本选择算法的详细信息在以下论文中进行了描述:C. Veaux、J. Yamagishi 和 S. King,“语音库语料库:大型区域口音语音数据库的设计、收集和数据分析”,https:/ /doi.org/10.1109/ICSDA.2013.6709856。所有演讲者的彩虹段落和启发段落都是相同的。彩虹段落可以在英语档案的国际方言中找到:(http://web.ku.edu/~idea/readings/rainbow.htm)。启发段落与用于语音口音档案 (http://accent.gmu.edu) 的段落相同。可以在 http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf 找到语音口音档案的详细信息。所有语音数据均使用相同的录音设置进行录音:全向麦克风 (DPA 4035) 和带宽非常宽的小型振膜电容麦克风 (Sennheiser MKH 800),采样频率为 96kHz,24 位,半消声室为爱丁堡大学。 (但是,两个扬声器 p280 和 p315 在使用 MKH 800 进行录音时存在技术问题)。所有录音都转换为 16 位,下采样到 48 kHz,并手动结束。

  • 下载地址:

    https://datashare.is.ed.ac.uk/handle/10283/2651

  •  论文地址:

    https://arxiv.org/pdf/1609.03499.pdf

8

OpenNLPLab/FAVDBench

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-07-19

  • 简介:

    在CVPR2023中我们提出了精细化音视频描述任务(Fine-grained Audible Video Description, FAVD)该任务旨在提供有关可听视频的详细文本描述,包括每个对象的外观和空间位置、移动对象的动作以及视频中的声音。我们同是也为社区贡献了第一个精细化音视频描述数据集FAVDBench。对于每个视频片段,我们不仅提供一句话的视频概要,还提供4-6句描述视频的视觉细节和1-2个音频相关描述,且所有的标注都有中英文双语。

  • 下载地址:

    https://github.com/OpenNLPLab/FAVDBench

  • 论文地址:

    https://openaccess.thecvf.com/content/CVPR2023/html/Shen_Fine-Grained_Audible_Video_Description_CVPR_2023_paper.html

9

AISHELL-3

  • 发布方:

    北京希尔科技

  • 发布时间:2020

  • 简介:

    AISHELL-3 是一个大规模、高保真的多说话人普通话语料库,可用于训练多说话人文本到语音(TTS)系统。该语料库包含大约 85 小时的情绪中性录音,由 218 位以汉语为母语的人讲过,总共有 88035 条话语。它们的性别、年龄组和母语口音等辅助属性在语料库中被明确标记和提供。相应地,在录音的同时还提供了汉字级和拼音级的成绩单。通过专业的语音标注和严格的语调质量检测,词音转录准确率在98%以上。

  • 下载地址:

    http://www.aishelltech.com/aishell_3

  •  论文地址:

    https://arxiv.org/pdf/2010.11567v2.pdf

10

Speech Commands

  • 发布方:

    Google AI Research

  • 发布时间:

    2017-08-03

  • 简介:

    语音命令是一个语音单词的音频数据集,旨在帮助训练和评估关键字识别系统。该数据集 (1.4 GB) 65,000了30个短词的一秒钟长话语,由数千个不同的人提供,由公众通过AIY网站提供。这是一套一秒的。wav音频文件,每个文件都包含一个口语单词。这些单词来自一小部分命令,并由各种不同的说话者说出。音频文件会根据它们包含的单词组织到文件夹中,并且此数据集旨在帮助训练简单的机器学习模型。

  • 下载地址:

    https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html

  •  论文地址:

    https://arxiv.org/pdf/1804.03209v1.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年最强网络安全学习路线,详细到直接上清华的教材!

关键词&#xff1a;网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊&#xff0c;学习网络安全方向通常会有哪些问题前排提示&#xff1a;文末有CSDN官方认证Python入门资料包 &#xff01; 1、打基础时间太长 学基础花费很长时间&#xff0c;光语…

Redis内存管理

文章目录 Redis内存管理删除策略淘汰策略LRU算法 Redis内存管理 长期把Redis做缓存用&#xff0c;总有一天Redis内存总会满的。有没有思考过这个问题&#xff0c;Redis内存满了会怎么样&#xff1f;在redis.conf中把Redis内存设置为1个字节&#xff0c;做一个测试&#xff1a;…

【随机链表的复制】python刷题记录

R3-哈希表 参考k神题解 哈希表法&#xff1a; """ # Definition for a Node. class Node:def __init__(self, x: int, next: Node None, random: Node None):self.val int(x)self.next nextself.random random """class Solution:def copy…

“打破常规:评估八股文对工作的真正影响“

“八股文”在实际工作中是助力、阻力还是空谈&#xff1f; 作为现在各类大中小企业面试程序员时的必问内容&#xff0c;“八股文”似乎是很重要的存在。但“八股文”是否能在实际工作中发挥它“敲门砖”应有的作用呢&#xff1f;有IT人士不禁发出疑问&#xff1a;程序员面试考什…

基于深度学习的结肠炎严重度诊断

基于深度学习的结肠炎严重度诊断 本文所涉及所有资源均在传知代码平台可获取 文章目录 基于深度学习的结肠炎严重度诊断1.概述1.1 数据集展示1.2 Resnet50介绍1.2.1结构与特点1.2.2关键优势1.2.3总结 2.创新点3.结果可视化展示结果展示4.核心逻辑5.部署及使用方式5.1 环境配置5…

彻底搞清楚SSR同构渲染的首屏

作为.NET技术栈的全干工程师&#xff0c;Blazor、Vue/Nuxt.js和React/Next.js都会接触到。它们&#xff08;准确的说是Blazor、Nuxt和Next&#xff09;&#xff0c;都实现了SSR同构渲染。要了解同构渲染&#xff0c;需要从服务端渲染开始。 传统的服务端渲染 如下图所示&…

开放式耳机什么牌子的好?看这6大品牌就够了

移动互联网时代&#xff0c;听歌、追剧、网课、短视频……这几年全球青年人对于耳机和耳朵的依赖程度&#xff0c;可谓前所未有的提升。但选择一款好的耳机&#xff0c;也不是一件容易的事&#xff0c;入耳式耳机戴久了耳道会疼&#xff0c;还可能引起一系列不必要的炎症&#…

【C语言】C语言期末突击/考研--数据的类型

目录 一、编程环境的搭建 二、数据的类型、数据的输入输出 2.1.数据类型 2.2.常量 2.3.变量 2.4.整型数据 2.4.1.符号常量 2.4.2.整型变量 2.5.浮点型数据 2.5.1.浮点型常量 2.5.2.浮点型变量 2.6.字符型数据 2.6.1字符型常量 2.6.2.字符数据在内存中的存储形式及…

Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/3(含分析过程)

Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/3&#xff08;含分析过程&#xff09; 目录 Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/3&#xff08;含分析过程&#xff09; 一、简单介绍 二、机器学习 1、为什么使用机器学习&a…

react antd upload custom request处理多个文件上传

react antd upload custom request处理多个文件上传的问题 背景&#xff1a;第一次请求需要请求后端返回aws 一个link&#xff0c;再往link push文件&#xff0c;再调用另一个接口告诉后端已经上传成功&#xff0c;拿到返回值。 再把返回值传给业务api... 多文件上传一直是循环…

字体表绘制的理解

下载字体到项目根目录下&#xff0c;我们通过一些在写预览本地字体的网站&#xff0c;简单看一下 通过图片不难看出阴书与原文的对应关系&#xff0c;接下来通过程序去完成这一过程&#xff0c;通过 fonttools 处理 ttf&#xff0c;然后获取字体和文字对应的 xml 文件 下面简单…

分布式SQL查询引擎之ByConity

ByConity 是字节跳动面向现代数据栈的一款开源数仓系统&#xff0c;应用了大量数据库成熟技术&#xff0c;如列存引擎&#xff0c;MPP 执行&#xff0c;智能查询优化&#xff0c;向量化执行&#xff0c;Codegen&#xff0c;indexing&#xff0c;数据压缩&#xff0c;适合用于 O…

线程池和进程池,输出有区别吗?

from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor def fn(name):for i in range(1000):print(name,i)if __name__ __main__:with ThreadPoolExecutor(10) as t:for i in range(100):t.submit(fn,namef"线程{i}")with ProcessPoolExecutor(10…

艾体宝干货 | 如何分析关键网络性能指标?持续接收样品试用申请!

网络性能是企业顺利运营的重要基础&#xff0c;而Allegro流量分析仪作为一款强大的网络性能分析工具&#xff0c;为企业提供了深入了解网络运行状况的途径。在本文中&#xff0c;我们将探讨如何利用Allegro 流量分析仪分析关键网络性能指标&#xff0c;以优化网络性能、提高安全…

【综合案例】使用DevEco Studio编写京东登录界面

效果展示 模块拆分 布局容器 顶部 Logo输入框登录区域底部模块区域 知识点 复选框 Checkbox一段文本多个样式&#xff1a;Text 包裹 SpanRow 或 Column 空白区域填充&#xff1a;Blank线性渐变背景&#xff1a; .linearGradient({angle: 135, // 设置颜色渐变起始角度为顺时针…

BUGKU-WEB-文件包含

解题思路 你说啥我就干啥&#xff1a;点击一下试试你会想到PHP伪协议这方面去嘛&#xff0c;你有这方面的知识储备吗&#xff1f;看到?fileXXX.php&#xff0c;那不就是典型的文件包含吗&#xff1f;这里需要用的一个伪协议php://filter:是一种元封装器&#xff0c; 设计用于…

Python学习计划——7.2数据可视化

数据可视化是数据分析的重要组成部分&#xff0c;通过图表和图形将数据直观地展示出来&#xff0c;帮助我们发现数据中的模式和趋势。Python中常用的数据可视化库有matplotlib和seaborn。以下是对这些库的详细讲解及可运行的Python案例。 1. matplotlib 库 matplotlib 是一个…

RuntimeError: TensorRT currently only builds wheels for x86_64 processors

jetson 板卡似乎不能直接使用pip安装tensorrt&#xff0c;可以通过以下方式进行安装 在官网下载对应的tensorrt包 Log in | NVIDIA Developer 在包里面有python库 pip install 对应python版本的库 安装完成之后在终端 import tensorrt 测试是否安装成功

ubuntu 查找文件find

find -name xxx 查找当前路径下名字为xxx的文件 find . -name xxx 查找当前路径下名字为 train_logs的文件 find . -name train_logs 具体说明 【Ubuntu】find命令_ubuntu find命令-CSDN博客 其中&#xff0c;路径 指定要搜索的目录路径&#xff0c;而 表达式 用于指定匹配条…

单片机外围设备-TFTLCD

stm32f103zet6的fsmc接口实现 8080 时序驱动tftlcd显示&#xff0c;驱动IC是ILI9341。 1、什么是FSMC? FSMC (flexible static memory controller)灵活的静态存储控制器&#xff0c;可以驱动SRAM、 NAND FLASH、 NOR FLASH 和 PSRAM 等存储器。 1、1fsmc框图 1、2fsmc外部设…