【深度学习】机器学习\深度学习常见相关公开数据集汇总(图像处理相关数据集、自然语言处理相关数据集、语音处理相关数据集)

news2024/10/4 17:25:40

一、前言

1. 介绍

常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。

然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。

如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。

在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果(SOTA)的论文,供您浏览并改进您的模型。

2. 如何使用这些数据集?

首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。

有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!

数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。如下:

二、图像处理相关数据集

1. MNIST:

在这里插入图片描述

  • 官网:http://yann.lecun.com/exdb/mnist/

  • MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。

  • 大小: 约50 MB

  • 数量: 10个类别,70,000张图片

  • SOTA:Dynamic Routing Between Capsules

2. MS-COCO

在这里插入图片描述

  • COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点:

    • 目标分割
    • 上下文关系识别
    • 超像素分割
    • 330K图像(> 200K已标记)
    • 150万个目标
    • 80个分类
    • 91种目标
    • 每张图片5个字幕
    • 包含250,000个人(已标记)
  • 官网:https://cocodataset.org/

  • 大小:约25 GB(压缩包)

  • 数量: 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)

  • SOTA: Mask R-CNN

3. ImageNet

在这里插入图片描述

  • ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。

  • 官网:http://www.image-net.org/

  • 大小:约150GB

  • 数量:图像总数约1,500,000; 每个都有多个边界框和相应的类标签。

  • SOTA: Aggregated Residual Transformations for Deep Neural Networks

4.Open Images Dataset

在这里插入图片描述

  • Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。

  • 官网:https://github.com/openimages/dataset

  • 大小: 500 GB(压缩包)

  • 数量: 9,011,219张超过5k标签的图像

  • SOTA: Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.

5.VisualQA

在这里插入图片描述

  • VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:

    • 265,016张图片(COCO和抽象场景)
    • 每张图片至少有3个问题(平均5.4个问题)
    • 每个问题10个基本事实
    • 每个问题3个似乎合理(但可能不正确)的答案
    • 指标自动评估
  • 官网:http://www.visualqa.org/

  • 大小: 25 GB(压缩包)

  • 数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本事实

  • SOTA: Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6.The Street View House Numbers (SVHN)

在这里插入图片描述

  • 这是一个为训练目标检测算法而“真实”存在的一个图像数据集–来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。

  • 官网:http://www.visualqa.org/

  • 大小: 2.5 GB

  • 数量: 10个类别,共6,30,420张图片

  • SOTA:Distributional Smoothing With Virtual Adversarial Training

7.CIFAR-10

在这里插入图片描述

  • 这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。

  • 官网:http://www.cs.toronto.edu/~kriz/cifar.html

  • 大小:170 MB

  • 数量:10个类别,共60,000张图片

  • SOTA:ShakeDrop regularization

8.Fashion-MNIST

在这里插入图片描述

  • Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

  • 官网:https://github.com/zalandoresearch/fashion-mnist

  • 大小:30 MB

  • 数量:10个类,70,000张图片

  • SOTA:Random Erasing Data Augmentation

三、自然语言处理相关数据集

1.IMDB Reviews

  • 这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外,还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。

  • 官网:http://ai.stanford.edu/~amaas/data/sentiment/

  • 大小:80 MB

  • 数量:25,000条高质量影评用于训练,25,000条用于测试

  • SOTA:Learning Structured Text Representations

2.Twenty Newsgroups

  • 顾名思义,该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档,均匀的分布在20个不同的集合。这些文档具有新闻的典型特征:主题,作者和引述。

  • 官网:https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

  • 大小:20 MB

  • 数量:来自20个新闻组的20,000条消息

  • SOTA:Very Deep Convolutional Networks for Text Classification

3.Sentiment140

  • Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征:

    • 推文的感情色彩(polarity)
    • 推文的ID
    • 推文的日期
    • 查看记录
    • 推特(tweeter)的用户名
    • 推文的文本内容
    • 大小:80 MB(压缩包)
  • 数量:160,000条推文

  • 官网:http://help.sentiment140.com/for-students/

  • SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

4.WordNet

  • 在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。 Synsets是指同义词组,每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。

  • 官网:https://wordnet.princeton.edu/

  • 大小:10 MB

  • 数量:通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。

  • SOTA:Wordnets: State of the Art and Perspectives

5.Yelp Reviews

  • 这是Yelp(美国最大的点评网站)为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

  • 官网:https://www.yelp.com/dataset

  • 大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)

  • 数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市

  • SOTA:Attentive Convolution

6.The Wikipedia Corpus

  • 该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集–你可以通过单词,短语或段落来进行检索。

  • 官网:http://nlp.cs.nyu.edu/wikipedia-data/%22%20%5Ct%20%22https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/_blank

  • 大小:20 MB

  • 数量:4,400,000篇文章,19亿单词

  • SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

7.The Blog Authorship Corpus

  • 此数据集包含来自数千名博主的博文(收集自http://blogger.com)。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。

  • 官网:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm%22%20%5Ct%20%22https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/_blank

  • 大小:300 MB

  • 数量:681,288博文,超过1.4亿单词

  • SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

8.Machine Translation of Various Languages

  • 该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:

    • 英汉和汉英
    • 英语 - 捷克语和捷克语 - 英语
    • 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
    • 英语 - 芬兰语和芬兰语 - 英语
    • 英语 - 德语和德语 - 英语
    • 英语 - 哈萨克语和哈萨克语 - 英语
    • 英文 - 俄文和俄文 - 英文
    • 英语 - 土耳其语和土耳其语 - 英语
  • 大小:约15 GB

  • 官网:http://statmt.org/wmt18/index.html

  • 数量:约30,000,000个句子及其翻译

  • SOTA:Attention Is All You Need

四、语音处理相关数据集

1.Free Spoken Digit Dataset

  • 此列表中的另一个与MNIST数据集相似的数据集!为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集,并且希望随着人们贡献更多样本来获得持续增长。目前,它包含以下特点:

    • 3个录音者
    • 1500条录音(每个人每个数字50遍)
    • 英式发音
  • 大小:10 MB

  • 官网:https://github.com/Jakobovski/free-spoken-digit-dataset

  • 数量:1500条音频

  • SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

2.Free Music Archive (FMA)

  • FMA是一个音乐分析数据集。数据集由音频(full-length and HQ),预先计算的特征( pre-computed features)以及音轨和用户级元数据(metadata)组成。它是一个公开数据集,用来评估MIR中的多项任务。以下是其包含的csv文件列表:

    • tracks.csv:包含所有(106,574首)曲目的基本信息–ID,标题,艺术家,流派,标签和播放次数。

    • genres.csv:163种流派的ID(包含名称和之间的关系)

    • features.csv:基本特征(使用librosa提取)。

    • echonest.csv:由Echonest(现在的Spotify)为13129首曲目提供的音频特征。

  • 大小:约1000 GB

  • 官网:https://github.com/mdeff/fma

  • 数量:约100,000曲目(tracks)

  • SOTA:Learning to Recognize Musical Genre from Audio

3.Ballroom

  • 该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点:

    • 总数:698
    • 单个时长:约30秒
    • 总时长:约20940秒
  • 大小:14GB(压缩)

  • 官网:http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

  • 数量:约700个音频样本

  • SOTA: A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

4.Million Song Dataset

在这里插入图片描述

  • 百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是:

    • 鼓励对扩展到商业规模的算法进行研究
    • 为评估研究提供参考数据集
    • 作为使用API创建大型数据集的替代方法(e.g. The Echo Nest)
    • 帮助新研究人员在MIR领域开始工作
    • 数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。
  • 大小:280 GB

  • 官网:https://labrosa.ee.columbia.edu/millionsong/

  • 代码:https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital

  • 数量:一百万首歌曲哦!

  • SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

5.LibriSpeech

  • 该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在kaldi-asr.org和语言模型上进行了训练且适合评估),网址为http://www.openslr.org/11/ 。

  • 官网:http://www.openslr.org/12/

  • 大小:约60 GB

  • 数量:1000小时音频

  • SOTA: Letter-Based Speech Recognition with Gated ConvNets

6.VoxCeleb

  • VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用–区分和识别超级巨星。

  • 大小:150 MB

  • 数量:1,251位名人的100,000条话语

  • SOTA:VoxCeleb: a large-scale speaker identification dataset

五、Supplement

为了帮助练习,我们还提供了来自DataHack平台,三个更贴近生活的题目(包含问题+数据集)供练手。当然,肯定是深度学习相关,如下:

1.Twitter Sentiment Analysis

  • 含有种族主义和性别歧视言论的推文的处理已成为twitter的难题,那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中,我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。

  • 官网:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

  • 大小:3 MB

  • 数量:31,962条推文

2.Age Detection of Indian Actors

  • 对于任何深度学习爱好者来说,这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成,你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的,这致使尺度,姿态,表情,亮度(illumination),年龄,分辨率,遮挡和妆容具有高度可变性。

  • 官网:https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

  • 大小:48 MB(压缩包)

  • 数量:训练集19,906幅图像和测试集6636幅图像

  • SOTA: Hands on with Deep Learning – Solution for Age Detection Practice Problem

3.Urban Sound Classification

  • 这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。

  • 官网:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

  • 大小:训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)

  • 数量:10个类别,8732个城市声音片段(单个片段时长<= 4s,已标注)

结束语

如果您知道其他公开数据集,可以告诉我们(说明推荐原因、详细用途等等)。

如果理由充分,我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/136646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超声波测距传感器认知

目录 一、超声波测距传感器认知 二、从零编程实现超声波测距 三、项目——感应开关盖垃圾桶 1、开发步骤 2、感应开关盖垃圾桶代码测试 一、超声波测距传感器认知 超声波测距模块是用来测量距离的一种产品&#xff0c;通过发送和接收超声波&#xff0c;利用时间差和声音…

【网络】udp_socket编程

目录 1.认识端口号 1.1 理解端口号和进程ID 1.2 理解源端口号和目的端口号 2.认识TCP协议 3.认识UDP协议 4.网络字节序 5.socket编程接口 5.1socket常见API 5.2sockaddr结构 sockaddr结构 sockaddr_in 结构 in_addr结构 6.简单的UDP网络程序 6.1创建套接字 6.2 …

【Docker】三 镜像容器常用命令

这里写目录标题1 配置镜像加速器2 Docker镜像常用命令2.1 搜索镜像2.2 下载镜像[重要]2.3 列出镜像[重要]2.3 删除本地镜像[重要]2.4 保存镜像2.5 加载镜像2.6 构建镜像[重要]3 容器常用命令3.1 新建并启动容器[重要]3.2 列出容器[重要]3.3 停止容器[重要]3.4 强制停止容器[重要…

你可以不用Git,但不能不会Git(三)基础(下)

目录 一.将文件添加至忽略列 二.日志记录操作 三.比较文件差异 四.还原文件 一.将文件添加至忽略列 一般我们总会有些文件无需纳入Git的管理&#xff0c;也不希望它们总出现在未跟踪文件列表。通常都是些自动生成的文件&#xff0c;比如日志文件&#xff0c;或者编译过程中…

重学 Java 设计模式-结构型模式-适配器模式

重学 Java 设计模式-结构型模式-适配器模式 内容摘自&#xff1a;添加链接描述 适配器模式介绍 图片来自&#xff1a;https://refactoringguru.cn/design-patterns/adapter(opens new window) 适配器模式的主要作用就是把原本不兼容的接口&#xff0c;通过适配修改做到统一。…

canva绘制(二次、三次)贝塞尔曲线并且图片在曲线上运动

下图为实现效果&#xff08;图片在三次贝塞尔曲线中运动&#xff09; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"…

Spring之注解开发

目录 一&#xff1a;Bean基本注解开发 二&#xff1a;Bean依赖注入注解开发 三&#xff1a;非自定义Bean注解开发 四&#xff1a;Bean配置类的注解开发 五&#xff1a;Spring配置其他注解 六&#xff1a;Spring注解的解析原理 一&#xff1a;Bean基本注解开发 Spring除了…

【区块链】区块链技术学习总结

文章目录一、区块链技术简介1.1 区块链概念1.2 区块链应用1.2.1 区块链1.0技术&#xff1a;比特币1.2.2 区块链2.0技术&#xff1a;以太坊1.2.3 区块链3.0技术&#xff1a;价值互联网二、区块链1.0技术比特币2.1 比特币2.1.1 比特币概念2.1.2 比特币性质2.1.3 比特币解决的问题…

Springboot扩展点之BeanDefinitionRegistryPostProcessor

前言通过这篇文章来大家分享一下&#xff0c;另外一个Springboot的扩展点BeanDefinitionRegistryPostProcessor&#xff0c;一般称这类扩展点为容器级后置处理器&#xff0c;另外一类是Bean级的后置处理器&#xff1b;容器级的后置处理器会在Spring容器初始化后、刷新前这个时间…

第二章 chrony服务器

文章目录第二章 chrony服务器1.1安装与配置1.2同步网络时间服务器1.3 配置时间服务器1.4 chronyc 命令1.5常见时区课后练习第一题&#xff1a;第一台机器从阿里云同步时间&#xff0c;第二台机器从第一台机器同步时间第二题&#xff1a;第一台服务器使用系统时间作为第二台服务…

jetson nano GPIO控制说明

文章目录一.GPIO介绍二.安装GPIO库python库C库三.几种常用的通信协议UARTPWMI2CI2SSPI四.控制函数说明python&#xff08;[参考](https://pypi.org/project/Jetson.GPIO/)&#xff09;C五.例程一.GPIO介绍 GPIO&#xff08;General Purpose Input Output&#xff09;通用输入输…

干货 | Web自动化测试中显式等待与隐式等待该怎么用?

在实际工作中等待机制可以保证代码的稳定性&#xff0c;保证代码不会受网速、电脑性能等条件的约束。等待就是当运行代码时&#xff0c;如果页面的渲染速度跟不上代码的运行速度&#xff0c;就需要人为的去限制代码执行的速度。在做 Web 自动化时&#xff0c;一般要等待页面元素…

高压放大器在电子束增材制造聚焦消像散控制技术研究的应用

实验名称&#xff1a;高压放大器在电子束增材制造聚焦消像散控制技术研究的应用 研究方向&#xff1a;增材制造 实验目的&#xff1a; 电子束选区熔化技术&#xff0c;即电子束3D打印技术&#xff0c;属于金属增材制造的分支。该技术以电子束为热源&#xff0c;在计算机控制下以…

华为防火墙配置笔记

防火墙&#xff08;Firewall&#xff09;也称防护墙&#xff0c;是由Check Point创立者Gil Shwed于1993年发明并引入国际互联网&#xff08;US5606668&#xff08;A&#xff09;1993-12-15&#xff09;防火墙是位于内部网和外部网之间的屏障&#xff0c;它按照系统管理员预先定…

实战工作十年的Code Review方法论与实践总结

作为卓越工程文化的一部分&#xff0c;Code Review其实一直在进行中&#xff0c;只是各团队根据自身情况张驰有度&#xff0c;松紧可能也不一&#xff0c;这里简单梳理一下CR的方法和团队实践。 一、为什么要CR 提前发现缺陷 在CodeReview阶段发现的逻辑错误、业务理解偏差、…

CleanMyMac2023Mac下载排行最好的清理工具

CleanMyMac是Mac清理工具&#xff0c;具有很多功能。例如‬&#xff0c;删除大量不可见的缓存文件&#xff0c;可以批量删除未使用的DMG、不完整的下载以及其余的旧包。不过由于MAC系统不像windows那样会产生缓存或系统垃圾&#xff0c; 使用Win电脑很多人会下载各类系统优化软…

MQ面试题总结

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;Java面试题…

【流行框架】Zookeeper

&#x1f31f;个人博客&#xff1a;www.hellocode.top&#x1f31f; &#x1f31f;Java知识导航&#xff1a;Java-Navigate&#x1f31f; ⭐想获得更好的阅读体验请前往Java-Navigate &#x1f525;本文专栏&#xff1a;《流行框架》 &#x1f31e;如没有JavaWEB基础&#xff0…

Linux文件目录结构详解

Linux文件目录结构 Linux文件系统是采用级层式的树状目录结构&#xff0c;在此结构中的最上层是根目录“/”&#xff0c;然后在此目录下再创建其他的目录 Linux系统下一切硬件皆文件 具体的目录结构 /bin ->存放最经常使用的指令/sbin ->存放系统管理员使用的系统管理…

从Redis、HTTP协议,看Nett协议设计,我发现了个惊天大秘密

1. 协议的作用 TCP/IP 中消息传输基于流的方式&#xff0c;没有边界 协议的目的就是划定消息的边界&#xff0c;制定通信双方要共同遵守的通信规则 2. Redis 协议 如果我们要向 Redis 服务器发送一条 set name Nyima 的指令&#xff0c;需要遵守如下协议 // 该指令一共有3…