20用于深度学习训练和研究的数据集

news2024/12/24 0:38:56

数据集在计算机科学和数据科学中发挥着至关重要的作用。它们用于训练和评估机器学习模型,研究和开发新算法,改进数据质量,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。数据集提供了丰富的信息,用于理解和应用数据,从而支持各种应用领域,包括医疗、金融、交通、社交媒体等。正确选择和处理数据集是确保数据驱动应用成功的关键因素,对于创新和解决复杂问题至关重要。因此,数据集不仅是技术发展的基础,也是推动科学进步和社会决策制定的强大工具。

无论是图像识别,自然语言处理,医疗保健还是任何其他人工智能领域感兴趣,这些数据集都是非常重要的,所以本文将整理常用且有效的20个数据集。

MNIST:这是用于图像识别任务的经典数据集,包含从0到9的手写数字图像,可以说它是图像识别的Hello World

CIFAR-10:另一个流行的图像识别数据集CIFAR-10包含10种不同类别的对象,如飞机、汽车和动物。

ImageNet:最大的图像识别数据集之一,ImageNet包含超过22,000个类别的数百万标记图像。

COCO:这个数据集通常用于对象检测任务,包含超过30万张图像和超过200万个对象实例,标记在80个类别中。

cityscape:用于自动驾驶任务的数据集,cityscape包含来自各个城市的街道场景,并对汽车、行人和建筑物等对象进行了像素级注释。

Pascal VOC:另一个流行的对象检测数据集Pascal VOC包含来自现实世界场景的图像,这些图像带有对象边界框和对象类标签。

WikiText:一个大规模的语言建模数据集,包含来自维基百科文章的超过1亿个令牌。如果将Penn Treebank与WikiText-2进行比较,后者的规模和数量几乎是前者的两倍。相比之下,WikiText -103比其他版本大110倍。

Penn Treebank:一个广泛用于自然语言处理任务的数据集,Penn Treebank包含来自华尔街日报的解析文本。

以下是这两个数据集的比较:

SNLI:斯坦福自然语言推理数据集包含570,000个标记为蕴涵,矛盾或中立的句子对。它支持自然语言推理系统,也可以称为RTE(识别文本蕴涵)。

SQuAD:斯坦福问答数据集包含维基百科文章中提出的问题,以及相应的答案文本跨度。

MIMIC-III: MIMIC-III是一个大型电子健康记录数据集,包含来自40,000多名患者的各种临床记录和诊断数据。

Fashion-MNIST: MNIST数据集的一个变体,Fashion-MNIST包含服装项目的图像,而不是手写数字。Fashion-MNIST数据集包含Zalando的服装图像,其中包括60,000个训练样本和10,000个测试样本。

CelebA:包含年龄、性别和面部表情等属性的名人面部数据集。该数据集帮助各种应用程序验证面部识别作为其安全系统。本数据集的原始数据由香港的MMLAB发布。

Kinetics:一个人类动作识别的数据集,Kinetics包含超过50,000个视频剪辑,其中包括人们进行各种动作,如散步,跑步和跳舞。每个视频剪辑的持续时间为10秒,突出显示了600组人类动作。

Open Images:一个用于对象检测任务的大规模数据集,Open Images包含数百万张带有600多个对象类别注释的图像。

LJSpeech:一个用于文本到语音合成的数据集,LJSpeech包含131000个单个说话者朗读报纸上句子的短音频记录。演讲者从7本非虚构的书中摘录了部分内容。

librispeech :一个用于语音识别任务的数据集,librispeech 包含了超过1000小时的录音,是LibriVox有声读物的一部分,带有相应的转录本。

AudioSet:一个音频事件识别的数据集,AudioSet包含了超过527类声音的录音。这些声音片段的持续时间为10秒。它是通过使用youtube元数据和基于研究的内容来组织的。

NSynth:一个用于乐器合成的数据集,NSynth包含各种乐器的录音,具有相应的音高和音色信息。它是由1006种乐器组合而成的一组曲子,共产生305979首优美的曲子。

Chess:用于国际象棋比赛预测的数据集,包含来自数千场比赛的数据,其中包含玩家评级和棋子移动序列等信息。

数据集在数据科学和人工智能领域中是不可或缺的工具,它们为模型的训练和评估、问题的解决以及科学研究提供了基础数据。选择适当的数据集并进行有效的数据处理和分析是确保数据驱动应用程序成功的重要一步。

https://avoid.overfit.cn/post/8e58a98d26f04a00811257aebdd3e931

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/962939.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

13 mysql date/time/datetime/year 的数据存储

前言 这里主要是 由于之前的一个 datetime 存储的时间 导致的问题的衍生出来的探究 探究的主要内容为 int 类类型的存储, 浮点类类型的存储, char 类类型的存储, blob 类类型的存储, enum/json/set/bit 类类型的存储 本文主要 的相关内容是 datetime/date/time/year 类类型…

RNN 单元:分析 GRU 方程与 LSTM,以及何时选择 RNN 而不是变压器

一、说明 深度学习往往感觉像是在雪山上找到自己的道路。拥有坚实的原则会让你对做出决定更有信心。我们都去过那里 在上一篇文章中,我们彻底介绍并检查了 LSTM 单元的各个方面。有人可能会争辩说,RNN方法已经过时了,研究它们是没有意义的。的…

如何增强客户支持?用全渠道聊天机器人

您的用户在哪里?您是否想拥有源源不断的客户?全渠道聊天机器人可确保您在他们需要的地方为他们提供一致的客户支持! 自技术出现以来,消费者行为已经完全改变。这意味着企业与用户互动和提供客户支持的方式也发生了变化。现在&…

Spring 系统架构

Spring总共大约有 20个模块,由1300多个不同的文件构成。而这些组件被分别整合在核心容器(CoreContainer)、AOP(Aspect Oriented Programming)和设备支持(Instrmentation)、数据访问及集成&#…

文心一言放出的“时代礼物”,藏着中国科技的黄金机会

8月31日,第一批国产大模型通过了“生成式人工智能备案”,可以开放公众服务。 一石激起千层浪,对AIGC强烈好奇,为国产应用疯狂打call,文心一言对话刷屏朋友圈,普通人和科技圈都嗨翻了。 不到24小时&#xff…

硬件SPI口扩展

在工控板设计中,经常会遇到扩展IO。具有相同的功能电路板接口相同,所以很容易采用排线方式连接到CPU主控板上,这种排线连接,我称之为总线。 现在的CPU引脚多,不扩展IO,使用模拟SPI,也可以实现&…

【力扣每日一题】2023.9.2 最多可以摧毁的敌人城堡数量

目录 题目: 示例: 分析: 代码: 题目: 示例: 分析: 这道题难在阅读理解,题目看得我匪夷所思,错了好多个测试用例才明白题目说的是什么。 我简单翻译一下就是寻找1和…

15000字、6个代码案例、5个原理图让你彻底搞懂Synchronized

Synchronized 本篇文章将围绕synchronized关键字,使用大量图片、案例深入浅出的描述CAS、synchronized Java层面和C层面的实现、锁升级的原理、源码等 大概观看时间17分钟 可以带着几个问题去查看本文,如果认真看完,问题都会迎刃而解&…

03_nodjs_npm的使用

03 【npm的使用】 1.包和npm 1.1 什么是包 由于 Node 是一套轻内核的平台,虽然提供了一系列的内置模块,但是不足以满足开发者的需求,于是乎出现了包(package)的概念: 与核心模块类似,就是将一…

[学习笔记]斜率优化dp 总结

前言: 我们学过不少优化类的算法了,大部分都是基于凸函数的性质给出的优化,比如Slope Trick,Wqs二分,又比如今天的斜率优化(不知道什么时候会有空把Slope Trick写掉) 正文: 我们考…

这个在线网站让你三分钟制作出一份精美简历

今天,我要向大家推荐一个神奇的在线工具网站,它能够提供免费简历模板、简历范文,支持在线编辑,并且一键下载为PDF。这个工具让你的简历制作变得轻松便捷! 首先,这个网站的简历模板非常丰富多样。无论你是刚…

bazel构建原理

调度模型 传统构建系统有很多是基于任务的,例如 Ant,Maven,Gradle。用户可以自定义"任务"(Task),例如执行一段 shell 脚本。用户配置它们的依赖关系,构建系统则按照顺序调度。 基于 Task 的调度…

揭秘亚马逊Amazon测评,掌握细节和技巧,提升产品销量和评论数量

亚马逊是全球最大的跨境电商平台,拥有全球65个国家的几十个网站。对于跨境卖家来说,亚马逊是最值得选择的平台之一。 亚马逊的八大站点分别是美国、加拿大、墨西哥、欧洲、澳大利亚、日本、中东和巴西。 美国站点是全球最大的零售市场,拥有…

区块链实验室(18) - 用FISCO BCOS架设1个无标度网络

FISCO技术文档提供1个4节点的网络案例,这4个节点构成1个强连通图。强连通图在现实中通常是不存在的。 本文用FISCO架设1个网络,该网络由100个节点构成1个无标度(scale free)网络,如下图所示。 1 用FISCO工具构建1个100节点的初始网络 FISCO提…

Jenkins java8安装版本安装

一、首先准备Jenkins、Jdk8、Tomcat9安装包 根据Jenkins官网介绍,Jenkins支持Java8的版本如下: 我们选择2.164版本进行安装,根据版本号支持输入下载地址:https://archives.jenkins.io/war/2.164/jenkins.war,进行下载…

【牛客网题目】合并两个排序的链表

目录 描述 题目分析 描述 输入两个递增的链表,单个链表的长度为n,合并这两个链表并使新链表中的节点仍然是递增排序的。 数据范围:0≤n≤1000,1000≤节点值≤1000 要求:空间复杂度 O(1),时间复杂…

为什么我说 90% 的技术人搞副业都会失败?!

见字如面,我是军哥! 这几天有多位程序员读者请教我,如何搞副业?并且有一位已经搞了半年了,涨粉困难,这小伙子大概工作 2 年的样子,所在的公司算中等二线大厂吧。 我把和他们聊的内容总结了一下&…

vscode调教配置:快捷修复和格式化代码

配置vscode快捷键,让你像使用idea一样使用vscode,我们最常用的两个功能就是格式化代码和快捷修复,所以这里修改一下快捷修复和格式化代码的快捷键。 在设置中,找到快捷键配置: 然后搜索:快捷修复 在快捷键…

分库分表篇-1 分库分表介绍

文章目录 前言一、为什么要分库分表?二、分库分表的策略:2.1 垂直切分:2.2.1 垂直分库:2.2.2 垂直分表:2.2.3 垂直拆分的优缺点: 2.2 水平切分:2.2.1 库内分表:2.2.2 分库分表:2.2.3 水平切分优缺点: 三、分…

04-MySQL02

1、什么是索引下推? 索引下推(index condition pushdown )简称ICP,在Mysql5.6的版本上推出,用于优化查询。 需求: 查询users表中 "名字第一个字是张,年龄为10岁的所有记录"。 SELECT * FROM u…