【人工智能】数据集合集!

news2024/12/22 11:02:16

本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

点击蓝字

关注我们

1

Habitat Platform

  • 发布方:

    Facebook AI Research·西蒙菲莎大学·佐治亚理工学院·Facebook Reality Labs·Intel Labs·University of California, Berkeley

  • 发布时间:

    2019

  • 简介:

    具身人工智能 (AI) 研究平台。

  • 下载地址:

    https://github.com/facebookresearch/habitat-api/tree/ec9557a3623991208a80f836fe557f8028209297

  • 论文地址:

    https://arxiv.org/pdf/1904.01201v2.pdf

2

InFashAIv1

  • 发布方:

    Ai4Innov

  • 发布时间:

    2021

  • 简介:

    对于时尚领域的包容性人工智能,并确保非洲时尚能够从人工智能的潜力中受益,Ai4Innov 发起了包容性时尚人工智能项目 (InFashAI),该项目旨在创建更能代表存在于时尚界。我们将首先专注于建立大量有关非洲时尚的数据。该数据集将逐步开源,我们希望,它将成为适应非洲时尚InFashAIv1 数据集的人工智能工具的支柱,该数据集包含近 16.000 个非洲时尚商品图像及其标题、价格和一般描述。

  • 下载地址:

    https://github.com/hgilles06/infashai

  • 论文地址:

    https://arxiv.org/pdf/2106.12154v3.pdf

3

Cross-Modal Comments Dataset

  • 发布方:

    北京邮电大学·北京大学

  • 发布时间:

    2019

  • 简介:

    跨模态自动评论(CMAC)是我们论文中提出的一项新任务,旨在自动生成图片新闻的评论。在这项任务中,人工智能模型需要整合来自新闻图像和新闻文章的信息,并针对视觉和文本内容生成合理的评论。

  • 下载地址:

    https://github.com/lancopku/CMAC

  • 论文地址:

    https://aclanthology.org/P19-1257.pdf

4

AI2-THOR

  • 发布方:

    卡内基梅隆大学·斯坦福大学·华盛顿大学·艾伦人工智能研究所

  • 发布时间:

    2017

  • 简介:

    AI2-Thor 是具身人工智能的交互式环境。它包含厨房、客厅、卧室和浴室四种场景,每个场景包括30个房间,每个房间在家具摆放和物品类型上都是独一无二的。有超过 2000 个独特的对象可供 AI 代理与之交互。

  • 下载地址:

    https://ai2thor.allenai.org/

  • 论文地址:

    https://arxiv.org/pdf/1712.05474v3.pdf

5

AI2D-RST

  • 发布方:

    Unknown

  • 发布时间:

    2020-06-01

  • 简介:

    AI2D-RST 是一个包含 1000 个英语图表的多模态语料库,代表小学自然科学的主题,例如食物网、生命周期、月相和人体生理学。该语料库基于艾伦人工智能图研究所 (AI2D) 数据集,这是一组具有众包描述的图表,最初是为了支持自动图表理解和视觉问答的研究而开发的。

  • 下载地址:

    http://urn.fi/urn:nbn:fi:lb-2020060101

  • 论文地址:

    https://arxiv.org/pdf/1912.03879v2.pdf

6

ProtoQA

  • 发布方:

    马萨诸塞大学

  • 发布时间:

    2020

  • 简介:

    ProtoQA 是一个问答数据集,用于在这种原型情况下训练和评估人工智能系统的常识推理能力。训练集是从一个长期运行的国际游戏节目 FAMILY-FEUD 中播放的一组现有问题中收集的。隐藏评估集是通过收集来自 100 名群众工作者的每个问题的答案而创建的。

  • 下载地址:

    https://github.com/iesl/protoqa-data

  • 论文地址:

    https://arxiv.org/pdf/2005.00771v3.pdf

7

LARC (Language-annotated Abstraction and Reasoning)

  • 发布方:

    麻省理工学院·Autodesk Research

  • 发布时间:

    2021

  • 简介:

    LARC是从ARC (抽象和推理语料库) 构建的数据集。ARC是一组任务,用于测试代理灵活解决新问题的能力。虽然大多数ARC任务对人类来说都很容易,但对最先进的人工智能来说却是一个挑战。 LARC或带有语言注释的ARC是一组人类参与者的自然语言描述的集合,这些参与者既不熟悉ARC又彼此不熟悉,他们互相指导如何解决ARC任务。LARC包含88% ARC任务的成功说明。

  • 下载地址:

    https://github.com/samacqua/LARC

  • 论文地址:

    https://arxiv.org/pdf/2106.07824v2.pdf

8

Visual Genome Dataset V1.2

  • 发布方:

    斯坦福大学·德累斯顿工业大学·Snapchat Inc.·雅虎

  • 发布时间:

    2016-08-29

  • 简介:

    视觉基因组是与图像和图像内容的语义信息相关的数据集。与ImageNet图像标注数据集相比,具有更丰富的语义信息,用于扩展基于图像和语义信息的人工智能应用。 该数据集目前包含 108,249 张图像、420 万个区域内容描述、170 万个图像内容问答、210 万个对象案例、180 万个属性和 180 万个关系。

    该数据集于 2015 年由斯坦福大学首次发布,随后是 2016 年的 1.2 和 2017 年的 1.4。

  • 下载地址:

    http://visualgenome.org/api/v0/api_home.html

9

KVQA (Knowledge-aware VQA)

  • 发布方:

    印度理工学院·印度科学理工学院

  • 发布时间:

    2019

  • 简介:

    KVQA 由 183K 问答对组成,涉及超过 18K 的命名实体和 24K 图像。该数据集中的问题需要在大型知识图 (KG) 上进行多实体、多关系和多跳推理才能得出答案。据我们所知,KVQA 是探索 VQA over KG 的最大数据集。此外,我们还在 KVQA 上使用最先进的方法提供基准性能。我们坚信,KVQA 将催生跨越视觉、语言、知识图谱和更广泛的人工智能领域的新研究途径。

  • 下载地址:

    https://malllabiisc.github.io/resources/kvqa/

  • 论文地址:

    http://dosa.cds.iisc.ac.in/kvqa/KVQA-AAAI2019.pdf

10

WuDaoMM

  • 发布方:

    清华大学·北京智源人工智能研究院

  • 发布时间:

    2022

  • 简介:

    Wutaomm是北京智源人工智能研究院wutaocalpora开源数据集的一部分。去年,我们开源了全球最大的中文文本数据集,其中包括5TB的预训练文本数据。今年开源的wutaomm是图像和文本的多模态预训练数据。完整的数据集包含6.5亿对图像和文本。它为大规模的中国多模态预训练模型如Wenlan和Cogview提供了数据支持。数据集包含几千万对的强相关数据和6亿对弱相关数据。为了使研究人员更容易下载和使用,wudoomm-base的基本版本是开放的。该数据集由强相关数据组成,这些数据是根据类别以平衡的方式提取的。如果研究人员有完整的数据需求,他们可以通过data@baai.ac.cn给我们发送电子邮件。五道门-基地包含19大类,分别是: 能源、表情、产业、医疗、景观、动物、新闻、花卉、教育、艺术、人物、科学、海洋、树木、汽车、社会、科技、体育等。类别数据大约是70,000到400,000。

  • 下载地址:

    https://github.com/BAAI-WuDao/WuDaoMM/

  •  论文地址:

    https://arxiv.org/pdf/2203.11480v1.pdf

11

TCM-SD

  • 发布方:

    北京工业大学·徐州市中医院

  • 发布时间:2022

  • 简介:

    中药 (TCM) 是一种天然,安全,有效的疗法,已在世界范围内传播和应用。独特的中医诊疗系统需要对隐藏在以自由文本书写的临床记录中的患者症状进行全面分析。先前的研究表明,该系统可以借助人工智能 (AI) 技术 (例如自然语言处理 (NLP)) 进行信息化和智能化。但是,现有数据集的质量和数量都不足以支持TCM中数据驱动的AI技术的进一步发展。因此,在本文中,我们将重点放在中医诊疗系统的核心任务-辨证论治 (SD) 上,并介绍了第一个针对SD的公共大规模基准,称为TCM-SD。我们的基准包含涵盖148综合征的54,152真实临床记录。此外,我们在TCM领域中收集了大规模的未标记文本语料库,并提出了一种特定于领域的预训练语言模型,称为ZYBERT。我们使用深度神经网络进行了实验,以建立强大的性能基线,揭示SD中的各种挑战,并证明了特定领域的预训练语言模型的潜力。我们的研究和分析揭示了整合计算机科学和语言学知识以探索中医理论的经验有效性的机会。

  • 下载地址:

    https://github.com/Borororo/ZY-BERT

  •  论文地址:

    https://arxiv.org/pdf/2203.10839.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2041584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1- 关键字static

文章目录 1 前言2 static修饰局部变量2.1 局部变量无static修饰2.2 局部变量有static修饰 3 static修饰全局变量 1 前言 在C语言中,static是用来修饰变量和函数的: 修饰局部变量 - 称为静态局部变量修饰全局变量 - 称为静态全局变量修饰函数 - 称为静态…

django空巢老人志愿服务系统-计算机毕业设计源码58726

摘 要 随着社会老龄化问题日益突出,空巢老人群体的关注和关怀日益重要。本研究设计并实现了基于Python的空巢老人志愿服务系统,旨在利用技术手段提供更多关爱和支持给空巢老人群体。 该系统结合Python编程语言的灵活性和易用性,实现了慈善捐赠…

HCIE杭州考试分享

考试过程: 首先提醒大家关注一下天气,我去杭州没看天气,去了一直下雨,鞋子也湿了;27号早上七点多到的杭州,雨一直下,去了直奔网吧上机,最后的机时,早饭和晚饭都在网吧吃…

Linux多线程间通信机制(互斥锁、条件变量、信号量,读写锁)同步与异步(二)

原文链接:https://blog.csdn.net/weixin_55796564/article/details/119699146 一、概述 本章介绍了线程同步的几种不同的方法,包括互斥锁、条件变量、自旋锁以及读写锁,当然,除此之外,线程同步的方法其实还有很多&…

如何获取设备消息?

一、什么是消息? 消息是设备向萤石云平台传输的带有特定内容的信息,大部分消息由设备端主动产生,并且上报到平台。举个例子,设备开启画面变化检测,当设备画面产生变化,设备就会产生报警(画面…

Adobe Premiere Pro 2023-23.6.7.1 解锁版下载与安装教程 (一款专业的视频编辑软件)

前言 Adobe Premiere Pro(简称PR)是一款知名的专业视频编辑软件,数字视频剪辑软件。主要用来编辑视频和音频,可以在RGB和YUV色彩空间中以高达32位色彩的视频分辨率对4K和更高质量的视频文件进行编辑,支持VST音频插件和…

windows 10/11禁用更新

一、操作 获取“禁用更新”文件。将“禁用更新”文件从百度网盘中下载到电脑桌面。 百度网盘:链接:https://pan.baidu.com/s/1eGEtJYgN3MR4qGoUpnP7xw?pwd=ccrc提取码:ccrc 双击运行“禁用更新”。 弹出如下对话框,点击“是”。 弹出如下对话框,点击“是”。 确…

中仕公考:大四还没毕业能考公吗?

应届大学生是否可以报考公务员? 对于尚未获得毕业证书的应届大学生,有资格报名参与公务员考试。具体到学历和学位的要求,截止日期定于2024年7月底。在报名过程中,考生必须填写《报名登记表》和《报名推荐表》,确保提供的信息真实…

【手眼标定】使用kalibr对imu和双目摄像头进行联合标定

使用kalibr对imu和双目摄像头进行联合标定 前言 方式一:ros2消息格式通过ros1_bridge转为ros1消息格式,在ros1环境下录制bag进行标定。一、IMU标定二、双目摄像头标定三、手眼标定(imu和双目摄像头的联合标定) 方式二:…

Python轻量级 NoSQL 数据库之tinydb使用详解

概要 在现代应用开发中,使用数据库来存储和管理数据是非常常见的需求。对于简单的数据存储需求,关系型数据库可能显得过于复杂。TinyDB 是一个纯 Python 实现的轻量级 NoSQL 数据库,专为嵌入式场景设计,适用于小型项目、原型开发和教学等场景。本文将详细介绍 TinyDB 库,…

SPAW7000高精度功率分析记录仪,测试方案

测试目标 评估双电机四驱系统中前后电机的性能。 分析前后电机之间的实时联动情况。 测量并分析电机控制器的输入与输出功率。 计算功率转换效率和损耗。 验证电机系统的谐波特性。 测试设备 SPAW7000高精度功率分析记录仪:用于测量功率、电压、电流等参数&am…

这个tiktok短视频才发布了一天,就能卖货1.6w美金

这个tiktok短视频才发布了一天,就能卖货1.6w美金! 今天的讨论课上, 我的学员们问我 TikTok上的一条带货短视频的结构是怎样的? 我们一起看了这个案例。 一、案例分析 这是TikTok上的一位达人“moreco1in" 他拥有862K粉丝…

LeetCode.3152.特殊数组II

题目描述: 如果数组的每一对相邻元素都是两个奇偶性不同的数字,则该数组被认为是一个 特殊数组 。 你有一个整数数组 nums 和一个二维整数矩阵 queries,对于 queries[i] [fromi, toi],请你帮助你检查 子数组 nums[fromi..toi…

【Linux】多线程7——线程池

1.线程池的概念 1.1.池化技术 池化技术指的是提前准备一些资源,在需要时可以重复使用这些预先准备的资源。 在系统开发过程中,我们经常会用到池化技术。通俗的讲,池化技术就是:把一些资源预先分配好,组织到对象池中…

idea Spring-boot 项目debug启动过慢 :已验证

问题描述 Springboot项目在Idea中开发,server模型启动正常,但debug模式启动非常缓慢。 解决方案: 检查了项目配置,均没有问题,等20分钟以上能正常启动,但这样无法调试。查很多资料都没有找到问题解决方案…

spring01-spring容器启动过程分析

【README】 本文总结自《spring揭秘》,作者王福强,非常棒的一本书,墙裂推荐; spring容器根据配置元素组装可用系统分2个阶段,包括spring容器启动, springbean实例化阶段; 本文详细分析spring容…

Java项目通过IDEA远程debug调试

前言 在我们真实项目开发过程中,又是经常会发现一种问题,就是我们在开发环境功能是正常的,在测试环境可能也不太容易发现问题。 结果到了生产环境,由于数据量大,且数据类型变多后,就产生了一些比较难复现…

创客匠人对话(下):普通人做心理学IP为何如此成功?

老蒋创客圈第63期对话标杆直播连麦,我们邀请到【惢众身心成长家园平台】王辉老师。在上篇文章中,我们着重分享了王辉老师如何通过原有客源造流量,引爆大事件发售的核心秘籍。 本篇文章我们将继续分享对话精彩内容,深度剖析王辉老…

python两大编程思想,类和对象,实例变量类变量,静态方法与实例方法和类方法,给对象动态绑定属性和函数

1.两大编程思想 面向对象(python和java)和面向过程(c语言)编程思想的区别 2.类和对象 1.类是抽出对象中的相似属性和行为得到的类别 python中一切皆对象 对于字符串,整数等等都是类型class 可以自定义class&#x…

海康相机二次开发学习笔记2-方案的相关操作

方案和流程是VisionMaster(简称VM)的主要概念,一个方案可以包含多个流程,一个流程可以由多个模块通过连线建立逻辑关系. 方案的相关操作 1. 界面设计 界面分为三个部分:流程显示区,方案操作区,消息显示区.添加GroupBox,文本框,文本,和一些按钮. 2. 流程显示区 为了将方案加…