【人工智能】数据集合集！

news2026/2/15 0:28:04

本文将为您介绍10个经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

点击蓝字

关注我们

Habitat Platform

发布方：

Facebook AI Research·西蒙菲莎大学·佐治亚理工学院·Facebook Reality Labs·Intel Labs·University of California, Berkeley
发布时间：

2019
简介：

具身人工智能 (AI) 研究平台。
下载地址：

https://github.com/facebookresearch/habitat-api/tree/ec9557a3623991208a80f836fe557f8028209297
论文地址：

https://arxiv.org/pdf/1904.01201v2.pdf

InFashAIv1

发布方：

Ai4Innov
发布时间：

2021
简介：

对于时尚领域的包容性人工智能，并确保非洲时尚能够从人工智能的潜力中受益，Ai4Innov 发起了包容性时尚人工智能项目 (InFashAI)，该项目旨在创建更能代表存在于时尚界。我们将首先专注于建立大量有关非洲时尚的数据。该数据集将逐步开源，我们希望，它将成为适应非洲时尚InFashAIv1 数据集的人工智能工具的支柱，该数据集包含近 16.000 个非洲时尚商品图像及其标题、价格和一般描述。
下载地址：

https://github.com/hgilles06/infashai
论文地址：

https://arxiv.org/pdf/2106.12154v3.pdf

Cross-Modal Comments Dataset

发布方：

北京邮电大学·北京大学
发布时间：

2019
简介：

跨模态自动评论（CMAC）是我们论文中提出的一项新任务，旨在自动生成图片新闻的评论。在这项任务中，人工智能模型需要整合来自新闻图像和新闻文章的信息，并针对视觉和文本内容生成合理的评论。
下载地址：

https://github.com/lancopku/CMAC
论文地址：

https://aclanthology.org/P19-1257.pdf

AI2-THOR

发布方：

卡内基梅隆大学·斯坦福大学·华盛顿大学·艾伦人工智能研究所
发布时间：

2017
简介：

AI2-Thor 是具身人工智能的交互式环境。它包含厨房、客厅、卧室和浴室四种场景，每个场景包括30个房间，每个房间在家具摆放和物品类型上都是独一无二的。有超过 2000 个独特的对象可供 AI 代理与之交互。
下载地址：

https://ai2thor.allenai.org/
论文地址：

https://arxiv.org/pdf/1712.05474v3.pdf

AI2D-RST

发布方：

Unknown
发布时间：

2020-06-01
简介：

AI2D-RST 是一个包含 1000 个英语图表的多模态语料库，代表小学自然科学的主题，例如食物网、生命周期、月相和人体生理学。该语料库基于艾伦人工智能图研究所 (AI2D) 数据集，这是一组具有众包描述的图表，最初是为了支持自动图表理解和视觉问答的研究而开发的。
下载地址：

http://urn.fi/urn:nbn:fi:lb-2020060101
论文地址：

https://arxiv.org/pdf/1912.03879v2.pdf

ProtoQA

发布方：

马萨诸塞大学
发布时间：

2020
简介：

ProtoQA 是一个问答数据集，用于在这种原型情况下训练和评估人工智能系统的常识推理能力。训练集是从一个长期运行的国际游戏节目 FAMILY-FEUD 中播放的一组现有问题中收集的。隐藏评估集是通过收集来自 100 名群众工作者的每个问题的答案而创建的。
下载地址：

https://github.com/iesl/protoqa-data
论文地址：

https://arxiv.org/pdf/2005.00771v3.pdf

LARC (Language-annotated Abstraction and Reasoning)

发布方：

麻省理工学院·Autodesk Research
发布时间：

2021
简介：

LARC是从ARC (抽象和推理语料库) 构建的数据集。ARC是一组任务，用于测试代理灵活解决新问题的能力。虽然大多数ARC任务对人类来说都很容易，但对最先进的人工智能来说却是一个挑战。 LARC或带有语言注释的ARC是一组人类参与者的自然语言描述的集合，这些参与者既不熟悉ARC又彼此不熟悉，他们互相指导如何解决ARC任务。LARC包含88% ARC任务的成功说明。
下载地址：

https://github.com/samacqua/LARC
论文地址：

https://arxiv.org/pdf/2106.07824v2.pdf

Visual Genome Dataset V1.2

发布方：

斯坦福大学·德累斯顿工业大学·Snapchat Inc.·雅虎
发布时间：

2016-08-29
简介：

视觉基因组是与图像和图像内容的语义信息相关的数据集。与ImageNet图像标注数据集相比，具有更丰富的语义信息，用于扩展基于图像和语义信息的人工智能应用。该数据集目前包含 108,249 张图像、420 万个区域内容描述、170 万个图像内容问答、210 万个对象案例、180 万个属性和 180 万个关系。

该数据集于 2015 年由斯坦福大学首次发布，随后是 2016 年的 1.2 和 2017 年的 1.4。
下载地址：

http://visualgenome.org/api/v0/api_home.html

KVQA (Knowledge-aware VQA)

发布方：

印度理工学院·印度科学理工学院
发布时间：

2019
简介：

KVQA 由 183K 问答对组成，涉及超过 18K 的命名实体和 24K 图像。该数据集中的问题需要在大型知识图 (KG) 上进行多实体、多关系和多跳推理才能得出答案。据我们所知，KVQA 是探索 VQA over KG 的最大数据集。此外，我们还在 KVQA 上使用最先进的方法提供基准性能。我们坚信，KVQA 将催生跨越视觉、语言、知识图谱和更广泛的人工智能领域的新研究途径。
下载地址：

https://malllabiisc.github.io/resources/kvqa/
论文地址：

http://dosa.cds.iisc.ac.in/kvqa/KVQA-AAAI2019.pdf

WuDaoMM

发布方：

清华大学·北京智源人工智能研究院
发布时间：

2022
简介：

Wutaomm是北京智源人工智能研究院wutaocalpora开源数据集的一部分。去年，我们开源了全球最大的中文文本数据集，其中包括5TB的预训练文本数据。今年开源的wutaomm是图像和文本的多模态预训练数据。完整的数据集包含6.5亿对图像和文本。它为大规模的中国多模态预训练模型如Wenlan和Cogview提供了数据支持。数据集包含几千万对的强相关数据和6亿对弱相关数据。为了使研究人员更容易下载和使用，wudoomm-base的基本版本是开放的。该数据集由强相关数据组成，这些数据是根据类别以平衡的方式提取的。如果研究人员有完整的数据需求，他们可以通过data@baai.ac.cn给我们发送电子邮件。五道门-基地包含19大类，分别是: 能源、表情、产业、医疗、景观、动物、新闻、花卉、教育、艺术、人物、科学、海洋、树木、汽车、社会、科技、体育等。类别数据大约是70,000到400,000。
下载地址：

https://github.com/BAAI-WuDao/WuDaoMM/
论文地址：

https://arxiv.org/pdf/2203.11480v1.pdf

TCM-SD

发布方：

北京工业大学·徐州市中医院
发布时间：2022
简介：

中药 (TCM) 是一种天然，安全，有效的疗法，已在世界范围内传播和应用。独特的中医诊疗系统需要对隐藏在以自由文本书写的临床记录中的患者症状进行全面分析。先前的研究表明，该系统可以借助人工智能 (AI) 技术 (例如自然语言处理 (NLP)) 进行信息化和智能化。但是，现有数据集的质量和数量都不足以支持TCM中数据驱动的AI技术的进一步发展。因此，在本文中，我们将重点放在中医诊疗系统的核心任务-辨证论治 (SD) 上，并介绍了第一个针对SD的公共大规模基准，称为TCM-SD。我们的基准包含涵盖148综合征的54,152真实临床记录。此外，我们在TCM领域中收集了大规模的未标记文本语料库，并提出了一种特定于领域的预训练语言模型，称为ZYBERT。我们使用深度神经网络进行了实验，以建立强大的性能基线，揭示SD中的各种挑战，并证明了特定领域的预训练语言模型的潜力。我们的研究和分析揭示了整合计算机科学和语言学知识以探索中医理论的经验有效性的机会。
下载地址：

https://github.com/Borororo/ZY-BERT
论文地址：

https://arxiv.org/pdf/2203.10839.pdf