【图像识别】十大数据集合集！

news2025/4/13 2:15:21

本文将为您介绍10个经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

DanishFungi2020

发布方：

Google
发布时间：

2021
简介：

补充材料：丹麦真菌 2020 - 不仅仅是另一个图像识别数据集为了支持细粒度植物分类的研究并允许我们的结果完全重现，我们共享训练日志和训练脚本。图片、检查点和元数据因尺寸限制不包括在内，将在审核后发布。
下载地址：

https://sites.google.com/view/danish-fungi-dataset
论文地址：https://openaccess.thecvf.com/content/WACV2022/papers/Picek_Danish_Fungi_2020_-_Not_Just_Another_Image_Recognition_Dataset_WACV_2022_paper.pdf

SPEECH-COCO

发布方：

格勒诺布尔-阿尔卑斯大学·Voxygen
发布时间：

2017-06-01
简介：

我们的语料库是MS COCO图像识别和字幕数据集的扩展。COCO女士包含与五个字幕配对的图像。然而，它不包括任何言论。因此，我们使用Voxygen的文本到语音系统来合成可用的字幕。

语音作为一种新的方式的添加使MSCOCO能够用于语言习得，无监督的术语发现，关键字发现或使用语音和视觉的语义嵌入领域的研究。
下载地址：

https://zenodo.org/record/4282267#.Y_XMuHZBw2x
论文地址：

https://www.isca-speech.org/archive/pdfs/glu_2017/havard17_glu.pdf

Kaggle Cats and Dogs Dataset

发布方：

Unknown
发布时间：

2022-05-09
简介：

Web服务通常受到挑战的保护，人们应该很容易解决，但计算机却很难解决。这样的挑战通常被称为验证码 (完全自动化的公共图灵测试，以区分计算机和人类) 或HIP (人类交互证明)。HIPs用于许多目的，例如减少电子邮件和博客垃圾邮件，并防止对网站密码的暴力攻击。Asirra (用于限制访问的动物物种图像识别) 是一种臀部，通过要求用户识别猫和狗的照片来工作。这项任务对计算机来说很难，但研究表明，人们可以快速准确地完成这项任务。Asirra之所以独特，是因为它与世界上最大的网站wit h Petfinder.com合作，致力于寻找无家可归的宠物的家园。他们为微软研究院提供了超过300万张猫和狗的图像，这些图像是由美国数千个动物收容所的人手动分类的。Kaggle很幸运地提供了这些数据的一部分，以供娱乐和研究。
下载地址：

https://www.microsoft.com/en-us/download/details.aspx?id=54765

SentiCap

发布方：

澳大利亚国立大学
发布时间：

2015
简介：

图像识别和语言建模的最新进展正在使图像内容的自动描述成为现实。但是，当前系统缺少书面描述的程式化、非事实方面。一种这样的风格是带有情感的描述，这在日常交流中很常见，并且会影响决策和人际关系。我们设计了一个系统来描述带有情感的图像，并展示了一个自动生成带有正面或负面情绪的字幕的模型。我们提出了一种具有词级正则化的新型切换循环神经网络，它能够仅使用 2000 多个包含情感的训练句子来生成情感图像说明。我们使用不同的自动和众包指标评估字幕。我们的模型在图像字幕的常见质量指标方面具有优势。在 84.6% 的案例中，生成的正面字幕被认为至少与事实字幕一样具有描述性。在这些积极的标题中，88% 被众包工作者确认为具有适当的情绪。
下载地址：

http://users.cecs.anu.edu.au/~u4534172/senticap.html
论文地址：

https://arxiv.org/pdf/1510.01431v2.pdf

9,497张10种表格OCR数据【数据堂】

Herbarium 2021 Half–Earth

发布方：

苏黎世联邦理工学院·Google Research·Cornell Tech
发布时间：

2021
简介：

植物标本馆 2022：北美植物群是纽约植物园项目的一部分，该项目由美国国家科学基金会资助，旨在构建用于识别世界各地新植物物种的工具。该数据集使用从全球 60 个不同植物机构收集的图像，力求代表北美所有已知的维管植物分类群。我们的数据集具有长尾分布。每个分类单元的图像数量少则 7 幅，多则 100 幅。尽管有更多图像可用，但我们限制了最大数量，以确保竞赛参与者有足够但可管理的训练数据大小。
下载地址：

https://github.com/visipedia/herbarium_comp
论文地址：

https://arxiv.org/pdf/2105.13808v1.pdf

CUB-GHA (CUB Gaze-based Human Attention)

发布方：

图宾根大学·中国科学院大学·马克斯普朗克智能系统研究所
发布时间：

2021
简介：

CUB-GHA 是一个带有人类注意力注释的细粒度分类数据集。该数据集为细粒度分类数据集 CUB 收集人类注视数据，并构建一个名为 CUB-GHA（基于注视的人类注意力）的数据集。
下载地址：

https://github.com/yaorong0921/CUB-GHA
论文地址：

https://arxiv.org/pdf/2111.01628v1.pdf

Goldfinch (GOogLe image-search Dataset)

发布方：

Google·斯坦福大学·Zoox
发布时间：

2017
简介：

Goldfinch 是一个用于细粒度识别挑战的数据集。它包含鸟类、蝴蝶、飞机和狗类别的列表以及相关的 Google 图片搜索和 Flickr 搜索 URL。此外，它还包括一组关于狗类别的主动学习注释。
下载地址：

https://github.com/google/goldfinch
论文地址：

https://arxiv.org/pdf/1511.06789v3.pdf

CUB-200-2011 (Caltech-UCSD Birds-200-2011)

发布方：

Allan Lab
发布时间：2017
简介：

Caltech-UCSD Birds-200-2011 (CUB-200-2011) 数据集是用于细粒度视觉分类任务的最广泛使用的数据集。它包含属于鸟类的 200 个子类别的 11,788 张图像，其中 5,994 张用于训练，5,794 张用于测试。每个图像都有详细的注释：1 个子类别标签、15 个部分位置、312 个二进制属性和 1 个边界框。文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。为每个图像收集十个单句描述。自然语言描述是通过 Amazon Mechanical Turk (AMT) 平台收集的，要求至少 10 个单词，没有任何子类别和动作信息。
下载地址：

http://www.vision.caltech.edu/datasets/cub_200_2011/
论文地址：

https://arxiv.org/abs/1709.00340