文本生成图像工作简述2--常用数据集分析与汇总

news2025/2/22 12:38:37

文本到图像的 AI 模型仅根据简单的文字输入就可以生成图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。

文本生成图像(text-to-image)可以根据给定文本生成符合描述的真实图像,其是多模态机器学习的任务之一,具有巨大的应用潜力,如视觉推理图像编辑视频游戏动画制作计算机辅助设计

本篇将简述文本生成图像的数据集,汇总介绍数据集的内容、特点、细节和下载方式等。

一、Caltech-UCSD Bird(CUB-200-2011)

1.1、介绍

CUB-200-2011数据集是CUB-200-2011是CUB-200的扩展版本,这是一个具有挑战性的200种鸟类数据集。扩展版本大致将每个类别的图像数量增加了一倍,并添加了新的零件定位注释。所有图像都使用边界框、零件位置和属性标签进行注释。图像和注释由Mechanical Turk的多个用户过滤。

鸟类物种分类是一个难题,它突破了人类和计算机视觉能力的极限。尽管鸟类拥有相同的基本部分,但不同的鸟类在形状和外观上可能会有很大的差异,而且,由于照明和背景的变化以及姿势的极端变化(例如,飞鸟、游泳鸟和栖息在树枝上的鸟类),鸟图像的类内差异也很大。
在这里插入图片描述

1.2、细节

1️⃣数据量数据集包含200种鸟类的11788张图像,其中训练数据集有5994张图像,测试集有5794张图像

2️⃣种类:每个物种都与维基百科相关,并按照科学分类(目、科、属、种)进行组织。物种名称列表是使用在线野外指南获得的,使用Flickr图像搜索获取图像,然后通过向多个Mechanical Turk用户展示每个图像进行过滤。

3️⃣数据信息:每张图像均提供了图像类标记信息,每个图像都带有边界框(bounding box)关键part位置信息,以及属性信息。每张图片的注释:15 个关键部位信息、312 个二进制属性、1 个边界框。

1.3、下载

1️⃣论文链接:The Caltech-UCSD Birds-200-2011 Dataset

2️⃣官方网站:http://www.vision.caltech.edu/datasets/cub_200_2011/

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

数据集包括:bounding_boxes.txt;classes.txt;image_class_labels.txt; images.txt; train_test_split.txt.

其中:
bounding_boxes.txt为图像中鸟类的边界框信息;
classes.txt为鸟类的类别信息,共有200类;
image_class_labels.txt为图像标签和所属类别标签信息;
images.txt为图像的标签和图像路径信息;
train_test_split.txt为训练集和测试集划分。
在这里插入图片描述

二、Oxford-102 Flower

2.1、介绍

Oxford-102 Flower是是牛津工程大学于2008年发布的用于图像分类的花卉数据集,选择的花通常在英国本土,详细信息和每个类别的图像数量可以在网站的类别统计页面上找到,如下:
在这里插入图片描述

分类花卉对自行车、汽车和猫等类别来说是一个额外的挑战,因为花内类别之间有很大的相似性,比如一朵花与另一朵花的区别有时是颜色,例如蓝色的钟形与向日葵,有时是形状,例如水仙花与蒲公英,有时是花瓣上的图案,例如三色堇与虎耳草等。

2.2、细节

1️⃣数据量8189张图像组成的数据集,这些图像被划分为103个花卉类别。这些被选为英国常见的花卉。大多数图片都是从网上收集的。通过自己拍摄照片获得了少量图像。数据集分为训练集、验证集和测试集,训练集和验证集各包含10个图像,测试集由剩余的6129张图像组成(每类至少20张)。

2️⃣种类:每个类包含40到250个图像,百香花的图像数量最多,桔梗、墨西哥紫菀、青藤、月兰、坎特伯雷钟和报春花的图像最少,即每类40个,图像被重新缩放,使最小尺寸为500像素。

2.3、下载

1️⃣论文链接:Automated flower classification over a large number of classes

2️⃣官方网站:https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

在这里插入图片描述

三、MS-COCO

3.1、介绍

MSCOCO数据集全称是Microsoft Common Objects in Context。其是微软开发维护的大型图像数据集,任务包括识别(recognition),分割(segementation),及检测(detection)。

COCO是一个具有非常高的行业地位且规模非常庞大的数据集,用于目标检测、分割、图像描述等等场景。特点包括:

  1. Object segmentation:对象级分割
  2. Recognition in context:上下文识别
  3. Superpixel stuff segmentation:超像素分割
  4. 330K images (>200K labeled):330万张图像(超过20万张已标注图像)
  5. 1.5 million object instances:150万个对象实例
  6. 80 object categories:80个目标类别
  7. 91 stuff categories:91个物体类别
  8. 5 captions per image:每张图片有5段描述
  9. 250,000 people with keypoints:250万个人体关键点标注

该数据集解决了场景理解中的三个核心研究问题:检测对象的非图标视图(或非规范视角)、对象之间的上下文推理和对象的精确二维定位。
在这里插入图片描述

3.2、细节

1️⃣数据量MS COCO数据集共包含123287幅图像,包含80k张用于训练的图像和40k张用于测试的图像。其中每个图像包含5个句子注释。COCO的官方培训部分用于培训,COCO的正式验证部分用于测试。在训练的小批量选择期间,为其中一个字幕选择随机图像视图(例如裁剪、翻转)。

2️⃣种类MS-COCO总共包含 91个类别,每个类别的图片数量如下:
在这里插入图片描述

3.3、下载

1️⃣论文链接:Microsoft COCO: Common Objects in Context

2️⃣官方网站:https://cocodataset.org/#overview

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

其中,

    Train images:训练集,训练过程中使用到的图像

    Val images:验证集,验证过程中使用到的图像

    Test images:测试集,测试过程中使用到的图像(如果使用test数据集,那么可以把验证集合训练集一起用于训练),后续例子中没有下载使用

    Train/Val annotations:训练集和验证集的标注文件,json格式

下载后,压缩到同一个文件夹中,以COCO2017为例,形成如下结构:

COCO_2017

    ├── val2017 # 验证集所在文件夹,包含5000张图像

    ├── train2017 # 训练集所在文件夹,包含118287张图像

    ├── annotations # 标注文件所在文件夹,包含如下文件

             ├── instances_train2017.json # 目标检测、分割任务的训练集标注文件

             ├── instances_val2017.json # 目标检测、分割任务的验证集标注文件文件

             ├── person_keypoints_train2017.json # 人体关键点检测的训练集标注文件

             ├── person_keypoints_val2017.json # 人体关键点检测的验证集标注文件

             ├── captions_train2017.json # 图像描述的训练集标注文件

             ├── captions_val2017.json # 图像描述的验证集标注文件

四、Multi-Modal-CelebA-HQ

4.1、介绍

Multi-Modal-CelebA-HQ是一个大规模人脸图像数据集。

Multi-Modal-CelebA-HQ可用于训练和评估文本到图像生成、文本引导图像处理、草图到图像生成、图像说明和 VQA 的算法。这个数据集是在TediGAN中提出并使用的。

文本描述是使用基于给定属性的概率上下文无关语法 (PCFG) 生成的,按照流行的CUB数据集和COCO数据集的格式为每个图像创建十个独特的单句描述以获得更多训练数据。

4.2、细节

1️⃣数据量Multi-modal-CelebA-HQ数据集由CELEBA-HQ数据集和其相对应的文本描述组成,具有30,000个高分辨率人脸图像,每个图像都对应10个描述性文本,除此之外还包含语义分割图、草图和透明背景的图像。该数据集分为24,000张训练集和6000张测试集。

2️⃣数据信息:数据集与通用的文本生成非人脸数据集CUB和COCO数据集具有相同的数据格式。
在这里插入图片描述

4.3、下载

1️⃣论文链接:TediGAN: Text-Guided Diverse Face Image Generation and Manipulation

2️⃣官方网站:https://github.com/IIGROUP/MM-CelebA-HQ-Dataset

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

在这里插入图片描述

💡 最后

上一篇:文本生成图像工作简述1–概念介绍和技术梳理

以上下载若有错误或失效,请及时反馈,另外,我们已经建立了🏤T2I研学社群,如果你对Dreamfields和DreamFusion还有其他疑问或者对🎓文本生成图像很感兴趣,可以私信我加入社群

📝 加入社群 抱团学习:中杯可乐多加冰-采苓AI研习社

🔥 限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/28909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验2:Arduino的nRF24L01双向收发实验

实验结果: 00节点向01发送:00ReqMesFor01 01节点向00发送:CodeNewNiceBoy 并且在串口打印出相应信息 硬件电路: 01 软件 00节点代码: /*00 */#include <SPI.h> #include <nRF24L01.h> #include <RF24.h> RF24 radio(9, 10);// CE, CSNconst char te…

dolphinscheduler 2.0.5 性能手动测试

目录&#x1f42c;官方配置文件说明&#x1f42c;测试并发量&#x1f420;线程数量设置100&#x1f420;线程数量设置200&#x1f420;线程数量设置500&#x1f42c;测试结论&#x1f42c;官方配置文件说明 官方说明 master.exec.threads&#xff1a; master工作线程数量,用于…

智能晾衣架(二)--功能实现

本文素材来源于红河学院 工学院 作者&#xff1a;赵德森 张艺锦 潘志慧 曹紫康 指导老师&#xff1a;江洁 张龙超 1. 自动升降功能 我们设计时采用了热释电传感器&#xff08;人体红外传感器&#xff09;&#xff0c;在热释电传感器感应到有人靠近时&#xff0c;晾衣架通…

C++:内存管理:C++内存管理详解(二):带你攻破内存管理

前言&#xff1a; 任何程序运行起来都需要分配内存空间存放该进程的资源信息&#xff0c;C程序也不例外。C程序中的变量、常量、函数、代码等等信息所存放的区域都有所不同&#xff0c;不同的区域又有不同的特性。 欺骗C进程 每一个C语言的程序被执行起来的时候系统为了方便开…

字符串的简单介绍和字符串的大小比较

以前就写过一篇关于String的文章&#xff0c;今天再来写一篇&#xff0c;更加深入了解一下String类 &#x1f550;1.String类的定义 &#x1f551;2.String类的创建 &#x1f552;3.字符串的大小比较 1.之前在C语言中我们已经学到了字符类型&#xff0c;但是C语言没有Strin…

Oracle-Rman duplicate文件坏块问题处理ORA-19849 19612

前言: 最近&#xff0c;在使用rman duplicate进行备库环境搭建时&#xff0c;遇到了ORA-19849 19612坏块报错&#xff0c;最终分析是发现由于网络的配置导致。 问题: 在 ORACLE 12.2.0.1.180417 通过RMAN duplicate进行备库初始化&#xff0c;在复制文件的过程中&#xff0c;…

FTP服务器移植到Linux开发板

FTP服务器移植到Linux开发板 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录FTP服务器移植到Linux开发板前言一、vsftpd源码下载二、vsftpd移植及配置1.vsftpd移植2.vsftpd配置2.1 配置vsftpd.conf2.2 添加新用户2…

LVS+Keepalived群集

目录 一.keeepalived工具介绍 1.1 专为LVS和HA设计的一款健康检查工具 1.2 Keepalived实现原理剖析 1.3 VRRP工作过程 1.4 Keepalived&#xff0c;VRRP及其工作原理 1.5 Keepalived体系主要模块及其作用 二、LVSKeepalived 高可用群集的搭建步骤 1、配置负载调度器&…

项目管理(PMO的作用)

项目管理办公室 (PMO) 是对与项目相关的治理过程进行标准化&#xff0c;并促进资源、方法论、工具和技 术共享的一个组织结构。PMO 的职责范围可大可小&#xff0c;从提供项目管理支持服务&#xff0c;到直接管理一个 或多个项目。 PMO的三种类型&#xff1a; PMO的作用&#…

ppt背景图片怎么设置?6步教你快速搞定!

在制作 ppt的过程中&#xff0c;需要将一些内容进行设置&#xff0c;来保证整体美观&#xff0c;也就是将背景图片设置好。背景图片设置的好&#xff0c;可以很好地体现页面上的内容&#xff0c;提高页面上的内容展示效果。所以大家在制作 ppt时&#xff0c;需要将一些背景图片…

进程和线程详解

目录 前言&#xff1a; 操作系统定位 并发 并行 并发 进程 描述 PCB 管理 内存管理 进程间通信 线程 小结&#xff1a; 前言&#xff1a; 当一个程序运行起来时&#xff0c;操作系统要为之分配一些资源&#xff0c;这样的运行起来的程序称之为一个进程。为了有效解…

huffman编译码

目录 1.算法描述 2.仿真效果预览 3.MATLAB部分代码预览 4.完整MATLAB程序 1.算法描述 利用哈夫曼编码进行信息通信可以较大提高信道利用率,缩短信息传输时间,降低传输成本。但是,这要求在发送端通过一个编码系统对待传数据预先编码;在接收端将传来的数据进行译码(复原)。对…

Python期末复习题:文件

Python期末复习题&#xff1a;文件 文章目录Python期末复习题&#xff1a;文件一、二手房数据统计二、学生成绩统计一、二手房数据统计 附件文件house.csv 中存储一些二手房数据&#xff0c;中文编码为GBK&#xff0c;对文件中的数据进行统计分析。 文件中数据格式如下所示&…

理解Attention机制的query key value

背景 在Attention机制引入前&#xff0c;自然语言处理里的深度学习模型有以下缺点&#xff1a; 长序列的推理存在信息损失/梯度消失&#xff1a;输入序列越长&#xff0c;模型越难保存初始输入信息。运算量大并且不能并行&#xff1a;RNN的每一步推理都是基于上一个步的结果。…

Python小游戏自己动手编写,你能写出几个(分享版)

今天分享一个有趣的Python游戏库freegames&#xff0c;它里面包含经典小游戏&#xff0c;像贪吃蛇、吃豆人、等等。可以通过1行代码重温这些童年小游戏&#xff0c;后面还会分享源码&#xff0c;可以自己学习游戏编写&#xff0c;相信你会超有成就感&#xff01; Paint 涂鸦 在…

Springboot Websocket一般封装方法

此方法不是唯一&#xff0c;只是自己对于Springboot中关于Websocket处理思路比较清晰的一种&#xff0c;在此记录下来。总共不过就四个文件而已。 一、创建Springboot项目&#xff0c;添加不可或缺的pom <dependency><groupId>org.springframework.boot</grou…

内存模块 --- 基础扫盲

SDRAM synchronous dynamic random-access memory 同步动态随机存储器 同步&#xff1a;需要同步时钟支持工作&#xff0c;内部命令的发送与数据的传输都是以这个时钟为基准 动态&#xff1a;内部的存储阵列需要不断地刷新来保证数据不丢失 随机&#xff1a;可以自由地在指定地…

MyBatis进阶版

本文有点难 目录 1.一些区分 1.1参数占位符#{}和${} 1.1.1SQL注入 1.1.2like查询 1.2resultType和resultMap 2.映射查询 2.1一对一表映射 2.2一对多表映射 3.动态SQL 3.1标签 3.2标签 3.3标签 3.4标签 3.5标签 1.一些区分 1.1参数占位符#{}和${} ①什么是#{}&a…

【CSS】表布局,浮动布局

❤️ Author&#xff1a; 老九 ☕️ 个人博客&#xff1a;老九的CSDN博客 &#x1f64f; 个人名言&#xff1a;不可控之事 乐观面对 &#x1f60d; 系列专栏&#xff1a; 文章目录表布局表层表标题(caption)border-collapse边框隐藏表大小table-layout(表宽度)vertical-align例…

你安全吗?丨虎云系统“后门”

作者&#xff1a;黑蛋 在电视剧《你安全吗&#xff1f;》中&#xff0c;马平川这个人物已经慢慢浮出水面&#xff0c;算是此部电视剧幕后的最大反派&#xff0c;他明面上是虎迫集团的技术总监&#xff0c;是虎云系统的负责人&#xff0c;开发者。背后却在泰曼达有着诈骗基地&a…