LAION-SG:一个大规模、高质量的场景图结构注释数据集,为图像-文本模型训练带来了革命性的进步。

news2024/12/27 8:44:51

2024-12-03,由浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团联合创建的LAION-SG数据集,通过提供高质量的场景图(SG)结构注释,显著提升了复杂场景图像生成的性能,为图像-文本模型训练带来了革命性的进步。

一、研究背景:

随着文本到图像(T2I)生成技术的发展,我们能够从文本提示中生成高质量的图像。然而,现有模型在生成涉及多个对象和复杂关系的复合图像时表现不佳,这限制了复杂场景图像生成的质量和准确性。

目前遇到困难和挑战:

1、现有图像-文本数据集缺乏精确的对象间关系注释,仅依赖于提示文本。

2、复杂场景的语义结构表示不足,导致生成的图像在对象和关系上与文本描述不一致。

3、现有基准测试主要集中在基于文本的图像生成,缺乏对复杂场景生成能力的全面评估。

数据集地址:LAION-SG|图像理解数据集|语义分析数据集

二、让我们一起看一下LAION-SG数据集

LAION-SG是一个大规模、高质量的结构化图像-文本数据集,通过场景图精确描述图像中对象的属性和关系。

LAION-SG数据集基于LAION-Aesthetics V2(6.5+)构建,包含540,005个图像-文本对,每个图像都配有详细的场景图注释,描述了图像中多个对象的属性和关系。

数据集构建:

数据集的构建采用了自动化的注释流程,利用GPT-4o模型生成场景图,包括对象识别、属性分配和关系描述。

数据集特点:

1、包含高视觉质量的图像。

2、场景图注释精确描述了对象的属性和关系。

3、支持复杂场景的生成,提高了图像生成的复杂性和保真度。

数据集可以用于训练和评估图像-文本模型,特别是那些需要理解复杂场景和生成高质量图像的模型。用户可以通过场景图的结构化信息来指导图像的生成过程。

基准测试 :

CompSG-Bench基准测试,用于评估模型在复杂场景生成方面的表现,包括图像质量、目标内容的准确性等多个维度。

文本到图像(T2I)模型SDXL[31]和SDXL-SG(一个带有结构化注释指导的T2I模型)在面对不同数量关系时生成的图像。对于一到两个关系,两个模型都能准确生成图像。当处理三个或四个关系时,T2I模型无法生成“持有”和“面向”的关系。对于超过四个关系的情况,T2I模型的局限性变得更加明显。在(e)和(f)中,分别有三个和两个关系生成错误。相比之下,SDXL-SG准确地捕捉到了生成图像中的关系。

LAION-SG 数据集的构建流程:

1) 识别图像中的对象并为每个对象分配一个唯一的 ID。

2) 属性必须是抽象的形容词,不应包含特定的对象。每个对象可以具有一个或多个属性。

3) 对象之间的关系应尽可能具体,避免简单的关系。使用更精确的动词,尽量减少重复。

4) 对于人物,将对象标记为“人物”,并包含性别和年龄等属性。避免拟人化或关联,并客观描述在图像中观察到的内容。

LAION-SG 的标注分布:

(a) 场景图的长度范围很广。与单个单词的描述相比,我们的注释提供了更具体的信息,同时也避免了由于注释过长而导致的模型学习效率低下。

(b) 前 10 个关系和属性仅占总分布的一小部分,表明 LAION-SG 涵盖了高度多样化的注释范围,展示了其庞大规模和开放的词汇表

LAION-SG 的视觉比较。比较的方法包括 T2I 模型 (SDXL [31])和 SG2IM 模型 (SGDiff [50] 和 SG-Adapter [40])。

第一列显示了 LAION-Aesthetics 的原始标题。

第二列显示 LAION-SG 的场景图。最后五列显示真实图像和由不同模型生成的图像。对象或关系在场景图和生成的图像中以相同的颜色突出显示,以表明 SDXL-SG 成功捕获了复杂的场景。

COCO-Stuff、Visual Genome 和 LAION-SG (LS) 的结果。第一和第二最佳选项以粗体和下划线显示。

现有 T2I 和 SG2IM 模型以及我们的基准模型在复杂场景生成基准上的结果。最佳图标以粗体显示,次佳图标以下划线显示。

消融研究的结果。属性表示数据比例。

三、让我们一起展望LAION-SG 数据集应用场景

比如:我们有一个图像,内容是一个公园场景,其中包含了一个小孩在秋千上,背景中有树木和长椅,天空中有飞鸟。我们的目标是构建一个VQA模型,能够理解这张图片的内容,并回答与图片相关的问题。

图像和场景图。

首先,我们使用LAION-SG数据集为这张图片生成一个场景图。场景图将包含以下信息:

对象:小孩、秋千、树木、长椅、飞鸟

属性:小孩(快乐),秋千(蓝色),树木(绿色),长椅(木质),飞鸟(飞翔)

关系:小孩在使用秋千,树木在背景中,长椅在旁边,飞鸟在天空中

问题和回答

1、问题:图片中的小孩在做什么?

回答:小孩正在使用秋千。

2、问题:背景中有什么?

回答:背景中有树木。

3、问题:公园里还有什么其他的设施?

回答:公园里还有长椅。

3、问题:图片中是否有动物?

回答:是的,图片中有飞鸟。

4、问题:秋千是什么颜色的?

回答:秋千是蓝色的。

模型构建和推理过程:

1、模型输入:VQA模型接收两个输入,一个是图像本身,另一个是自然语言形式的问题。

2、图像理解:模型首先使用图像识别技术(如CNN)提取图像的视觉特征。然后,利用LAION-SG数据集提供的场景图,模型能够理解图像中的对象、属性和关系。

3、问题理解:模型使用自然语言处理技术(如BERT)提取问题的语义特征。

4、特征融合:模型将图像的语义特征和问题的特征结合起来,进行推理。

5、答案生成:模型根据融合后的特征,从预先定义的答案候选中选择最合适的答案。

通过这个案例展示LAION-SG数据集在视觉问答任务中的潜力,它通过提供精确的场景图注释,极大地增强了模型对图像内容的理解和推理能力。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2266286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

低压降稳压器(LDO)典型特性压降

本文章是笔者整理的备忘笔记。希望在帮助自己温习避免遗忘的同时,也能帮助其他需要参考的朋友。如有谬误,欢迎大家进行指正。 一、什么是压降 压降电压 VDO 是指为实现正常稳压,输入电压 VIN 必须高出所需输出电压 VOUT(nom) 的最小压差。请…

01 - 初识 Spring

初识Spring 企业级应用 企业级应用是指那些为商业组织、⼤型企业而创建并部署的解决⽅案及应用。这些⼤型的企业级应用结构复 杂、涉及的外部资源众多,事务密集,数据规模⼤,用户数量多,有较强的安全性考虑和较⾼的性能要求。 …

NLP 中文拼写检测纠正论文-04-Learning from the Dictionary

拼写纠正系列 NLP 中文拼写检测实现思路 NLP 中文拼写检测纠正算法整理 NLP 英文拼写算法,如果提升 100W 倍的性能? NLP 中文拼写检测纠正 Paper java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊! 一个提升英文单词拼…

【CSS in Depth 2 精译_091】15.4:让 CSS 高度值过渡到自动高度 + 15.5:自定义属性的过渡设置(全新)+ 15.6:本章小结

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 15 章 过渡】 ✔️ 15.1 状态间的由此及彼15.2 定时函数 15.2.1 定制贝塞尔曲线15.2.2 阶跃 15.3 非动画属性 15.3.1 不可添加动画效果的属性15.3.2 淡入与淡出 15.4 过…

PMP项目管理考试模拟真题及答案(中文版)

1、赶工一个任务时,你应该关注: A 尽可能多的任务。 B 非关键任务。 C 加速执行关键路径上的任务。 D通过成本最低化加速执行任务。 正确答案:C 2、“在对软件编码前我不能进行软件测试。”这句话说明了哪种依赖关系? A 随意的 B软逻辑关系 C 优先 D 强制…

CentOS7下的vsftpd服务器和客户端

目录 1、安装vsftpd服务器和ftp客户端; 2、配置vsftpd服务器,允许普通用户登录、下载、上传文件; 3、配置vsftpd服务器,允许anonymous用户登录、下载、上传文件; 4、配置vsftpd服务器,允许root用户登录…

本科阶段最后一次竞赛Vlog——2024年智能车大赛智慧医疗组准备全过程——12使用YOLO-Bin

本科阶段最后一次竞赛Vlog——2024年智能车大赛智慧医疗组准备全过程——12使用YOLO-Bin ​ 根据前面内容,所有的子任务已经基本结束,接下来就是调用转化的bin模型进行最后的逻辑控制了 1 .YOLO的bin使用 ​ 对于yolo其实有个简单的办法,也…

109.【C语言】数据结构之求二叉树的高度

目录 1.知识回顾:高度(也称深度) 2.分析 设计代码框架 返回左右子树高度较大的那个的写法一:if语句 返回左右子树高度较大的那个的写法二:三目操作符 3.代码 4.反思 问题 出问题的代码 改进后的代码 执行结果 1.知识回顾&#xf…

STM32学习(一)

STM32是什么 STM32是意法半导体(ST)公司基于ARM Cortex-M内核开发的32位微控制器‌。他的名字是由;意大利SGS&法国Thomson共同研制的,中国人民取两家公司名称的首字母于是ST就是这样来的,M是单片机M-Micro Contro…

Windows、CentOS环境下搭建自己的版本管理资料库:GitBlit

可以搭建属于公司内部或者个人的Git服务器,方便程序代码及文档版本管理。 官网:http://www.gitblit.com/ Windows环境下安装 提前已经安装好了JDK。 官网下载Windows版的GitBlit。 将zip包解压到自己想要放置的文件夹下。 建立版本库路径&#xff0c…

音视频入门基础:MPEG2-TS专题(22)——FFmpeg源码中,获取TS流的音频信息的实现

一、引言 通过FFmpeg命令可以获取到TS文件/TS流的音频压缩编码格式、音频压缩编码格式的profile、音频采样率、通道数、音频码率信息: ./ffmpeg -i XXX.ts 本文以音频为AAC为例讲述FFmpeg到底是从哪个地方获取到这些音频信息的。 二、音频压缩编码格式 FFmpeg获取…

中伟视界:电话、短信怎么在矿山智能分析平台中的报警等级管理中分级通知到相关人员

在现代矿山安全管理中,通讯报警系统的有效性不可忽视,智慧矿山的融合通信与AI智能预警的联动,已经成为矿山智能化的一个发展方向。随着科技的发展,矿山智能分析平台越来越受到企业的青睐,通过对报警信息的分级管理&…

音视频入门知识(二)、图像篇

⭐二、图像篇 视频基本要素:宽、高、帧率、编码方式、码率、分辨率 ​ 其中码率的计算:码率(kbps)=文件大小(KB)*8/时间(秒),即码率和视频文件大小成正比 YUV和RGB可相互转换 ★YUV(原始数据&am…

论文研读:AnimateDiff—通过微调SD,用图片生成动画

1.概述 AnimateDiff 设计了3个模块来微调通用的文生图Stable Diffusion预训练模型, 以较低的消耗实现图片到动画生成。 论文名:AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 三大模块: 视频域适应…

百度地图绘制行政区域及设置中心点

// 画行政区 const drwaDistrict (disList, clear true) > {clear && clearOverlays();if (!bMapGL.value) return;let bd new bMapGL.value.Boundary();disList.map((item) > {bd.get(item, function (rs1) {// rs1 是行政区对应的点集合 此处非每次必反信息…

jetson Orin nx + yolov8 TensorRT 加速量化 环境配置

参考【Jetson】Jetson Orin NX纯系统配置环境-CSDN博客 一 系统环境配置: 1.更换源: sudo vi /etc/apt/sources.list.d/nvidia-l4t-apt-source.list2.更新源: sudo apt upgradesudo apt updatesudo apt dist-upgrade sudo apt-get updat…

VirtualBox下ubuntu23.04使用主机串口以及使用 minicom 进行串口调试

VirtualBox下ubuntu23.04使用主机串口以及使用 minicom 进行串口调试 一、打开设备管理器看主机(Window系统)是否识别出串口,我这边显示的串行通信端口是COM3 二、打开VirtualBox,设置串口和USB设备 串口设置: 启用…

Python 自动化 打开网站 填表登陆 例子

图样 简价: 简要说明这个程序的功能: 1. **基本功能**: - 自动打开网站 - 自动填写登录信息(号、公司名称、密码) - 显示半透明状态窗口实时提示操作进度 2. **操作流程**: - 打开网站后自动…

本原多项式

将 G F ( p ) GF(p) GF(p)延伸为有 p m p^m pm个元素的域,称之为 G F ( p ) GF(p) GF(p)的扩域,表示为 G F ( p m ) GF(p^m) GF(pm). G F ( p ) GF(p) GF(p)是 G F ( p m ) GF(p^m) GF(pm)的子集。 G F ( p m ) GF(p^m) GF(pm)元素个数为 p m p^m pm。 …

【物联网技术与应用】实验15:电位器传感器实验

实验15 电位器传感器实验 【实验介绍】 电位器可以帮助控制Arduino板上的LED闪烁的时间间隔。 【实验组件】 ● Arduino Uno主板* 1 ● 电位器模块* 1 ● USB电缆*1 ● 面包板* 1 ● 9V方型电池* 1 ● 跳线若干 【实验原理】 模拟电位器是模拟电子元件,模…