GPT-4充当“规划师、审计师”,颠覆性双层文生图表模型

news2024/9/21 12:24:36

DALL-E 3、Midjourney、Stable Diffusion等模型展现出了强大的创造能力,通过文本便能生成素描、朋克、3D、二次元等多种类型的高质量图片,但在生成科学图表(柱状、直方、箱线、树状等)方面却略显不足。

这是因为模型在生成图表时会遗漏重要的对象,生成错误的对象关系箭头,以及产生不可读的文本标签,缺乏对对象的精细布局控制。尤其是当多个对象存在复杂的箭头或线段关系时,无法渲染清晰可读的文本,而这两点对于图表生成至关重要。

为了解决这两大难题,北卡罗来纳大学提出了DiagrammerGPT框架。首先,使用GPT-4充当“规划师”,根据文本描述生成图表的布局规划信息

规划信息包含实体(对象和文本标签)、实体之间的关系(箭头、线段等)以及实体的布局信息(边界框坐标)。然后再用GPT-4充当“审计师”来审核整个规划计划,进行图表细节优化

图片

在图表生成阶段,通过DiagramGLIGEN扩散模型能够根据图表规划生成精准图表,并用Pillow库对文本标签进行渲染提升精准度。

根据测试数据显示,在多个量化指标上,DiagrammerGPT 显著优于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的图表。

在图表与文本相关性和对象关系的准确性评估方面,DiagrammerGPT分别取得36%和48%的优于基准模型的评分。该研究对于文本生成高精准图表模型来说,有着重大突破。

开源地址:https://github.com/aszala/DiagrammerGPT

论文地址:https://arxiv.org/abs/2310.12128

图表规划

DiagrammerGPT框架的最大创新在于,利用GPT-4的强大自然语言处理能力指导图表布局生成。为了生成更准确的规划,还设计了闭环反馈机制。

一个GPT-4 充当“规划师”生成初始规划,另一个 GPT-4 充当“审计师”,评估规划的准确性并提供反馈。而规划师可以根据反馈调整规划布局。

图片

1)初始图表规划生成

研究人员对GPT-4通过10个语境学习样例进行了训练,每个样例都包含完整的图表文本描述、实体、关系和布局信息。规划包含3个要素:

实体:对象和文本标签的列表。对象指图表中的图像元素,文本标签指对象的文字说明。

关系:实体之间的关系,比如箭头连接、线段连接、文本标签标注对象等。

布局:所有实体的边界框坐标信息,[x,y,w,h]格式。

2)规划优化

为进一步提高规划质量,提出了规划师、审计师的闭环反馈机制进行迭代优化。其中GPT-4充当规划师,另一个GPT-4充当审计师。审计师会检查规划与文本描述是否匹配,提供反馈意见;规划师根据反馈更新规划。

图片

其中,审计师GPT-4也是通过特定语境学习进行训练的,以提供有效的反馈意见。两者训练使用不同的语境学习样本。

图片

图表生成

研究人员通过Diagram GLIGEN扩散模型用于图表生成,并加入了门控自注意力层,可以利用图表规划的布局信息指导图像生成。

与原始的GLIGEN模型只处理物体不同,DiagramGLIGEN可同时处理文本标签和箭头关系作为布局输入。DiagramGLIGEN在AI2D-Caption数据集上进行了训练,使其能生成特定领域的科学图表。

图片

但由于扩散模型本身文本渲染效果不佳,无法输出清晰可读的文本,研究人员使用Pillow库显式渲染文本标签,提升文本的清晰度。

训练、评估数据集

研究人员基于AI2D科学图表数据集构建了AI2D-Caption数据集,用于文本到图表生成的训练和数据测试。AI2D包含约4900张科学图表图像,涵盖天文、生物、工程等领域。

其中选取了105张图表,使用大语言模型为每个图表生成详细的图像标题和对象描述。其中30张作为语言模型的语境学习样本,75张作为测试集。

相比原始AI2D只有简单的标题,AI2D-Caption提供了更丰富的文本描述,包括完整的图表标题和每个对象的详情。

图片

多个基准测试数据显示,在VPEval上,DiagrammerGPT的对象、数量、关系和文本渲染准确性均明显优于基准模型,从多个方面证明了其生成图表的高质量。

在图像字幕上,DiagrammerGPT生成的图表能产生更相关的标题,标题与真值更加接近。在CLIPScore上,DiagrammerGPT的图像-文本和图像-图像相似度更高,更接近真值图表和标题。还进行了人类评估,多数人表示,更喜欢DiagrammerGPT生成的图表。

本文素材来源北卡罗来纳大学论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1229511.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

你学了Python之后让你成为行业卷王,升职加薪更有优势

都说Python能够实现自动化,那么Python具体能应用在哪些地方?哪些岗位学了Python更有优势?今天我们来看看一些大神将Python应用的出神入化的成果。 在这之前,先跟为大家分享个真实的故事。我朋友小宇前段时间为了一个品牌设计的大项目,想方案…

SSL证书对网站SEO的好处

随着网络安全意识的提高,越来越多的网站开始采用SSL证书来保护自己的数据传输过程。那么,SSL证书真的能为网站SEO带来好处吗?下面将为您分析这个问题。 加强用户体验和信任度 SSL证书不仅能确保数据传输的安全性,还能让客户感受…

【技术指南资料】编码器与正交译码器

我想提出一个关于PicoScope7新的译码器功能讨论。它已经推出一段时间,但你可能不知道这在汽车领域是扮演相当重要的角色。 正交译码器被用在转子位置传感器来转换关于旋转轴角度及方向的信息。 举例来说,它在电机上采用一对二进制的信号型式。 这种传感器…

Linux 时区设置

对于服务器来说,linux的时区影响着运行之上的数据库和后端程序的时区 应该和数据库和后端及其他程序的时区保持一致 其他相关时区的设置 pgsql时区设置: php时区设置: 1.显示当前的时间和时区 date结果类似下面,图中显示的是ut…

【揭秘】MySQL逻辑架构:一文带你全面了解!

mysql是我们开发过程中使用的最多的数据库,大多数程序员平时都是做CRUD,如果CRUD慢了,那就再加一个索引,如果加上索引还不行,那基本上开发就没辙了,因为对mysql内部理解不深入、不清晰,所以问题…

智能货柜:无人零售行业的新宠

智能货柜:无人零售行业的新宠 与早期的传统自动售货机相比,智能货柜的投放场景正呈现多样化的趋势。除了人流密集的公共场所,一些办公室、健身房等室内场景也成为商家争相争夺的热门位置。 其次,在无人零售行业中,许多…

转录组学习第三弹-下载SRR数据并转成fastq

下载数据 前面已经安装好了需要的软件,那么我们现在需要下载我们练习需要用到的sra数据。从 SRA 数据库下载数据有多种方法。可以用ascp快速的来下载 sra 文件,也可以用wget或curl等传统命令从 FTP 服务器上下载 sra 文件。另外sra-tools的prefetch也支…

Zeet构建多云战略充分发挥云的优势

大型企业通常拥有基础设施和应用团队,有能力围绕自己的业务需求构建所需平台。但对于技术团队精简、预算紧张的小企业来说,定制平台往往不现实而且难以扩展,是负担不起的“奢侈品”。 这一情况催生了平台即服务(PaaS)…

ospf路由选路及路由汇总

一、知识补充 1、ABR和ASBR 1.1 ABR ABR指的是边界路由,通常位于两个或多个区域之间,用于在不同的OSPF区域之间传递信息。当一个路由器同时连接到两个或多个区域时,它就成为了ABR,它需要维护每个区域的拓扑信息和路由表&#x…

PC3392H高性价方案比10V-120V输入1.5A大电输出内置MOS管带EN功能实现零功耗使能只需极少元器件

1.PC3392H 特性  通过使能脚关断实现零功耗  宽电压输入范围 10V 至 120V  最大输出电流 1.5A  集成功率 MOS 管  外围器件少  输出短路保护  温度保护  逐周期限流  输出电压灵活可靠  ESOP8 2. 描述 PC3392H 一款宽电压范围降压型 DC-DC 电源…

CentOS安装nodejs

查看可安装的版本 dnf module list nodejs选择需要版本安装 dnf module install nodejs:<stream>查看版本

使用JDK自带java.util.logging.Logger引起的冲突问题

现象&#xff1a; 应用代码如下&#xff1a; import javax.script.ScriptEngineManager;ScriptEngineManager manager new ScriptEngineManager(); manager.getEngineByName("JavaScript"); 在TongWeb8上运行出错&#xff0c;日志如下&#xff1a; Servlet.servi…

一步一步教你如何在Windows 10上使用Java,包括下载、安装和配置等

Java开发工具包(JDK)是用于Java编程的软件,与Java虚拟机(JVM)和Java运行时环境(JRE)一起使用。JDK包括编译器和类库,允许开发人员创建可由JVM和JRE执行的Java程序。 在本教程中,你将学习在Windows上安装Java开发工具包。 检查是否安装了Java 在安装Java开发工具包之…

比科奇推出5G小基站开放式RAN射频单元的高性能低功耗SoC

全新的PC805作为业界首款支持25Gbps速率eCPRI和CPRI前传接口的系统级芯片&#xff08;SoC&#xff09;&#xff0c;消除了实现低成本开放式射频单元的障碍 中国北京&#xff0c;2023年11月 - 5G开放式RAN基带芯片和电信级软件提供商比科奇&#xff08;Picocom&#xff09;今日…

微创机器人:CRM撬动售后服务数字化升级

一方面&#xff0c;我国医疗器械行业起步较晚&#xff0c;更注重产品的销售和业务的拓展&#xff0c;企业售后服务整体比较滞后。 另一方面&#xff0c;医疗器械售后服务环节数字化程度不足&#xff0c;一些企业仍通过传统的线下手段管理售后服务&#xff0c;进行数字化尝试的…

SIMULIA 2022 Abaqus新功能之非线性、工作流、子程序、Explicit等

Abaqus 非线性力学的功能增强 Valanis-Landel 超弹性材料 通过指定单轴试验数据和可选的体积试验数据&#xff08;v2022新增选项&#xff09;来定义Valanis-Landel 超弹性模型&#xff0c;该模型能精确地复现给定的数据&#xff0c;类似Marlow模型&#xff0c;但与Marlow模型的…

俄罗斯操作系统Aurora OS 5.0全新UI亮相

俄罗斯媒体 IXBT 报道称&#xff0c;该地本土企业 Открытая мобильная платформа 于 2023 年 11 月 9 日至 10 日在圣彼得堡举行的 Mobius 2023 年秋季移动开发者专业会议上&#xff0c;展示了 Aurora OS 5.0 的界面和其他细节。 据介绍&#xff0c;…

滚动更新和回滚部署在 Kubernetes 中的工作原理

公众号「架构成长指南」&#xff0c;专注于生产实践、云原生、分布式系统、大数据技术分享。 在过去的几年中&#xff0c;Kubernetes 在生产环境中被广泛使用&#xff0c;它通过其声明式 API 提供了大量解决方案&#xff0c;用于编排容器。 Kubernetes 的一个显著特性是其具有…

简化业务流程——通知短信API在企业中的应用

引言 通知短信API是一种可以帮助企业简化业务流程的通讯工具。随着移动互联网技术的不断发展&#xff0c;移动通讯已经成为了我们日常生活和企业运营中不可或缺的一部分。通知短信API是一种可以在企业中将移动通讯应用到极致的工具&#xff0c;它可以为企业提供高效便捷的通讯…

JSP协同办公eclipse定制开发mysql数据库BS模式java编程OA系统

一、源码特点 java 协同办公管理系统是一套完善的web设计系统 &#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,eclipse开发&#xff0c;数据库为Mysql5.0&#xff0c;使…