探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文

news2025/1/12 13:41:05

1. 概述

论文地址:https://arxiv.org/pdf/2312.05468.pdf
随着人工智能潜力的不断扩大,人工智能(AI)在化学领域的应用也在迅速发展。特别是大规模语言模型的出现,极大地扩展了人工智能在化学研究中的作用。由于这些模型具有支持化学研究中各种任务的超强能力,并且能够轻松地使用自然语言进行 "编程 "或 “教学”,因此备受关注。现在,大规模语言模型已从纯文本发展到多模态,可处理多种信息,成为应用广泛的强大而有用的人工智能助手。

GPT-4V 是这一演变的先驱。V "代表了它的视觉能力,它理解视觉和文本信息的能力远远超过了传统模型,能够从科学文献的图表中发现并分析有价值的数据。GPT-4V 的这一能力意味着,即使没有专业编程知识或计算机视觉技能的研究人员也能使用它,而且研究人员还可以通过定制指令来使用它。

本文展示了 GPT-4V 如何应用于网状化学研究。GPT-4V 能够整合和解释科学论文中的文字和图表数据,极大地提高了关键信息的提取和分析能力,尤其是从图表内容中读取物理特性结果的重要性。这种方法并不局限于网状化学,表明自动文献分析可以扩展到其他科学学科。

GPT-4V 的推出表明,人工智能可以进一步加强其在促进科学创新和发现方面的作用,缩小先进计算工具与前沿化学研究之间的差距。

2. 对 GPT-4V 性能的初步评估

在此,我们通过识别和解释网状化学文献中常见的图表来评估 GPT-4V 的性能。我们尤其关注氮等温线、粉末 X 射线衍射 (PXRD) 图样、热重分析 (TGA) 曲线、核磁共振 (NMR) 和红外光谱以及散点图、柱状图、二维和三维分子结构等各种图表,以了解 GPT-4V 是否能充分解释这些图表。该项目基于以下研究。此外,我们还分析了实验图像,包括合成方案、显微镜和扫描电子显微镜(SEM)图像。下图就是一个例子。

当被要求对每个图表进行详细描述时,GPT-4V 不仅能准确地对图像进行分类,还能深入浅出地讲述具体细节,包括注释、坐标轴范围、颜色编码、符号和线条形状、标签和图例,令人印象深刻。他们还能根据提供的图表说明信息进行推断。这种先进的上下文数据解读和综合分析功能凸显了 GPT-4V 作为强大的人工智能助手在科学文献图像和数据挖掘方面的适用性。

3. 及时设计页面内容标签

本文的目的是测试 GPT-4V 能否自主浏览科学文章、识别特定信息、将其编译成综合数据集并进行分析。本文特别关注显示金属有机框架(MOFs)物理性质的关键图表–氮等温线、粉末 X 射线衍射(PXRD)图、热重分析(TGA)曲线、晶体结构和拓扑图以及其他气体吸附等温线。这些图表对于阐明化合物的重要特性至关重要,如永久孔隙率、结晶度、热稳定性、拓扑结构和对气体的选择性。从这些图表中有效提取信息,并将其整合到大量文献中,对于提高我们对结构-性质关系的理解和加速新化合物的发现具有巨大潜力。

为实现这一目标,我们使用 GPT-4V 设计了针对上述类别的特定提示。这些提示考虑到了由于科学文献中常见的不同图和表并存的情况,一个页面上可能存在多个选项。此外,如果缺少某个类别,GPT-4V 也会明确指出缺少该类别。因此,GPT-4V 共有六个选项。这些提示的开发遵循文本挖掘提示工程的基本原则。下图为其概览。

4. GPT-4V 的性能评估

在这里,GPT-4V 对所选文献的每一页进行成像和分析。具体来说,GPT-4V 将页面图像与专门设计的文本提示相结合,并收集回复,从而自动对内容进行分类,并识别出包含情节的页面,以便进行深入分析。这一过程允许 GPT-4V 遵循特定的回复格式,并根据内容自动标记每一页。

GPT-4V 可准确识别每一页上所需的情节,无论信息的复杂程度如何、展示标注能力。

为了评估 GPT-4V 的分类准确性,我们将其与地面实况数据集进行了比较,地面实况数据集包含由网状化学专家人工审核和标注的 6,240 张图像。结果显示,除 "其他气体吸附等温线 "外,所有类别的准确率都超过 94%,但准确率、召回率和 F1 分数都在 87% 到 99% 之间。该类别的准确率较低,可能是由于提示说明不充分以及红外光谱和核磁共振光谱偶尔出现标记错误,这表明有机会进一步完善提示的针对性。

GPT-4V 的性能在网络接口和应用程序接口中也显示出相似的准确率,再次证明了基础模型的一致性。

这一自动化流程提供了多种操作选项,并能高效地从文献中收集信息。混淆矩阵分析显示了 GPT-4V 在大量文献中识别出氮等温线、PXRD 图样和 TGA 曲线的页数。

此外,许多页面被归类为缺乏感兴趣的情节,这可能有助于研究人员今后简化某些类型文献情节的审查过程。

5. 利用 GPT-4V 解释氮等温线数据

本节将探讨在成功标注页面内容后,如何使用 GPT-4V 对以氮等温线图为特色的页面进行详细解读和分析。对提示策略进行了改进,加入了更多特定语言,指导 GPT-4V 识别氮等温线,并从每个图中提取和报告关键信息。

其中包括图号、化合物名称、表面积和孔体积值、吸附-解吸曲线是否存在滞后现象、等温线的饱和高原以及对图周围边框的估计。

这种方法的关键在于指示 GPT-4V 只使用页面图像上的可用信息,而 "N/A "则表示数据不可用。因此,GPT-4V 通过分析等温线及其相关坐标轴、图例和文本内容,显示出高效提取这些细节的能力,令人印象深刻。

为了确认 GPT-4V 分析的准确性,我们对所选论文中超过 200 页的反应(包括氮等温线)进行了人工审核。特别是在图号、化合物名称和孔隙度分析方面,观察到了很高的准确性。这表明,GPT-4V 在图像处理功能中可能使用了光学字符识别 (OCR) 工具。此外,GPT-4V 对文本的高熟练度似乎对与可直接从图像中读取的文本信息相关的任务产生了积极影响。

然而,对于其他三个描述符,如是否存在滞后、饱和高原和边界框估计,其性能总体上令人满意,从 76.25% 到 84.58%不等。这些任务是更高级、更微妙的挑战,需要对所有图像元素进行全面分析。尽管如此,总体性能还是特别令人印象深刻,而且研究人员可以用自然语言对 GPT-4V 进行简单的指导,这进一步凸显了该技术的强大功能。

6. 加速网状化学数字数据库

在此,我们探讨了使用 GPT-4V 简化网状化合物详细数据库构建的可能性。特别是,我们根据科学界发表的文献中的实验结果,识别出具有独特氮等温线图的网页,并使用 WebPlotDigitizer 等工具仔细提取这些通常为非数字格式的数据。通过这一过程,提取的数据被系统地编译并存储到数据库中。这种方法提供了一个收集氮等温线数据点的实际例子,显示了各种等温线类型和孔隙度特征。

此外,还利用 CoRE MOF 数据库来匹配论文中讨论的化合物的计算结果和实验结果,从而对理论值和实验值进行比较。在这项分析中,将每种化合物的理论值与实验得出的表面积和孔隙率绘制成散点图,从而揭示化合物之间的一般趋势。

比较结果表明,即使是在实验确定的结构基础上,理论预测和实验结果之间也存在差异。这凸显了在选择材料时完全依赖计算结果的风险。

这项研究的启示表明,GPT-4V 不仅适用于网状化学,还适用于广泛的科学学科。娴熟的提示设计对于有效的数据库建设至关重要,而 DSPy 等创新工具的引入则有可能进一步改进研究过程,加快自然语言处理工具的发展。这一进步有望扩大文献数据挖掘的范围,并进一步增加人工智能工具在科学研究中的应用。

7. 总结

本文展示了GPT-4V 在网状化学领域的文本、图像和数据挖掘方面的作用。它重点介绍了 GPT-4V 使用独特设计的提示处理页面图像的能力,并成功识别和分类了包含所需信息的准确页面。值得注意的是,它表明这种方法可能不仅适用于网状化学,也适用于其他科学领域。

GPT-4V 等大型语言模型可以使用通常使用的自然语言进行 “编程”,消除了编码技术和特殊模型学习识别特定图表和图形的障碍。这种灵活性强调了一个事实,即只需对提示进行简单修改,就可以将分析从 TGA 曲线等转移到水等温线等完全不同的数据类型 。

此外,还建议整合 DSPy 等先进平台,使 GPT-4V 的使用更加有效。预计这将为科学数据挖掘开辟新的可能性,并使人工智能成为开发科学知识过程中更容易获取和使用的工具。这种方法有望大大提高科学研究领域的工作效率,并为从文献中提取更多数据提供机会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1813577.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

随笔——预处理详解

目录 前言预定义符号#define#define定义常量#define定义宏 带有副作用的宏参数宏替换的规则宏和函数的对比#和###运算符##运算符 命名约定#undef命令行定义条件编译头文件的包含包含方式嵌套包含 其他预处理指令完 前言 之前我们在《随笔——编译与链接》中对预处理作了大致的…

BitSet位图进行去重海量数据

问题 怎么在40亿个整数中找到唯一重复的数字? 1.Set的不可重复性 if(set.contains(x))System.out.println("重复的数字是"x);else{set.add(x);}但是,contains()方法消耗的时间,消耗的空间很大,毕竟有约40亿的数据,所…

上位机图像处理和嵌入式模块部署(h750 mcu和图像处理)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们说过,h750和之前的103、407相比较,本身cpu频率比较高,flash大小一般,但是ram比较大&#x…

uni-app前端,社区团购系统搭建部署

目录 前言: 一、社区团购模式: 二、社区团购系统功能: 三、总结: 前言: 区团购系统是一种利用互联网技术和组织力量,通过线上线下结合的方式,为社区居民提供方便快捷的商品和服务采购平台。…

前端三大件速成 05 javascript(2)字符串对象、数组对象、函数对象、BOM对象、DOM对象

文章目录 一、字符串对象1、创建字符串对象的两种方式2、字符串属性3、字符串的方法(1)编排方法(2)查询字符串索引(3)字符串切片(4)大小写转换(5)获取指定字符…

Neo4j 桌面版打不开踩坑贴

真的踩坑。。。没有人告诉我为啥桌面版和社区版不能一起下啊!! 我是先下载了社区版之后再下载的桌面版,结果桌面版界面一直打不开。 尝试了网上多种办法都没效果,好多都是说jdk不兼容导致无法打开,让我从JDK 17 ->…

element 表格第一列合并,第二列展开后出现错位情况

展开后发现蓝色一行挤下来&#xff0c;而且还错位了 解决思路&#xff1a;展开行&#xff0c;在dom上其实是新增了一行的高度&#xff0c;合并上新增一个高度就可以 <el-tablev-loading"tabLoading"fitref"oneRef"height"100%":span-method…

VS Code扩展开发介绍和快速示例

VS Code 介绍 VS Code&#xff08;Visual Studio Code&#xff09;是一款由微软开发的轻量级的免费开源的源代码编辑器&#xff0c;它支持多种操作系统&#xff0c;包括Windows、macOS和Linux。以下是对VS Code的详细介绍&#xff1a; 一、跨平台支持 VS Code是一个真正的跨…

Java语言+前端框架html+Thymeleaf +后端框架springboot开发的UWB智能定位系统源码 UWB三维可视化人员定位系统源码

Java语言前端框架htmlThymeleaf 后端框架springboot开发的UWB智能定位系统源码 UWB三维可视化人员定位系统源码 UWB定位系统基于B/S架构的软件和嵌入式硬件都具有很好的扩展性和兼容性&#xff0c;可以与其他系统接口&#xff08;比如&#xff1a;围界、AB门、高压电网、报警、…

HyperBDR新版本上线,自动化容灾兼容再升级!

本次HyperBDR v5.5.0版本新增完成HCS&#xff08;Huawei Cloud Stack&#xff09;8.3.x和HCSO&#xff08;Huawei Cloud Stack Online&#xff09;自动化对接&#xff0c;另外还突破性完成了Oracle云(块存储模式)的自动化对接。 HyperBDR&#xff0c;云原生业务级别容灾工具。支…

Vue3【十八】Vue3的生命周期

Vue3【十八】Vue3的生命周期 Vue3【十八】Vue3的生命周期 生命周期 vue组件实例在创建时要经历一系列的初始化步骤&#xff0c;在此过程中vue会在何时的时机&#xff0c; 调用特定的函数&#xff0c;从而让开发者有机会在特定时段运行自己的代码&#xff0c; 这些特定的函数统称…

字符串循环遍历抵消、队列的应用-649. Dota2 参议院

题目链接及描述 649. Dota2 参议院 - 力扣&#xff08;LeetCode&#xff09; 题目分析 题目描述的意思&#xff1a;对于一个字符串循环执行抵消操作&#xff0c;&#xff08;R的个数为1时可以使后续的一个D失效&#xff0c;D的个数为1时可以使后续的一个R失效&#xff09;【相…

私人云盘(自动云同步)

一、项目简介 模仿小米的云服务&#xff0c;实现一个通过TCP实现的私人云盘&#xff0c;因为能力有限&#xff0c;所以只实现自动云同步这一个功能&#xff0c;具体可以分为三个小功能&#xff0c;即保持云端和终端数据一致、实现文件的上传与下载以及手动同步 二、涉及到的知…

LayerNorm层归一化

1.背景 与 Batch normalization 不同&#xff0c;Layer normalization 是在特征维度上进行标准化的&#xff0c;而不是在数据批次维度上。像 Batch Norm 它的核心是数据批次之间的归一化【强调的是第 i 批次和第 i1 批次的区别&#xff0c;然后BN去缩小他们的的区别】&#xf…

Jacob环境探索(兼容性、管理员、DLL位置、VS环境,COM权限)

概述&#xff1a; 最近在生产开发实践出现了很多问题&#xff0c;经过了一系列排查&#xff0c;特做如下总结 探索成果&#xff1a; 1. jacob.dll的建议位置 首先jacob的官网&#xff0c;以及官方GitHub&#xff0c;你可以从这里找到DLL文件&#xff0c;以及相关资料然后DLL文…

lxml库在爬虫领域的贡献及应用

重头戏lxml库里面的xpath 一段代码给各位开开胃 这段代码首先导入了lxml库中的etree模块&#xff0c;然后定义了一个包含HTML内容的字符串html。接着&#xff0c;我们使用etree.HTML()函数解析这个HTML字符串&#xff0c;得到一个表示整个HTML文档的树形结构。最后&#xff0c;…

WindTerm使用SSH密钥连接阿里云实例,服务器设置SSH密钥登录

安装Windterm 地址https://github.com/kingToolbox/WindTerm/releases 下载完放到文件夹就可以打开 阿里云开启密钥对 打开阿里云ecs控制台 https://ecs.console.aliyun.com/keyPair/region/cn-wulanchabu 网络与安全->密钥对&#xff0c;创建密钥对&#xff0c;创建成…

STM32项目分享:智能蓝牙手环

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板打样焊接图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; https://www.bilibili.c…

改变Layout布局中路由渲染区域页面跳转变全屏

有一个需求需要点击侧边栏跳转页面时变全屏&#xff0c;而不是还在content中

QWidget 属性——windowTitle·windowIcon·qrc

&#x1f40c;博主主页&#xff1a;&#x1f40c;​倔强的大蜗牛&#x1f40c;​ &#x1f4da;专栏分类&#xff1a;QT ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 文章目录 一、windowTitle二、windowIcon三、qrc 一、windowTitle windowTitle 是一个通常用于表示窗口标题…