通过提示工程将化学知识整合到大型语言模型中

news2025/1/10 20:39:22

在当今快速发展的人工智能领域,大型语言模型(LLMs)正成为科学研究的新兴工具。这些模型以其卓越的语言处理能力和零样本推理而闻名,为解决传统科学问题提供了全新的途径。然而,LLMs在特定科学领域的应用面临挑战,主要是因为它们缺乏对复杂科学概念的深入理解。

为了克服这一难题,本文提出了一种创新的“领域知识嵌入的提示工程”方法,旨在通过将特定领域的知识整合到提示(prompts)中,来增强大型语言模型(LLMs)在科学领域特别是化学、生物学和材料科学中的应用性能。这种方法在包括能力、准确性、F1分数和幻觉下降等指标上,超越了传统的提示工程策略。通过针对复杂材料(如MacMillan催化剂、紫杉醇和锂钴氧化物)的案例研究,展示了该方法的有效性,并强调了当LLMs配备特定领域的提示时,它们作为科学发现和创新的强大工具的潜力。

方法

这种方法的核心思想是利用领域专家的知识和推理过程来指导LLMs,使其能够生成更准确、更具相关性的回答。图1展示了“提示工程框架的整个过程”(The Whole Process of Prompt Engineering Framework)。该框架从数据集的构建开始,研究人员首先从化学、生物学和材料科学领域中收集和整理相关的信息,创建了专门针对这些领域的数据集。接着,这些数据被用来形成特定的任务,这些任务旨在评估和提升大型语言模型(LLMs)在特定科学问题上的表现。

数据集构建和答案评估方案

数据集的构建是一个关键步骤,它直接影响了后续评估大型语言模型(LLMs)性能的准确性和可靠性。研究团队采取了一种系统化的方法来选择和构建数据集,以确保它们能够全面覆盖化学工程领域的关键方面。

首先,团队将焦点放在了有机小分子、酶和晶体材料这三个类别上。这些类别不仅在化学工程中具有广泛的应用,而且各自代表了不同的科学规模和复杂性。有机小分子常用于制药开发和作为分子探针,酶在生物催化和治疗干预中扮演着关键角色,而晶体材料则是半导体技术和光伏设备中不可或缺的组成部分。

为了确保数据集的质量和相关性,研究团队从专业的数据库中提取了数据。例如,有机小分子的数据来源于PubChem数据库,这是一个包含大量化学结构和相关属性信息的公共数据库。对于酶,团队从UniProt数据库中提取信息,这是一个提供蛋白质序列和功能信息的数据库,其数据来源于科学文献和计算分析。晶体材料的数据则来自Materials Project数据库,该数据库提供材料属性和晶体结构的信息。

在提取了这些物质的信息后,研究团队设计了一系列问题,这些问题旨在评估LLMs在预测和推理这些物质的物理化学属性、生物过程和结构信息方面的能力。这些问题覆盖了从基本的物理化学属性,如分子公式、熔点、密度、溶解度、分子量,到更复杂的生物过程,如酶的活性位点、底物、产物和生物学途径。

研究团队还考虑了不同任务的输出类型、推理范式和链式思考(CoT)的复杂性,将问题分为不同的组别。例如,一些任务可能只需要通过逻辑推理就能得出数值答案,而另一些任务则可能需要依赖实验数据。一些任务可能需要特定的领域知识来进行文字推理,而其他任务则可能涉及到常见的或不常见的属性检索。

为了评估LLMs的性能,研究者们特别设计了一套综合性能评价体系。这套体系通过多个维度来衡量模型的性能,包括能力(Capability)、准确性(Accuracy)、F1分数(F1 Score)和幻觉下降(Hallucination Drop)。这些指标共同构成了一个多角度的评价框架,旨在深入理解模型在处理科学问题时的实际能力。

能力(Capability):这一指标关注的是模型是否能够对提出的问题给出回答。不同于准确性,能力指标不评价答案的正确性,而是衡量模型对问题的响应能力。如果模型能够针对问题生成一个回答,无论答案的正确与否,该指标都会给予正面评价。这种评价方式有助于识别模型在特定任务上的可行性,即使在答案不完全准确的情况下。

准确性(Accuracy):与能力指标相辅相成,准确性指标衡量的是模型给出的答案与真实答案之间的一致性。在这一指标下,答案越接近真实情况,获得的评分就越高。准确性是评价模型性能的关键因素,因为它直接关系到模型输出的可靠性。

F1分数(F1 Score):F1分数是精度(Precision)和召回率(Recall)的调和平均值,常用于评估分类任务的性能。在这项研究中,F1分数用于评估模型在多项选择题中的表现。一个高的F1分数意味着模型在保持高精确度的同时,也能够覆盖到更多的正确答案,从而在综合评价模型性能时提供了一个平衡的视角。

幻觉下降(Hallucination Drop):这一指标是研究者们为了评估模型产生不准确或“幻觉”回答的倾向而特别引入的。幻觉现象指的是模型在没有足够信息支持的情况下,仍然生成看似合理但实际错误的答案。幻觉下降指标通过计算模型回答的能力与其准确性之间的差异来量化这一现象,从而帮助研究者识别和改进模型在特定任务上可能出现的问题。

图2展示了问题构建和答案评估过程的流程。首先,他们会将模型对于每个问题的回答与真实答案进行比较,然后根据上述指标进行打分。例如,在能力指标的评价中,只要模型给出了回答,无论对错,都会得到一定的分数。而在准确性指标的评价中,答案与真实答案的一致性将直接影响得分。F1分数则需要模型在多项选择题中的表现既要精确又要全面。最后,幻觉下降指标会根据模型在能力与准确性上的表现差异来计算。

科学预测作为LLM问答问题:

科学预测任务的构建和执行是一个精心设计的流程,它充分利用了大型语言模型(LLMs)的先进能力,尤其是它们的零样本(zero-shot)和少样本(few-shot)推理能力。这些能力使得LLMs能够在没有针对特定任务进行过专门训练的情况下,通过理解问题的上下文来生成回答。

研究者们首先将科学问题转化为LLMs可以处理的问答形式。这种形式允许模型通过分析问题的文本描述来识别关键信息,并据此生成答案。例如,一个关于化合物稳定性的问题可能会被构建为:“给定化合物X的属性Y,它是稳定的吗?”这样的格式不仅清晰地指出了问题的核心,也为模型提供了生成答案所需的直接线索。

在提示工程的过程中,研究者们特别关注了提示词的上下文确定。提示词是直接呈现给模型的问题描述,它们的选择和构造对于引导模型生成准确答案至关重要。这个过程可以数学化地表达,即通过确定提示词P的上下文,使得LLMs能够有效地给出答案A。这可以表示为函数f(P, Q),其中Q是原始问题,P是提示,A是模型生成的答案,而f代表LLMs本身。

为了优化提示,研究者们采取了一种系统化的方法来评估不同提示对模型输出的影响。他们的目标是找到能够最大化模型输出与真实答案S一致性的提示。这涉及到一个优化问题,可以通过搜索不同的提示词P来解决。优化的目标是最大化一个评估函数g(f(P, Q), S),该函数衡量模型答案A与真实答案S的一致性。

图3阐述了不同提示工程方法的主流形式。这些方法包括零样本提示(Zero-shot Prompting)、少样本提示(Few-shot Prompting)、专家提示(Expert Prompting)、零样本链式思考(Zero-shot CoT)和少样本链式思考(Few-shot CoT)。在零样本提示中,LLMs被要求直接回答问题,而不提供任何上下文或示例。少样本提示则提供了几个示例,帮助模型理解并复制回答的格式和内容。专家提示通过角色扮演指导,使LLMs能够生成类似专家所写的回答。零样本CoT提示通过加入“让我们逐步思考”的触发句,引导模型进行逐步的推理过程。而少样本CoT提示则进一步提供了解决类似问题的思考链示例,以协助模型执行当前任务。

在实际操作中,研究者们可能会测试多个版本的提示,并评估它们在一组科学问题上的表现。他们可能会使用不同的提示策略,并比较这些策略在能力、准确性、F1分数和幻觉下降等指标上的表现。例如,如果研究者们正在处理一个关于晶体材料带隙的问题,他们可能会设计一个提示,如:“晶体材料的带隙是指...(这里提供带隙的定义和重要性),给定材料Z的电子结构,它的带隙是多少?”这样的提示不仅提供了问题的具体信息,还通过定义和背景信息来引导模型进行推理。

领域知识嵌入的提示工程:

领域知识嵌入的提示工程策略是这项研究的核心创新之一,图4详细描述了领域知识嵌入提示工程的步骤,包括角色扮演、CoT(Chain-of-Thought)示例和领域知识整合。它通过结合多个专家的知识和推理过程来增强大型语言模型(LLMs)的科学推理能力。这一策略的实施涉及以下几个关键步骤:

首先,研究团队汇集了不同领域的专家,这些专家对其专业领域内的知识和常见推理模式有着深刻的理解。这些专家被邀请参与到角色扮演中,他们需要从自己专业的角度出发,提供对特定科学问题的解答。

接着,专家们提供了一系列的CoT(Chain-of-Thought)示例。CoT示例是一种展示问题解决过程的方法,它详细阐述了从识别问题到找到答案的每一个步骤。与传统的零样本CoT方法相比,领域知识嵌入的提示工程策略不仅要求模型进行推理,还要求它们在这个过程中利用专家提供的精确背景知识和准确的人类推理示例。

例如,如果LLMs面临的任务是预测一个有机小分子的溶解度,领域专家可能会提供一个详细的CoT示例,展示如何根据分子的极性、分子间作用力以及分子大小等因素来推理溶解度。这个示例将包括对这些因素如何影响溶解度的详细解释,以及如何将这些因素综合起来得出最终的预测。

在这一过程中,专家的知识和推理示例被嵌入到提示中,形成了一种多专家混合的提示策略。这种策略不仅提供了一个领域的深度知识,还通过多个专家的视角来丰富问题的解决路径。这使得LLMs能够在一个更加丰富和多元的知识背景下进行推理,从而提高了它们生成准确和相关回答的能力。

这种策略还有助于减少LLMs在科学任务中的“幻觉”现象,即模型在缺乏足够信息的情况下生成看似合理但实际上错误的答案。通过提供精确的背景知识和准确的推理示例,领域知识嵌入的提示工程策略引导模型更加贴近人类的科学推理过程。

结果

研究者们对五种不同的提示工程策略进行了评估,包括零样本(Zero-shot)、少样本(Few-shot)、专家(Expert)、零样本链式思考(Zero-shot CoT)以及领域知识嵌入的提示工程方法。这些策略在三个数据集上的表现——有机小分子、酶和晶体材料——被全面比较。结果显示,领域知识嵌入的提示工程方法在多数任务和评价指标上均优于传统方法。

图5 展示了不同提示工程策略在所有任务上的“能力(Capability)”和“准确性(Accuracy)”的总体表现。领域知识嵌入的提示工程方法在这项评估中显示出其独特的优势。由于这种方法结合了专业知识和推理示例,它能在多个任务上都展现出较高的能力和准确性,特别是在那些需要复杂推理和专业知识的领域。这表明,与传统的提示工程方法相比,领域知识嵌入的提示可以显著提高LLMs在科学任务上的性能。

图 7 通过输出类型对提示工程的性能进行了细致的比较分析。这一图表揭示了大型语言模型(LLMs)在不同任务类型上的表现,包括数值逻辑推理、实验数据推理、逻辑文字推理和基于实验数据的文字推理。每种任务类型都对模型的理解和推理能力提出了不同的要求。

领域知识嵌入的提示工程方法在所有任务类型上均显示出其优越性,与传统的提示工程策略相比,它在“能力”、“准确性”、“F1分数”和“幻觉下降”等关键指标上均有显著提升。特别是在需要复杂逻辑推理的任务上,领域知识嵌入的提示能够显著提高LLMs的性能,这表明了将专业知识整合到提示中对于提升模型在科学领域应用的有效性至关重要。

图8显示领域知识嵌入的提示工程方法在各种推理范式中均显示出其有效性,特别是在需要深入领域知识的任务上。例如,在领域知识直接推理任务中,该方法能够帮助LLMs更好地利用其预训练阶段吸收的专业知识,从而生成更准确和可信的答案。

图10 表展示了大型语言模型(LLMs)在处理有机小分子、酶和晶体材料这三种不同材料类别的任务时的性能差异。

对于有机小分子,研究者们发现,随着分子复杂性的增加,即分子重量的增加和元素组成的多样化,LLMs的预测准确性逐渐下降。特别是,当分子重量超过300 g/mol或包含超过五种不同元素时,性能显著下降。

的预测方面,LLMs的准确性与当前对这些酶的研究深度密切相关,而与酶的大小,即氨基酸数量,关系不大。这意味着,如果一个酶在学术界得到了广泛的研究和理解,LLMs预测其属性的准确性就越高。

对于晶体材料,LLMs在预测那些具有较大、更复杂组成以及低对称性晶体结构的材料时准确性降低。然而,属于三斜、立方或六角晶系的晶体结构更可能产生更好的预测结果,这可能是因为这些结构更规则,且在科学文献中的数据更丰富。

图11 在论文中展示了针对 MacMillan 第二代咪唑啉酮催化剂的提示工程案例研究。MacMillan 催化剂因其在有机催化领域的开创性贡献而获得了 2021 年诺贝尔化学奖,这一创新对合成化学和化学工业产生了深远的影响。在这一案例研究中,研究者们利用领域知识嵌入的提示工程方法,旨在评估 LLMs 在整合有关分子复杂细节和预测其潜在应用方面的性能。通过精心设计的提示,LLMs 能够展示其在分析 SMILES 序列和进行基本算术运算方面的熟练程度。LLMs 还能够利用催化剂的机理和示例,准确预测特定底物的催化产物,从而凸显了模型在为化学催化剂的实际应用和工业应用提供信息方面的潜力。

领域知识嵌入的提示工程证明了其在化学、材料科学和生物学等领域的有效性。未来的工作可以探索将该方法扩展到其他科学领域,如物理学、地质学和医学,以及整合外部数据集和特定领域的工具,以进一步提升LLMs的推理能力。

论文链接:https://arxiv.org/pdf/2404.14467

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1709175.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《java数据结构》--队列详解

一.认识队列🐱 初识队列😸 队列和栈类似都对数据的存取有着严格的要求,不同的是栈遵循先进后出的原则,而队列遵循先进先出的原则,栈是只有一端可以存取,队列是一端存,一端取。这里我来画一个图…

echarts-象形柱图

象形柱图 一般的柱图都是纯色柱图,使用象形柱图可以给柱图定义自己的样式。 样式的调节与柱图一样,核心在于symbol调节柱图的组成。 let options {tooltip: {},xAxis: {type: "category",data: ["d1", "d2", "d3&qu…

Golang | Leetcode Golang题解之第103题二叉树的锯齿形层序遍历

题目: 题解: func zigzagLevelOrder(root *TreeNode) (ans [][]int) {if root nil {return}queue : []*TreeNode{root}for level : 0; len(queue) > 0; level {vals : []int{}q : queuequeue nilfor _, node : range q {vals append(vals, node.V…

啊哈!算法-第2章-栈、队列、链表

啊哈!算法-第2章-栈、队列、链表 第1节 解密qq号——队列第2节 解密回文——栈第3节 纸牌游戏——小猫钓鱼第4节 链表第5节 模拟链表 第1节 解密qq号——队列 新学期开始了,小哈是小哼的新同桌(小哈是个大帅哥哦~),小哼向小哈询问 QQ 号, 小…

揭秘:如何使用Python统计女友生日还剩几天?

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:为何需要统计生日天数? 二、需求分析与准备 1. 用户输入格…

【设计模式】JAVA Design Patterns——Curiously Recurring Template Pattern(奇异递归模板模式)

🔍目的 允许派生组件从与派生类型兼容的基本组件继承某些功能。 🔍解释 真实世界例子 对于正在策划赛事的综合格斗推广活动来说,确保在相同重量级的运动员之间组织比赛至关重要。这样可以防止体型明显不同的拳手之间的不匹配,例如…

云服务器平台AutoDL--基本介绍与使用感受

因为课程作业需要复现DreamBooth,找了几个教程之后,发现了AutoDL这个好东西,芜湖~ 相关概念 以下回答来自于ChatGPT。 云计算平台:云服务器平台是提供按需计算资源和服务的在线平台,通常包括存储、处理能力、数据库、…

Servlet跳转404(解决)

1.解决无法跳转的404问题(最根本,最重要) 查看Project Structure,检查你的JDK版本不要选错版本; 2.页面跳转,url栏输入的是web.xml中的url-pattern内容,请仔细检查 3.关于配置信息Applicatio…

TIM输出比较

一、OC(Output Compare)输出比较 1、输出比较可以通过比较CNT(计数器)与CCR(捕获/比较寄存器)寄存器值的关系,来对输出电平进行置1、置0或翻转的操作,用于输出一定频率和占空比的PW…

C++之对象的使用

1、static成员 2、static成员优点 2、static成员函数 静态成员函数不能访问非静态成员原因:因为没有this指针。也不可以访问非静态成员函数。 可以通过对象来访问静态成员,但是不推荐这么使用,会让人误解成这个x_是属于对象的,但…

Unity3D插件开发教程(二):制作批处理工具

Unity3D插件开发教程(二):制作批处理工具 文章来源:Unity3D插件开发教程(二):制作批处理工具 - 知乎 (zhihu.com) 声明: 题图来自于Gratisography | Free High Resolution Pictures…

区块链的运行原理与演示

目录 前言 具体演示 1、在浏览器中输入区块链演示网址: 2、创建新区块 3、篡改区块信息使其无效 4、新增P2P 网络节点。 5、节点连接。 6、区块信息同步 总结 前言 区块链系统是由一系列分布在全球各地的分布式节点组成的。这些节点互不隶属,通过…

目标检测基础初步学习

目标检测(Object Detection) 目标检测任务说明 在动手学习深度学习中对目标检测任务有如下的描述。 图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。 然而,很多时候图像里有多个我们…

中心入侵渗透

问题1. windows登录的明文密码,存储过程是怎么样的?密文存在哪个文件下?该文件是否可以打开,并且查看到密文? 回答: Windows登录的明文密码的存储过程是: 当用户尝试登录Windows时&#xff0…

MM模块六(收货)

接到供应商收到的货以后,进行一个收货的动作 收货:MIGO 1.消耗物料的采购订单 数量是供应商的数量 消耗物料的采购订单,收进来的货物直接进入消耗,不会增加库存,所以这里没有库存地点进行选择 点击过账 收货后在采购…

ubuntu 配置用户登录失败尝试次数限制

前言: 通过修改pam配置来达到限制密码尝试次数! 1:修改 /etc/pam.d/login 配置(这里只是终端登录配置,如果还需要配置SSH远程登录限制,只配置下面的 /etc/pam.d/pam.d/common-auth 即可) vim…

go-zero 实战(1)

环境准备 go 版本 go version go1.22.2 linux/amd64 goctl 安装 goctl(官方建议读 go control)是 go-zero微服务框架下的代码生成工具。使用 goctl 可以显著提升开发效率,让开发人员将时间重点放在业务开发上,其功能有&#xff1a…

【东山派Vision K510开发板试用笔记】WiFi配网问题

目录 概述 WiFi配网的修改 悬而未决的问题 概述 最近试用了百问网提供的东山派Vision开发板,DongshanPI-Vision开发板是百问网针对AI应用开发设计出来的一个RSIC-V架构的AI开发板,主要用于学习使用嘉楠的K510芯片进行Linux项目开发和嵌入式AI应用开发…

手撕C语言题典——返回倒数第 k 个节点(面试题)

前言 依旧力扣,这道题之前有做过类似的题,今天给一个新的思路去做,应对面试时候遇到的奇奇怪怪的问题 面试题 02.02. 返回倒数第 k 个节点 - 力扣(LeetCode)https://leetcode.cn/problems/kth-node-from-end-of-list-…

英特尔LLM技术挑战记录

英特尔技术介绍: Flash Attention Flash Attention 是一种高效的注意力机制实现,旨在优化大规模 Transformer 模型中的自注意力计算。在深度学习和自然语言处理领域,自注意力是 Transformer 架构的核心组件,用于模型中不同输入元…