通过提示工程将化学知识整合到大型语言模型中

在当今快速发展的人工智能领域，大型语言模型（LLMs）正成为科学研究的新兴工具。这些模型以其卓越的语言处理能力和零样本推理而闻名，为解决传统科学问题提供了全新的途径。然而，LLMs在特定科学领域的应用面临挑战，主要是因为它们缺乏对复杂科学概念的深入理解。

为了克服这一难题，本文提出了一种创新的“领域知识嵌入的提示工程”方法，旨在通过将特定领域的知识整合到提示（prompts）中，来增强大型语言模型（LLMs）在科学领域特别是化学、生物学和材料科学中的应用性能。这种方法在包括能力、准确性、F1分数和幻觉下降等指标上，超越了传统的提示工程策略。通过针对复杂材料（如MacMillan催化剂、紫杉醇和锂钴氧化物）的案例研究，展示了该方法的有效性，并强调了当LLMs配备特定领域的提示时，它们作为科学发现和创新的强大工具的潜力。

方法

这种方法的核心思想是利用领域专家的知识和推理过程来指导LLMs，使其能够生成更准确、更具相关性的回答。图1展示了“提示工程框架的整个过程”（The Whole Process of Prompt Engineering Framework）。该框架从数据集的构建开始，研究人员首先从化学、生物学和材料科学领域中收集和整理相关的信息，创建了专门针对这些领域的数据集。接着，这些数据被用来形成特定的任务，这些任务旨在评估和提升大型语言模型（LLMs）在特定科学问题上的表现。

数据集构建和答案评估方案

数据集的构建是一个关键步骤，它直接影响了后续评估大型语言模型（LLMs）性能的准确性和可靠性。研究团队采取了一种系统化的方法来选择和构建数据集，以确保它们能够全面覆盖化学工程领域的关键方面。

首先，团队将焦点放在了有机小分子、酶和晶体材料这三个类别上。这些类别不仅在化学工程中具有广泛的应用，而且各自代表了不同的科学规模和复杂性。有机小分子常用于制药开发和作为分子探针，酶在生物催化和治疗干预中扮演着关键角色，而晶体材料则是半导体技术和光伏设备中不可或缺的组成部分。

为了确保数据集的质量和相关性，研究团队从专业的数据库中提取了数据。例如，有机小分子的数据来源于PubChem数据库，这是一个包含大量化学结构和相关属性信息的公共数据库。对于酶，团队从UniProt数据库中提取信息，这是一个提供蛋白质序列和功能信息的数据库，其数据来源于科学文献和计算分析。晶体材料的数据则来自Materials Project数据库，该数据库提供材料属性和晶体结构的信息。

在提取了这些物质的信息后，研究团队设计了一系列问题，这些问题旨在评估LLMs在预测和推理这些物质的物理化学属性、生物过程和结构信息方面的能力。这些问题覆盖了从基本的物理化学属性，如分子公式、熔点、密度、溶解度、分子量，到更复杂的生物过程，如酶的活性位点、底物、产物和生物学途径。

研究团队还考虑了不同任务的输出类型、推理范式和链式思考（CoT）的复杂性，将问题分为不同的组别。例如，一些任务可能只需要通过逻辑推理就能得出数值答案，而另一些任务则可能需要依赖实验数据。一些任务可能需要特定的领域知识来进行文字推理，而其他任务则可能涉及到常见的或不常见的属性检索。

为了评估LLMs的性能，研究者们特别设计了一套综合性能评价体系。这套体系通过多个维度来衡量模型的性能，包括能力（Capability）、准确性（Accuracy）、F1分数（F1 Score）和幻觉下降（Hallucination Drop）。这些指标共同构成了一个多角度的评价框架，旨在深入理解模型在处理科学问题时的实际能力。

能力（Capability）：这一指标关注的是模型是否能够对提出的问题给出回答。不同于准确性，能力指标不评价答案的正确性，而是衡量模型对问题的响应能力。如果模型能够针对问题生成一个回答，无论答案的正确与否，该指标都会给予正面评价。这种评价方式有助于识别模型在特定任务上的可行性，即使在答案不完全准确的情况下。

准确性（Accuracy）：与能力指标相辅相成，准确性指标衡量的是模型给出的答案与真实答案之间的一致性。在这一指标下，答案越接近真实情况，获得的评分就越高。准确性是评价模型性能的关键因素，因为它直接关系到模型输出的可靠性。

F1分数（F1 Score）：F1分数是精度（Precision）和召回率（Recall）的调和平均值，常用于评估分类任务的性能。在这项研究中，F1分数用于评估模型在多项选择题中的表现。一个高的F1分数意味着模型在保持高精确度的同时，也能够覆盖到更多的正确答案，从而在综合评价模型性能时提供了一个平衡的视角。

幻觉下降（Hallucination Drop）：这一指标是研究者们为了评估模型产生不准确或“幻觉”回答的倾向而特别引入的。幻觉现象指的是模型在没有足够信息支持的情况下，仍然生成看似合理但实际错误的答案。幻觉下降指标通过计算模型回答的能力与其准确性之间的差异来量化这一现象，从而帮助研究者识别和改进模型在特定任务上可能出现的问题。

图2展示了问题构建和答案评估过程的流程。首先，他们会将模型对于每个问题的回答与真实答案进行比较，然后根据上述指标进行打分。例如，在能力指标的评价中，只要模型给出了回答，无论对错，都会得到一定的分数。而在准确性指标的评价中，答案与真实答案的一致性将直接影响得分。F1分数则需要模型在多项选择题中的表现既要精确又要全面。最后，幻觉下降指标会根据模型在能力与准确性上的表现差异来计算。

科学预测作为LLM问答问题：

科学预测任务的构建和执行是一个精心设计的流程，它充分利用了大型语言模型（LLMs）的先进能力，尤其是它们的零样本（zero-shot）和少样本（few-shot）推理能力。这些能力使得LLMs能够在没有针对特定任务进行过专门训练的情况下，通过理解问题的上下文来生成回答。

研究者们首先将科学问题转化为LLMs可以处理的问答形式。这种形式允许模型通过分析问题的文本描述来识别关键信息，并据此生成答案。例如，一个关于化合物稳定性的问题可能会被构建为：“给定化合物X的属性Y，它是稳定的吗？”这样的格式不仅清晰地指出了问题的核心，也为模型提供了生成答案所需的直接线索。

在提示工程的过程中，研究者们特别关注了提示词的上下文确定。提示词是直接呈现给模型的问题描述，它们的选择和构造对于引导模型生成准确答案至关重要。这个过程可以数学化地表达，即通过确定提示词P的上下文，使得LLMs能够有效地给出答案A。这可以表示为函数f(P, Q)，其中Q是原始问题，P是提示，A是模型生成的答案，而f代表LLMs本身。

为了优化提示，研究者们采取了一种系统化的方法来评估不同提示对模型输出的影响。他们的目标是找到能够最大化模型输出与真实答案S一致性的提示。这涉及到一个优化问题，可以通过搜索不同的提示词P来解决。优化的目标是最大化一个评估函数g(f(P, Q), S)，该函数衡量模型答案A与真实答案S的一致性。

图3阐述了不同提示工程方法的主流形式。这些方法包括零样本提示（Zero-shot Prompting）、少样本提示（Few-shot Prompting）、专家提示（Expert Prompting）、零样本链式思考（Zero-shot CoT）和少样本链式思考（Few-shot CoT）。在零样本提示中，LLMs被要求直接回答问题，而不提供任何上下文或示例。少样本提示则提供了几个示例，帮助模型理解并复制回答的格式和内容。专家提示通过角色扮演指导，使LLMs能够生成类似专家所写的回答。零样本CoT提示通过加入“让我们逐步思考”的触发句，引导模型进行逐步的推理过程。而少样本CoT提示则进一步提供了解决类似问题的思考链示例，以协助模型执行当前任务。

在实际操作中，研究者们可能会测试多个版本的提示，并评估它们在一组科学问题上的表现。他们可能会使用不同的提示策略，并比较这些策略在能力、准确性、F1分数和幻觉下降等指标上的表现。例如，如果研究者们正在处理一个关于晶体材料带隙的问题，他们可能会设计一个提示，如：“晶体材料的带隙是指...（这里提供带隙的定义和重要性），给定材料Z的电子结构，它的带隙是多少？”这样的提示不仅提供了问题的具体信息，还通过定义和背景信息来引导模型进行推理。

领域知识嵌入的提示工程：

领域知识嵌入的提示工程策略是这项研究的核心创新之一，图4详细描述了领域知识嵌入提示工程的步骤，包括角色扮演、CoT（Chain-of-Thought）示例和领域知识整合。它通过结合多个专家的知识和推理过程来增强大型语言模型（LLMs）的科学推理能力。这一策略的实施涉及以下几个关键步骤：

首先，研究团队汇集了不同领域的专家，这些专家对其专业领域内的知识和常见推理模式有着深刻的理解。这些专家被邀请参与到角色扮演中，他们需要从自己专业的角度出发，提供对特定科学问题的解答。

接着，专家们提供了一系列的CoT（Chain-of-Thought）示例。CoT示例是一种展示问题解决过程的方法，它详细阐述了从识别问题到找到答案的每一个步骤。与传统的零样本CoT方法相比，领域知识嵌入的提示工程策略不仅要求模型进行推理，还要求它们在这个过程中利用专家提供的精确背景知识和准确的人类推理示例。

例如，如果LLMs面临的任务是预测一个有机小分子的溶解度，领域专家可能会提供一个详细的CoT示例，展示如何根据分子的极性、分子间作用力以及分子大小等因素来推理溶解度。这个示例将包括对这些因素如何影响溶解度的详细解释，以及如何将这些因素综合起来得出最终的预测。

在这一过程中，专家的知识和推理示例被嵌入到提示中，形成了一种多专家混合的提示策略。这种策略不仅提供了一个领域的深度知识，还通过多个专家的视角来丰富问题的解决路径。这使得LLMs能够在一个更加丰富和多元的知识背景下进行推理，从而提高了它们生成准确和相关回答的能力。

这种策略还有助于减少LLMs在科学任务中的“幻觉”现象，即模型在缺乏足够信息的情况下生成看似合理但实际上错误的答案。通过提供精确的背景知识和准确的推理示例，领域知识嵌入的提示工程策略引导模型更加贴近人类的科学推理过程。

结果

研究者们对五种不同的提示工程策略进行了评估，包括零样本（Zero-shot）、少样本（Few-shot）、专家（Expert）、零样本链式思考（Zero-shot CoT）以及领域知识嵌入的提示工程方法。这些策略在三个数据集上的表现——有机小分子、酶和晶体材料——被全面比较。结果显示，领域知识嵌入的提示工程方法在多数任务和评价指标上均优于传统方法。

图5 展示了不同提示工程策略在所有任务上的“能力（Capability）”和“准确性（Accuracy）”的总体表现。领域知识嵌入的提示工程方法在这项评估中显示出其独特的优势。由于这种方法结合了专业知识和推理示例，它能在多个任务上都展现出较高的能力和准确性，特别是在那些需要复杂推理和专业知识的领域。这表明，与传统的提示工程方法相比，领域知识嵌入的提示可以显著提高LLMs在科学任务上的性能。

图 7 通过输出类型对提示工程的性能进行了细致的比较分析。这一图表揭示了大型语言模型（LLMs）在不同任务类型上的表现，包括数值逻辑推理、实验数据推理、逻辑文字推理和基于实验数据的文字推理。每种任务类型都对模型的理解和推理能力提出了不同的要求。

领域知识嵌入的提示工程方法在所有任务类型上均显示出其优越性，与传统的提示工程策略相比，它在“能力”、“准确性”、“F1分数”和“幻觉下降”等关键指标上均有显著提升。特别是在需要复杂逻辑推理的任务上，领域知识嵌入的提示能够显著提高LLMs的性能，这表明了将专业知识整合到提示中对于提升模型在科学领域应用的有效性至关重要。

图8显示领域知识嵌入的提示工程方法在各种推理范式中均显示出其有效性，特别是在需要深入领域知识的任务上。例如，在领域知识直接推理任务中，该方法能够帮助LLMs更好地利用其预训练阶段吸收的专业知识，从而生成更准确和可信的答案。

图10 表展示了大型语言模型（LLMs）在处理有机小分子、酶和晶体材料这三种不同材料类别的任务时的性能差异。

对于有机小分子，研究者们发现，随着分子复杂性的增加，即分子重量的增加和元素组成的多样化，LLMs的预测准确性逐渐下降。特别是，当分子重量超过300 g/mol或包含超过五种不同元素时，性能显著下降。

在酶的预测方面，LLMs的准确性与当前对这些酶的研究深度密切相关，而与酶的大小，即氨基酸数量，关系不大。这意味着，如果一个酶在学术界得到了广泛的研究和理解，LLMs预测其属性的准确性就越高。

对于晶体材料，LLMs在预测那些具有较大、更复杂组成以及低对称性晶体结构的材料时准确性降低。然而，属于三斜、立方或六角晶系的晶体结构更可能产生更好的预测结果，这可能是因为这些结构更规则，且在科学文献中的数据更丰富。

图11 在论文中展示了针对 MacMillan 第二代咪唑啉酮催化剂的提示工程案例研究。MacMillan 催化剂因其在有机催化领域的开创性贡献而获得了 2021 年诺贝尔化学奖，这一创新对合成化学和化学工业产生了深远的影响。在这一案例研究中，研究者们利用领域知识嵌入的提示工程方法，旨在评估 LLMs 在整合有关分子复杂细节和预测其潜在应用方面的性能。通过精心设计的提示，LLMs 能够展示其在分析 SMILES 序列和进行基本算术运算方面的熟练程度。LLMs 还能够利用催化剂的机理和示例，准确预测特定底物的催化产物，从而凸显了模型在为化学催化剂的实际应用和工业应用提供信息方面的潜力。

领域知识嵌入的提示工程证明了其在化学、材料科学和生物学等领域的有效性。未来的工作可以探索将该方法扩展到其他科学领域，如物理学、地质学和医学，以及整合外部数据集和特定领域的工具，以进一步提升LLMs的推理能力。

论文链接：https://arxiv.org/pdf/2404.14467