人工智能咨询培训老师叶梓 转载标明出处
在化学这一特定学科的应用上,一直缺乏专门的对话模型。化学数据和科学知识通常存储在结构化的数据库中,这给直接使用这些数据训练语言模型带来了挑战。为了解决这一问题,来自上海人工智能实验室的研究团队及其合作者们开发了一种基于模板的指令构建方法,将结构化知识转化为适合语言模型训练的自然对话形式。
ChemLLM 的开发,填补了化学领域对话模型的空白。它不仅在化学任务上表现出色,如分子属性预测、分子生成和实验方案设计等,还在数学和物理等相关领域展现了出色的适应性。ChemLLM 在化学核心任务上超越了 GPT-3.5,并在其中两个任务上超越了 GPT-4。
ChemLLM 的开发过程中,研究团队面临了将化学领域的结构化数据转化为自然语言以供语言模型训练的挑战。为了应对这一挑战,他们创造了 ChemData,这是一个合成的化学指令调整数据集,它构成了训练 ChemLLM 的基础。
ChemData 的构建开始于对原始数据的广泛收集。研究团队从多个在线资源和数据库中聚合化学数据,这些数据覆盖了化学领域的广泛知识,包括分子结构、化学反应、化学属性等。这些原始数据为创建一个全面的数据集提供了基础。
为了将这些结构化数据转化为自然语言格式,研究者们采用了一种基于模板的方法。这种方法首先创建了一个“种子模板”,这是一个基础的问答对,它根据特定任务的需求来设计。然后利用大型语言模型(如 GPT-4)生成多样化的问题和答案对,这些变体在语义上保持一致,但在表达上有所不同,从而增加了模型处理不同指令的能力。
种子模板的设计非常关键,因为它需要能够灵活地适应不同的化学概念和任务。例如,在分子属性预测任务中,模板可能需要包含分子的名称、结构和预期的属性。在化学反应预测任务中,模板则需要能够描述反应物、反应条件和预期的产物。为了实现这一点,研究者们采用了一种动态的模板生成策略,通过在模板中嵌入变量,使得模板能够在不同的化学情境中重复使用。
变量替换是模板构建方法中的一个关键步骤。这些变量代表了化学数据中的不同组成部分,如分子的SMILES表示、IUPAC名称或化学式。在生成问答对时,这些变量会被实际的化学数据所替换。例如,一个关于分子属性预测的模板可能包含如下结构:“[分子名称]的[属性]是什么?”在实际应用中,[分子名称]和[属性]会被相应的化学数据替换,生成具体的问题和答案。
为了确保生成的问答对覆盖广泛的化学概念和任务,研究者们采用了一种迭代和多样化的策略。首先,他们利用大型语言模型(如GPT-4)基于种子模板生成一系列的问答对。这些问答对在语义上保持一致,但在表达上有所不同,从而增加了模型处理不同指令的能力。这种方法不仅提高了数据的多样性,也使得模型能够更好地理解和生成化学相关的对话。
研究者们还引入了“扮演剧作家”策略来创建多轮对话场景。这种方法通过模拟专家之间的深入讨论,生成逻辑严密的对话流。在这个过程中,模型不仅要学会如何预测反应产物,还要能够就反应条件和产率等进行深入分析和讨论。这种多轮对话的构建不仅增强了模型的上下文理解和推理能力,也使得模型能够更自然地参与到化学领域的对话中。
在开发 ChemLLM 的过程中,研究者们面临的一个关键问题是如何在保持语言模型通用对话能力的同时,赋予其专业的化学知识和应用能力。为了解决这个问题,研究团队设计了一个创新的两阶段指令调整管道,这一方法不仅成功地提升了 ChemLLM 在化学领域的专业能力,也为其他科学领域的语言模型训练提供了新的思路。
第一阶段:通用语料库训练 两阶段训练的初始阶段侧重于使用通用语料库来增强模型的语言理解能力。在这一阶段,模型被暴露于多种类型的文本和对话中,这些文本不仅包括日常会话,还涵盖了科学、技术、工程和数学(STEM)等多个领域。通过这种广泛的训练,模型学习到了丰富的语言结构、对话模式和背景知识,为其后续的化学领域专业化训练打下了坚实的基础。
第二阶段:化学领域知识训练 在模型经过通用语料库训练之后,第二阶段的重点是利用 ChemData 数据集对模型进行化学领域的专门训练。ChemData 数据集包含了大量的化学指令数据,这些数据通过模板合成方法生成,涵盖了化学名称转换、分子属性预测、分子生成、分子标题、反应条件预测、反应产物预测等多种化学任务。在这一阶段,模型通过这些专业的化学数据进一步学习化学概念、术语和逻辑,从而获得了处理化学问题的能力。
评估方法采用了专门的工具,如ChemBench、MMLU和GSM8K。ChemBench专注于化学领域的专业任务,通过设置与化学概念、属性和反应相关的具体问题来测试模型。MMLU是一个多任务语言理解评估,覆盖广泛的学科,用以检验模型的通用语言能力。GSM8K则专注于测试模型的数学推理能力。评估过程中,模型的输出会根据预设的评分标准进行打分,这些标准可能包括准确性、响应的相关性以及逻辑一致性。模型的输出处理方式,如答案的解析和比较,也是评估过程中不可或缺的一部分,确保了评估结果的客观性和可靠性。评估包含三个层次的任务,分别是:
名称转换:测试模型在不同化学标识符间转换的能力,如SMILES字符串、IUPAC名称和化学式。
分子标题:评估模型预测分子特性的能力,例如分子的溶解度或血脑屏障的穿透性。
化学反应预测:测试模型预测化学反应结果的能力,这需要模型综合化学原理、反应动力学和分析思维。
这些任务从基础到高级逐步评估了化学语言模型对化学领域的理解。通过与其他大型语言模型(包括GPT-3.5和GPT-4)的比较,ChemLLM在所有评估任务上都展现出了卓越的性能。
通用语言能力评估(MMLU和GSM8K): 尽管ChemLLM专注于化学领域,但其在通用对话和逻辑推理方面的能力也同样重要。为了评估这一点,研究者们使用了MMLU(Massive Multitask Language Understanding)基准测试,它涵盖了57个不同学科的主题,以及GSM8K,这是一个测试语言模型数学能力的测试集。ChemLLM在多个领域,包括大学级别的物理和数学部分,都展现出了强大的性能,特别是在形式逻辑部分,与其他模型相比,ChemLLM的性能提升显著。
多语言能力评估: ChemLLM的多语言能力是通过Chinese ChemQA和Chinese M&H ChemTest两个数据集来评估的。这些数据集测试了模型在中文环境下理解和生成化学内容的能力。ChemLLM在这些评估中取得了令人称赞的准确性,证明了其作为多语言工具在化学领域的实用性。
定性结果: 除了定量评估外,ChemLLM还经过了一系列定性测试,包括化学相关的自然语言处理任务,如文本翻译、化学信息学编程和创作化学诗歌等。这些测试结果突出了模型在不同自然语言处理环境中对化学知识细腻理解和创造性应用的能力。
伦理定性测试: 认识到在部署化学语言模型时伦理考量的重要性,研究者们引入了伦理定性测试。这一测试模块评估了模型在六个敏感领域(包括化学武器、化学和药品安全、实验室安全、精神活性物质和受控化学物质以及科学和技术中的更广泛伦理困境)中的人类价值观一致性。这种方法衡量了模型在技术理解和对伦理影响的敏感性,以解决未来由大型语言模型驱动的化学研究中固有的潜在风险和争议。
通过这些综合评估,显示了ChemLLM不仅在化学领域内表现出色,而且在伦理和多语言能力方面也具备高度的适应性和责任感。这些评估结果为ChemLLM的进一步开发和应用提供了坚实的基础,并为科学语言模型的评估提供了宝贵的参考。
论文链接:https://arxiv.org/abs/2402.06852