DrugChat:多模态大语言模型实现药物机制与属性的全方位预测
今天为大家介绍的是来自加州大学圣地亚哥分校谢澎涛团队的一篇论文。准确预测潜在药物分子的作用机制和性质对于推进药物发现至关重要。然而,传统方法通常需要为每个特定的预测任务开发专门的模型,导致模型训练和工作流集成效率低下。此外,这些方法通常局限于预测离散类别的药物属性,难以预测最佳用自由形式文本描述的复杂属性。为了应对这些挑战,作者介绍了DrugChat,一个多模态大语言模型(LLM),旨在提供分子机制和性质的全面预测,并集成在一个统一的框架内。DrugChat分析输入分子的结构以及用户的查询,生成关于药物适应症、药效学和作用机制的全面的自由形式的预测。此外,DrugChat支持与用户的多轮对话,促进了对同一分子的交互式深入探索。经过包括人类专家在内的广泛评估,DrugChat在生成准确的自由形式预测方面显著优于GPT-4和其他领先的LLM,超过了最先进的专门预测模型。
准确预测潜在药物分子的机制和性质对于推进药物研发至关重要。深度学习模型凭借其分析大量数据和揭示复杂模式的能力,已成为应对这一挑战的强大工具。然而,现有方法通常需要为特定预测任务开发专门模型,导致计算资源和时间效率低下,且难以预测药物分子的复杂方面,如适应症、药效学和作用机制等。
为此,作者提出了DrugChat,一个用于全面预测药物机制和性质的多模态大语言模型。DrugChat集成了分子结构、分子图像和文本等多种模态,利用图神经网络和卷积神经网络有效捕捉和解释分子结构,并与语言模型无缝集成,根据用户的提示生成详细、相关的自由文本回复。与现有方法不同,DrugChat在单一框架内处理广泛的预测任务,消除了对多个专门模型的需求,简化了预测集成,并通过自由文本预测实现了对药物分子更丰富、细致的理解。DrugChat的多模态能力和交互式多轮对话系统进一步提升了预测能力,允许用户深入探索药物分子,代表了对传统模型的重要改进。
模型部分
图 1
DrugChat的工作流程如图1a所示,它接受一个化合物分子和用户提示作为输入,生成文本预测。例如,当提供一个分子和提示“其作用机制是什么?”时,DrugChat会生成如下预测:“它刺激神经元释放或维持高水平的特定神经递质…”。
DrugChat的核心组件如图1b所示,包括分子编码器网络、大语言模型(LLM)以及无缝集成这些编码器和LLM的两个适配器。输入分子最初使用SMILES字符串表示。DrugChat将SMILES字符串转换为分子图(结构表示)和分子图像(视觉表示)两种形式。对于分子图,使用基于GNN的编码器处理,该编码器在ZINC15数据库的两百万未标记分子上进行了预训练。对于分子图像,使用CNN(即ImageMol模型)进行编码,该模型在来自PubChem数据集的一千万未标记生物活性分子图像上进行了预训练。适配器将分子图和图像的表示向量转换为统一的分子令牌向量,使其与LLM的潜在表示空间兼容。同时,输入提示被分解为语言令牌序列,分子令牌被集成到该序列中,然后送入LLM(具体为Vicuna-13B)生成最终的预测文本。
DrugChat对药物适应症、药效学和作用机制产生精确的、自由形式的预测
图 2
如图2a所示,DrugChat在适应症预测、药效学、作用机制和概述方面的人工评估平均分分别为1.05、0.94、0.8和0.92,显著优于GPT-4的0.38、0.82、0.45和0.46。DrugChat优于GPT-4的优势也反映在分数分布上(图2b)。例如,在适应症预测任务中,DrugChat的预测有42.9%被评为正确,19%为部分正确,38.1%为不正确,而GPT-4的预测只有14.3%正确,9.5%部分正确,76.2%不正确。
此外,人工评估者还通过评估DrugChat或GPT-4对每个分子的预测哪个更优进行相对比较(图2c)。在大多数情况下,DrugChat优于GPT-4。具体而言,在适应症、药效学、作用机制和概述方面,DrugChat分别为52.4%、41.2%、50%和47.2%的分子生成了更好的预测,而GPT-4仅在14.3%、35.3%、30%和25%的情况下优于DrugChat,其余比较结果为持平。
图 3
图3比较了DrugChat和GPT-4对几个药物分子的预测。经专家评分验证,DrugChat的预测明显比GPT-4更准确。以图3左侧分子为例,DrugChat准确预测了其概述、适应症、药效学和作用机制,而GPT-4的预测大多不正确。对于图3右侧分子,DrugChat准确识别其为苯二氮卓类药物,用于手术期间镇静,并正确指出其通过增强GABA的抑制作用发挥药效。相比之下,GPT-4错误归类该分子,提供了大量错误信息。此外,DrugChat对同一分子的预测一致,GPT-4则相互矛盾。
除人工评估外,作者还采用语义相似度、BLEU和METEOR等自动评估指标。如图2d所示,DrugChat在这些指标上的表现大幅优于GPT-4。DrugChat的优势在于其专为复杂化合物分子设计的分子感知架构。它利用预训练的图神经网络捕捉分子内的关系信息,用卷积神经网络识别分子结构模式。这种双编码器方法使DrugChat能辨别关键分子特征,提供卓越预测。
DrugChat准确地预测了以离散类别表示的药物属性
DrugChat除了生成详细的自由形式预测外,还能预测离散类别表示的药物性质。作者重点预测了分子对人类细胞的细胞毒性、给药途径(口服、肠外、局部)以及作为前药的潜力。
图 4
如图4a所示,在预测对HepG2、HSkMC和IMR-90三种人类细胞的细胞毒性方面,DrugChat的F1分数在0.57到0.71之间,显著优于LLM基线(0.17到0.5)和ImageMol(0.36到0.43)。
在预测分子给药途径方面(图4b),由于单个药物分子可通过多种途径给药,作者指示DrugChat对每种途径类型预测二进制“是/否”,而不是只从所有可能途径中选择一个。DrugChat的F1分数在0.59到0.67之间,大大超过基线LLM(0.23到0.47)和ImageMol(0.47到0.52)。
最后,作者预测了分子作为前药的潜力(图4c)。前药是一种在体内代谢转化后成为药理活性药物的化合物。DrugChat的F1分数为0.65,显著优于GPT-4(0.42)、LLaMa(0.02)、ChatGLM(0.37)、FastChat-T5(0.36)和ImageMol(0.56)等基线模型。
DrugChat能够动态地、迭代地探索药物的机制和特性
图 5
图5展示了DrugChat与用户就同一分子进行的多轮对话,DrugChat提供了有关输入分子适应症和药效学的准确详细响应。当用户询问该分子的适应症时,DrugChat准确回答说它通过刺激胰腺产生更多胰岛素来帮助控制2型糖尿病患者的血糖。接下来,用户问该分子刺激什么类型的细胞释放胰岛素,DrugChat正确识别出是胰腺β细胞。然后用户询问了该分子的副作用以及如何管理,DrugChat给出了适当的信息。最后,当被问及该分子的代谢部位时,DrugChat准确回答说是在肝脏中进行的。通过与DrugChat的交互式对话,用户能够更深入地探索分子,发现越来越详细和细微的信息。DrugChat始终理解用户的意图并提供准确的响应。
DrugChat的分子图和图像模式的集成超过了单模式变量
为了评估不同分子编码器对DrugChat性能的影响,作者开发了两个额外的变体:DrugChat-Graph只利用通过图神经网络从分子图中获得的分子表示,DrugChat-Image只依赖于使用卷积神经网络从分子图像中提取的表示。作者将这些变体的性能与整合了图像和图表示的原始DrugChat进行了比较。
如图4d所示,原始DrugChat在多个预测任务中始终优于两个变体,表明同时使用图像和图表示优于单独依赖任一模态。这可归因于这些模态在捕捉分子信息的不同方面时的互补性质。分子图捕捉原子之间的拓扑关系,这对于理解分子的内在性质(如键连接性、电子结构和化学反应性)至关重要。另一方面,分子图像突出了空间模式和视觉特征,这对于理解分子的几何和立体化学性质通常至关重要。这些特征在识别官能团或理解原子之间的空间相互作用方面尤其重要,这些相互作用可能影响分子行为和与生物靶标的相互作用。通过整合两种模态,DrugChat受益于每种模态提供的丰富、多面信息,从而对分子有了更全面和细致的理解。相比之下,依赖单一模态可能会忽略关键信息,导致预测效果较差,对分子特性的理解较狭窄。
讨论
DrugChat是一种创新的多模态大语言模型,利用单一统一框架解决与药物发现和开发相关的广泛预测任务。通过跨领域学习和自由形式预测,DrugChat能够识别孤立模型可能错过的模式和关系,生成详细、类人的文本预测,涵盖药物适应症、作用机制和药效学等复杂方面。此外,DrugChat还可以动态响应一系列用户查询,使用户能够发现单次分析可能遗漏的见解,并允许在不需要输入新数据或切换模型的情况下更深入地研究分子的各个方面。DrugChat的交互方式不仅使其更加用户友好,而且符合科学探究的迭代性质,允许多个利益相关者随着新问题和数据的出现,随时间推移与DrugChat互动,逐渐完善和扩展分析。
参考资料
Liang Y, Zhang R, Li Y, et al. Multi-Modal Large Language Model Enables All-Purpose Prediction of Drug Mechanisms and Properties[J]. bioRxiv, 2024:2024.09. 29.615524.