IJCAI2023 | A Systematic Survey of Chemical Pre-trained Models(化学小分子预训练模型综述)

news2025/1/4 10:26:32

IJCAI_A Systematic Survey of Chemical Pre-trained Models

综述资料汇总(更新中,原文提供):GitHub - junxia97/awesome-pretrain-on-molecules: [IJCAI 2023 survey track]A curated list of resources for chemical pre-trained models

参考资料:IJCAI2023 | 化学小分子预训练模型综述

从分子描述符、编码器架构、预训练策略和应用描述文章。

直接使用DNN的问题:(1) 标记数据的稀缺性:分子的任务特异性标记可能极其稀缺,因为分子数据标记通常需要昂贵的湿实验室实验;(2) 分布外泛化能力差:在许多现实世界的情况下,学习具有不同大小或官能团的分子需要分布外泛化。

因此更加关注化学预训练模型(CMPs)【以从大量未标记的分子中学习通用分子表示,然后在特定的下游任务中进行微调】

一、Molecular Descriptors and Encoders

Fingerprints (FP). 描述具有二元串的分子的特定子结构的存在或不存在。

Sequences. 最常用的SMILES,

2D graphs. 原子作为节点,键作为边。

3D graphs. 表示分子的原子在3D空间中的空间排列,其中每个原子与其类型和坐标以及一些可选的几何属性(如速度)相关联。使用3D几何的优点是构象信息对许多分子性质,特别是量子性质至关重要。此外,在给定3D几何形状的情况下,还可以直接利用立体化学信息,例如手性。

二、Pre-training Strategies

1、AutoEncoding (AE) 图3a

【SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery.】:利用了基于转换器的编码器-解码器网络,并通过重建SMILES字符串表示的分子来学习表示。

【PanGu Drug Model: Learn a Molecule Like a Human. 】:预训练图来对不对称的条件变分自动编码器进行排序,以学习分子表示。

尽管自动编码器可以学习分子的有意义表示,但它们只关注单个分子,无法捕捉分子间的关系,这限制了它们在一些下游任务中的性能。(不是主流方法)

2、Autoregressive Modeling (AM) 图3b

将分子输入分解为子序列(通常为原子level结构),然后根据序列中前面的子序列逐个预测后面子序列。公式:

【MolGPT: Molecular Generation Using a Transformer-Decoder Model.2021】:使用transformer decoder,自回归方式预测SMILES字符串中的下一个token。

【GPT-GNN: Generative Pre-Training of Graph Neural Networks.KDD, 2020.】:重建分子图(图3b),给定一个节点和边被随机mask的graph,一次生成一个masked节点和边,并使每次迭代中生成的节点和边的可能性最大。然后,迭代地生成节点和边,直到生成所有masked节点为止。

【Motif-based Graph Self-Supervised Learning for Molecular Property Prediction. NeurIPS, 2021.】:生成分子图片段(子图),而不是单个原子或自回归键。

AM在生成分子表现更好。然而,AM在计算上更昂贵,并且需要预先设置原子或键的顺序,这可能不适合分子,因为原子或键不存在固有的顺序。

3、Masked Component Modeling (MCM) 图3c

MCM掩盖了分子的一些组成(如原子、键和片段),然后训练模型,在给定剩余成分的情况下预测它们。公式:

Sequence-base model:

【ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction. 2020】、【SMILES-BERT: Large Scale Unsupervised Pre-Training for Molecular Property Prediction. BCB, 2019.】、【Molformer: Large Scale Chemical Language Representations Capture Molecular Structure and Properties. Nat. Mach. Intell., 2022】:屏蔽SMILES strings中的随机字符,然后基于un-masked的SMILES string的transformer的输出来恢复它们。

Graph-based model:

【Strategies for Pre-training Graph Neural Networks. In ICLR, 2020.】:随机屏蔽输入的原子/化学键属性,并预训练GNN来预测它们

【Self-Supervised Graph Transformer on Large-Scale Molecular Data. NeurIPS, 2020.】试图预测masked子图,以捕捉分子图中的上下文信息

【Mole-BERT: Rethinking Pre-training Graph Neural Networks for Molecules. ICLR,
2023】:由于自然界中的原子集极小且不平衡,掩盖原子类型可能会有问题。为了缓解这个问题,设计了一个上下文感知的tokenizer,将原子编码为具有化学意义的离散值,用于mask

基于其surrounding environments来预测masked components,而AM仅依赖于预定义序列中的先前分量。因此,MCM可以捕获更完整的化学语义。然而,由于MCM在BERT后的预训练过程中经常掩盖每个分子的固定部分,因此它不能对每个分子中的所有成分进行训练,这导致样本利用效率较低。

4、Context Prediction (CP) 图3d

以明确的、上下文感知的方式捕捉分子/原子的语义。

【Strategies for Pre-training Graph Neural Networks. ICLR, 2020.】:使用二元分类来判断分子和周围上下文结构中的子图是否属于同一节点。

虽然CP简单有效,但需要一个辅助神经模型将上下文编码为固定向量,从而为大规模预训练增加了额外的计算开销。

5、Contrastive Learning (CL) 图3e

最大化一对相似输入之间的一致性来预训练模型,例如同一分子的两个不同增强或描述符。

根据对比粒度(例如,molecule- or substructure-level),两类CL:Cross-Scale Contrast (CSC) and Same-Scale Contrast (SSC)

1)Cross-Scale Contrast (CSC)

【InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization. ICLR, 2020.】:通过互信息最大化的无监督和半监督图级表示学习。

【Contrastive Multi-View Representation Learning on Graphs. ICML,2020.】:执行节点扩散以生成增广分子图,然后通过将一个视图的原子表示与另一个视图(反之亦然)的分子表示进行对比,最大限度地提高原始视图和增广视图之间的相似性。

2)Same-Scale Contrast (SSC).

通过将增强分子推向anchor分子(正对)和远离其他分子(负对),对单个分子进行对比学习。公式:

Graph-level的分子级预训练(各种增强策略)对比学习:

【Graph Contrastive Learning with Augmentations. In NeurIPS, 2020】、

【Graph Contrastive Learning Automated. In ICML, 2021.】

【MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge. In
KDD, 2021.】

【Adversarial Graph Augmentation to Improve Graph Contrastive Learning. In NeurIPS,
2021】

【InfoGCL: InformationAware Graph Contrastive Learning. In NeurIPS, 2021.】

【Molecular Graph Contrastive Learning with Parameterized Explainable Augmentations.
In BIBM, 2021.】

【Molecular Contrastive Learning with Chemical Element Knowledge Graph. In AAAI,2022.】

【Improving Molecular Contrastive Learning via Faulty Negative Mitigation and Decomposed Fragment Contrast. J. Chem. Inf. Model., 2022.】

【SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation. In WWW, 2022.】

最大限度地提高了相同分子的各种描述符之间的一致性,并排斥了不同的描述符:

【SMICLR: Contrastive Learning on Multiple Molecular Representations for Semisupervised and Unsupervised Representation Learning. J.Chem. Inf. Model., 2022.】:联合graph encoder 和SMILES string encoder

【Multilingual Molecular Representation Learning via Contrastive Pre-training. In ACL,2022.】:MM Deacon利用两个独立的transformers来编码SMILES和IUPAC,使用对比目标来促进同一分子的SMILES与IUPAC相似性

【3D Infomax Improves GNNs for Molecular Property Prediction. In ICML, 2022】:最大化所学习的3D geometry and 2D graph 之间的一致性;

【GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction. In AAAI, 2022.】:采用双视图几何消息传递神经网络(GeomMPNN)对分子的2D和3D图进行编码,并设计geometric contrastive目标,

一些关键问题阻碍了其更广泛的应用,在分子增强过程中很难保留语义。通过手动试验和错误来选择增强【Graph Contrastive Learning with Augmentations. In NeurIPS, 2020.】,繁琐的优化【Graph Contrastive Learning Automated. In ICML, 2021.】,或通过昂贵的领域知识指导【MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge. In KDD, 2021.】,但仍然缺乏一种有效且原则性的方法来设计适合于分子预训练的化学增强。

CL背后拉近相似表征的假设对于分子表征学习来说可能并不总是成立的(分子活性悬崖:类似的分子具有完全不同的性质)。

CL目标随机选择一批中的所有其他分子作为阴性样本,而不管它们的真实语义如何,这将不期望地排斥具有相似性质的分子,并由于假阴性而破坏性能【ProGCL: Rethinking Hard Negative Mining in Graph Contrastive Learning. In ICML, 2022.】

 6、Replaced Components Detection (RCD) 图3f

识别输入分子的随机替换成分。例如,【MPG:An Effective Self-Supervised Framework for Learning Expressive Molecular Global Representations to Drug Discovery. Briefings Bioinform 2021.】将每个分子分成两部分,通过组合两个分子的部分来改变其结构,并训练编码器检测组合的部分是否属于同一分子。

虽然RCD可以揭示分子结构中的内在模式,但编码器经过预训练,始终为所有天然分子产生相同的“非替换”标签,为随机组合的分子产生相同“替换”标签。然而,在下游任务中,输入分子都是天然分子,导致RCD产生的分子表征不太可区分。

7、DeNoising (DN) 图3g

【Pre-training via Denoising for Molecular Property Prediction. ICLR, 2023.】:将噪声添加到3D分子几何的原子坐标中,并预训练编码器来预测噪声。

【Uni-Mol: A Universal 3D Molecular Representation Learning Framework. In ICLR, 2023.】:为原子坐标添加了噪声,其动机是在给定3D原子位置的情况下,可以很容易地推断出掩蔽的原子类型。

【Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching. In ICLR, 2023.】:距离去噪预训练,以对3D分子的动态特性进行建模。

三、Extensions

1、Knowledge-enriched pre-training.

CPM通常从大型分子数据库中学习一般的分子表示。然而,他们往往缺乏特定领域的知识。

【GraphCL:Graph Contrastive Learning with Augmentations. In NeurIPS, 2020.】:指出键扰动(添加或删除键作为数据增强)在概念上与领域知识不兼容,并且在经验上对化合物的对比预训练没有帮助。因此,他们避免采用键扰动来增强分子图。

【MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge. In KDD, 2021.】提出了一种基于领域的分子增强算子,称为子结构替换,其中分子的有效子结构被生物异构体所取代,生物异构体产生的新分子具有与原始分子类似的物理或化学性质。

【Molecular Contrastive Learning with Chemical Element Knowledge Graph. In AAAI, 2022.】:构建了一个化学元素知识图(KG)来总结化学元素之间的微观关联,并提出了一个新的用于分子表征学习的知识增强对比学习(KCL)框架。

【Motif-based Graph Self-Supervised Learning for Molecular Property Prediction. In NeurIPS, 2021.】:首先利用现有算法(On the Art of Compiling and Using ‘Drug-Like’ Chemical Fragment Spaces. ChemMedChem, 2008.)提取语义上有意义的基序,然后预处理神经编码器,以自回归的方式预测基序。

【Geometry-Enhanced Molecular Representation Learning for Property Prediction. Nat. Mach. Intell. 2022.】:提出利用分子几何信息来增强分子图预训练。设计了一种基于几何的GNN体系结构以及几种几何级的自监督学习策略(键长预测、键角预测和原子距离矩阵预测),以在预训练过程中获取分子几何知识。

尽管知识丰富(注入知识)的预训练有助于CPM获取化学领域知识,但它需要昂贵(计算代价、数据代价)的先验知识作为指导,当先验知识不完整、不正确或获取成本高昂时,这限制了更广泛的应用。

2、Multimodal pre-training.

使用包括图像和生物化学文本等。

【KV-PLM:A Deep-Learning System Bridging Molecule Structure and Biomedical Text with Comprehension Comparable to Human Professionals. Nat. Commun.,2022】:标记SMILES字符串和生物化学文本。然后,随机屏蔽部分令牌,并预训练神经编码器以恢复屏蔽的令牌。

【MolT5:Translation between Molecules and Natural Language. In EMNLP, 2022.】:mask大量SMILES字符串的一些跨度和分子的生物化学文本描述,然后预训练转换器来预测掩盖的跨度。通过这种方式,这些预先训练的模型可以生成SMILES字符串和生物化学文本,这对于文本引导的分子生成和分子字幕(生成分子的描述性文本)特别有效。

【Featurizations Matter: A Multiview Contrastive Learning Approach to Molecular Pretraining. In AI4Science@ICML, 2022.】:提出使用对比目标最大化四个分子描述符的嵌入与其聚合嵌入之间的一致性。通过这种方式,这些不同的描述符可以相互协作用于分子性质预测任务。

【MICER: A Pre-Trained Encoder–Decoder Architecture for Molecular Image Captioning. Bioinform., 2022.】:采用了一种基于自动编码器的预训练框架来进行分子图像字幕。将分子图像馈送到预先训练的编码器,然后解码相应的SMILES字符串。

上述多模式预训练策略可以促进各种模式之间的翻译。此外,这些模式可以协同工作,为各种下游任务创建更完整的知识库

四、Applications

1、Molecular Property Prediction (MPP)

标签可能非常稀缺,因为湿实验室实验通常既费力又昂贵。CPM利用大量未标记的分子,并作为下游分子性质预测任务的backbone。

与从头开始训练的模型相比,CPM可以更好地推断出分布外的分子【Strategies for Pre-training Graph Neural Networks. In ICLR, 2020.】

2、Molecular Generation (MG)

1)类似于MolGPT自回归在SMILES上生成。

2)通过将描述性文本转化为分子结构,进一步扩大了分子生成的可能性。

3)三维分子构象的产生,特别是用于预测蛋白质配体结合姿势。但是受计算限制。基于3D几何的CPM在构象生成任务中表现出显著的优势,因为可以在预训练过程中捕捉2D分子和3D构象之间的一些固有关系。

3、Drug-Target Interactions (DTI)

药物靶标相互作用预测(DTI)

4、Drug-Drug Interactions (DDI)

药物相互作用预测(DDI),相互作用可能导致不良反应,从而损害健康,甚至导致死亡。

五、Conclusions and Future Outlooks

1、Improving Encoder Architectures and Pre-training Objectives

CPM的理想功能和架构仍然难以捉摸,预训练目标仍有很大的改进空间,MCM中子组件的有效掩蔽策略就是一个主要例子。

2、Building Reliable and Realistic Benchmarks

尽管对CPM进行了大量研究,但由于所使用的评估设置不一致(例如,随机种子和数据集分割),它们的实验结果有时可能不可靠。例如,在包含几个用于分子性质预测的昂贵数据集的MoleculeNet上,同一模型的性能可能因不同的随机种子而显著不同,这可能是由于这些分子数据集的规模相对较小。同样至关重要的是,要为CPM建立更可靠、更现实的基准,将分布外的泛化考虑在内。一种解决方案是通过scafold split来评估CPM,这涉及到基于分子的亚结构来分裂分子。事实上,研究人员必须经常将从已知分子训练的CPM应用于新合成的未知分子,这些分子可能在性质上有很大差异,属于不同的结构域。

3、Broadening the Impact of Chemical Pre-trained Models

CPMs研究的最终目标是开发多功能分子编码器,可应用于大量与分子相关的下游任务。尽管如此,与NLP社区中PLM(pretraining language model)的进步相比,CPM的方法进步和实际应用之间仍然存在很大差距。一方面,CPM产生的表示尚未被广泛用于取代化学中的传统分子描述符,并且预先训练的模型尚未成为社区的标准工具。另一方面,对于这些模型如何使单个分子之外的更广泛的下游任务受益,如化学反应预测、虚拟筛选中的分子相似性搜索、逆转录合成、化学空间探索等,目前的探索有限。

4、Establishing Theoretical Foundations

CPM在各种下游任务中表现出了令人印象深刻的性能,但对这些模型的严格理论理解仍然有限。这种基础的缺乏阻碍了科学界和行业利益相关者寻求最大限度地发挥这些模型的潜力。必须建立CPM的理论基础,以便充分理解它们的机制以及它们如何在各种应用中提高性能。有必要进行进一步的研究,以更深入地了解不同分子预训练目标的有效性,从而为优化方法设计提供指导。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/484637.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

『python爬虫』09. bs4实战之下载精美壁纸(保姆级图文)

目录 爬取思路代码思路1.拿到主页面的源代码. 然后提取到子页面的链接地址, href2.通过href拿到子页面的内容. 从子页面中找到图片的下载地址 img -> src3.下载图片 3. 完整实现代码总结 欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏&…

docker 非持久化存储 tmpfs mounts

docker 非持久化存储 tmpfs mounts 简介tmpfs mounts 限制--tmpfs 和 --mount 之间的差异在容器中使用 tmpfs mounts指定 tmpfs 选项 简介 官方文档:https://docs.docker.com/storage/tmpfs/ 与 volume 和 bind mounts 不同,tmpfs mounts 是临时的&…

jdk中juc多线程编程工具

jdk线程池实现原理分析 目录 CompletionService CompletableFuture 基本原理 CompletableFuture的接口 静态方法 handle() vs whenComplete() xxxEither() 异常处理exceptionally() 获取任务结果 结束任务 Semaphore CyclicBarrier CountDownLatch jdk线程池实…

《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 4 Mining Data Streams

来源:《斯坦福数据挖掘教程第三版》对应的公开英文书和PPT Chapter 4 Mining Data Streams 💡 Skip this chapter due to its difficulty and for me, it is hard to understand. Summary of Chapter 4 The Stream Data Model: This model assumes da…

【微机原理】半导体存储器

目录 一.半导体存储器的分类 二、半导体存储器性能指标 三、半导体存储器的结构 一.半导体存储器的分类 半导体存储器的分类方法有很多种。 1.按器件原理来分:有双极型存储器和MOS型存储器。 双极型:速度快、集成度低、功耗大MOS型:速度慢、集…

“ 探索迷局:解密广度寻路算法 “

专栏文章,自下而上 数据结构与算法——二叉搜索树 数据结构与算法——深度寻路算法 数据结构与算法——二叉树实现表达式树 数据结构与算法——树(三指针描述一棵树) 数据结构与算法——栈和队列<也不过如此> 数据结构与算法——八…

C++的智能指针

文章目录 1. 内存泄漏1.1 什么是内存泄漏1.2 内存泄漏分类 2. 为什么需要智能指针3. 智能指针的使用及原理3.1 RAII3.2 使用RAII思想设计的SmartPtr类3.3 让SmartPtr像指针一样3.3 SmartPtr的拷贝3.4 auto_ptr3.5 unique_ptr3.6 shared_ptr3.6.1 shared_ptr的循环引用3.6.2 wea…

MYSQL-数据库管理(上)

一、数据库概述 一、数据库基本概念 1.1 数据 1) 描述事物的符号记录称为数据(Data)。数字、文字、图形、图像、声音、档案记录等 都是数据。 2)数据是以“记录”的形式按照统一的格式进行存储的,而不是杂乱无章的。…

机器学习之分类决策树与回归决策树—基于python实现

大家好,我是带我去滑雪! 本期为大家介绍决策树算法,它一种基学习器,广泛应用于集成学习,用于大幅度提高模型的预测准确率。决策树在分区域时,会考虑特征向量对响应变量的影响,且每次仅使用一个分…

vs编译生成动态库

说明 windows版本,vs2019 创建一个动态库 新建一c项目,创建一个dll类型项目。 在头文件中添加一个mylib.h文件: #pragma once#ifndef MYLIB_H #define MYLIB_Hextern "C" __declspec(dllexport) void Hello(); extern "C…

UG NX二次开发(C++)-建模-修改NXObject或者Feature的颜色(一)

文章目录 1、前言2、在UG NX中修改Feature的颜色操作3、采用NXOpen(C)实现3.1 创建修改特征的方法3.2 调用ModifyFeatureColor方法3.3 测试结果 1、前言 在UG NX中,改变NXObject和Feature的操作是不相同的,所以其二次开发的代码也不一样,我们…

优化问题的拉格朗日Lagrange对偶法原理

首先我们定义一般形式的求解x的优化问题: 表示优化的目标函数,上述为最小优化,实际上最大优化可以改写为的形式表示第i个不等式约束表示等式约束 1. Lagrange对偶问题 上述优化问题的拉格朗日Lagrange对偶法求解,是将上述带约束…

Baumer工业相机堡盟工业相机如何联合BGAPISDK和Halcon实现图像的直方图算法增强(C#)

Baumer工业相机堡盟工业相机如何联合BGAPISDK和Halcon实现图像的直方图算法增强(C#) Baumer工业相机Baumer工业相机使用图像算法增加图像的技术背景Baumer工业相机通过BGAPI SDK联合Halcon使用直方图图像增强算法1.引用合适的类文件2.BGAPI SDK在图像回调…

车牌识别系统完整商用级别设计流程

简介 车牌识别(License Plate Recognition)是一种通过计算机视觉技术识别和提取车辆车牌上字符信息的技术。它在交通管理、智慧停车、安防监控等领域有着广泛的应用。 本项目将带完整的了解车牌识别系统设计思路,以及实现流程。 算法部分应…

图书管理系统【控制台+MySQL】(Java课设)

系统类型 控制台类型Mysql数据库存储数据 使用范围 适合作为Java课设!!! 部署环境 jdk1.8Mysql8.0Idea或eclipsejdbc 运行效果 本系统源码地址:https://download.csdn.net/download/qq_50954361/87737294 更多系统资源库地…

机器学习 --- 绪论

第1关:什么是机器学习 任务描述 ​ 本关任务:根据本节课所学知识完成本关所设置的选择题。 相关知识 ​ 为了完成本关任务,你需要掌握: 什么是机器学习。 什么是机器学习 ​ 相信大家一定都非常喜欢吃西…

【Python】【进阶篇】21、Django Admin数据表可视化

目录 21、Django Admin数据表可视化1. 创建超级用户2. 将Model注册到管理后台1)在admin.py文件中声明 3. django_admin_log数据表 21、Django Admin数据表可视化 在《Django Admin后台管理系统》介绍过 Django 的后台管理系统是为了方便站点管理人员对数据表进行操作。Django …

【Java面试八股文】数据库篇

导航: 【黑马Java笔记踩坑汇总】JavaSEJavaWebSSMSpringBoot瑞吉外卖SpringCloud黑马旅游谷粒商城学成在线MySQL高级篇设计模式牛客面试题 目录 请你说说MySQL索引,以及它们的好处和坏处 请你说说MySQL的索引是什么结构,为什么不用哈希表 请你说说数据库索引的底…

R语言 | 编写自己的函数

目录 一、正式编写程序 二、设计第一个函数 三、函数也是一个对象 四、程序代码的简化 五、return()函数的功能 六、省略函数的大括号 七、传递多个参数函数的应用 7.1 设计可传递2个参数的函数 7.2 函数参数的默认值 7.3 3点参数“…”的使用 八、函数也可以作为参数 …

《针灸》笔记(倪海厦先生人纪系列针灸篇)

程序员上了年纪,各种职业病就来了,人工智能成为好工具的同时,自己的时间也多了一些。 了解他才能判断他的真伪,没学过就认为中医是糟粕的,请划走。 学到什么记什么,线上线下齐下手,自用笔记&…