文章目录
- 药物发现中的深度生成模型
- 化合物/分子的表示
- Deep Generative Models
- 递归神经网 RNN
- 变分自动编码器 VAE
- 生成性对抗网络 (Generative Adversarial Networks, GANs)
- Flow-based models
- 强化学习(Reinforcement Learning, RL)
- 在小分子药物设计中的应用
- 生成有效的小分子
- 生成具有类药物特性的分子
- 生成具有多目标类药物性质的分子
- 通过优化生成更好的生物可利用分子
- 捕获配体-蛋白质相互作用的 3D 信息
- 在大分子药物设计中的应用
- AMP 生成
- 治疗性蛋白质生成
- CRISPR-Cas9系统设计和优化
- 前景、未来方向
- 可解释的生成模型
- 小样本生成模型
- 多模态生成模型
- 从数据使用者到数据生产者的创成模型
- Conclusion and Outlook
随着科技的发展,人工智能(AI)和深度生成模型的最新进展和成就已经确立了其在医学应用中的实用性,特别是在药物发现和开发方面。为了正确应用人工智能,开发人员和用户面临着诸如要考虑哪些协议、要仔细检查哪些因素以及深度生成模型如何整合相关学科等问题。这篇综述是2022年10月发表在“Cell Resports Medicine”杂志上的,IF=16.988。这篇综述总结了经典和新开发的人工智能方法,为广泛的计算药物发现和开发社区提供了更新且易于访问的指南。从不同角度介绍了深度生成模型,并描述了表示化学和生物结构及其应用的理论框架。讨论了数据和技术挑战,并强调了多模态深度生成模型的未来方向,以加速药物发现。
药物发现中的深度生成模型
最近的一项研究估计,制药公司在2年花费了6亿美元用于开发美国食品和药物管理局批准的新药,高于2015年的802.2003亿美元。尽管在临床试验期间会产生更多的直接成本,但由于临床前投资来得更早,因此两个阶段的资本化成本大致相等。计算科学和技术的最新进展抓住了必要性和紧迫性,并提供了一套潜在的有前途的方法。其中,开发人员可以选择正确的人工智能(AI)来针对手头的问题,特别是深度生成模型,适当的协议和因素。总的来说,他们绘制了整合生物学、化学、计算科学、药理学和疾病治疗的路径。计算能力、数据量和高级算法的快速增长导致了人工智能在药物发现方面的突破,特别是在深度生成模型的应用中。这些模型已成为改变小分子和大分子设计、优化和合成的高潜力工具(图 1)。
深度生成模型的应用已经提供了新的部分优化的候选线索,在某些情况下,传统顺序方法通常需要更短的时间。如果大规模应用,深度生成建模有可能促进开发(R&D)过程。
图 1 药物发现管道中的 AI 和深度生成模型应用
深度生成模型对应于一个理论框架,该框架使用数据结构(例如图形和指纹)以及操作(例如功能或实验信息流)生成具有所需特性的新型化学和生物结构。创造性的深度生成模型可以显著促进算法在药物发现中的开发和应用。在这个“大数据”时代,深度生成模型将提供一项尖端技术,可以彻底改变生物学、疾病和治疗学的信息学观点。在本综述中,我们描述了经典和最先进的深度生成模型及其在计算药物发现中的应用(图1),并讨论了局限性和挑战。我们的目标是概述小分子和大分子系统上多种应用中深度生成模型的当前工具和技术(工具箱)。
化合物/分子的表示
分子的表示对于生成模型很重要。有三种类型的表示:(1)基于序列,(2)基于图形和(3)图像(图2)。
自然语言处理(NLP)的空前成功激发了以类似于人类语言的方式描述符号分子的想法。生物结构中的语义和语法与人类语言相似;因此,分子可以表示为字符序列。从头小分子设计通常使用简化的分子输入线输入系统(SMILES)。基于序列的结构是按照编码到向量的 SMILES 语法规则生成的(图 2A)。
表示分子的更直接方法是基于图。在图形表示中,小分子的原子形成一组节点,键被视为边缘(图2B)。对于大分子,接触图是表示任何两个氨基酸残基对之间距离的图表。然而,基于序列和基于图形的方法都无法捕获具有生物学意义的配体-蛋白质相互作用中配体或蛋白质的3D信息。
分子的3D构象捕获原子的相对取向 (图2C). 还展示了几种最新的 3D 表示。
图2 三种分子表示方法示意图
DEVELOP结合了现有的基于图形的深度生成模型De-Linker以及卷积神经网络,以利用分子和目标药效团的3D表示。DeepLigBuilder是一种基于图形的生成模型,它利用配体-受体相互作用的3D结构表示来端到端设计具有药物相似特性的化学和构象有效的3D分子。蛋白质的传统图像或3D表示需要来自冷冻电子显微镜和晶体学的精确3D结构数据,这很难获得。最近的人工智能方法,如AlphaFold2,可以提供大量的蛋白质3D数据来应对这些挑战。
Deep Generative Models
图 3 药物发现应用中五种深度生成模型 (A–E) 的理论框架的图表
递归神经网 RNN
递归神经网络 (RNN) 是处理人类语言的生成神经网络的基本组成部分。它们对于具有顺序或时间分量的系统进行建模非常有用,并且在NLP自动计算机代码生成方面非常强大和音乐创作。分子的语言,如微笑,类似于人类的语言。因此,使用RNN来生成基于顺序表示的分子是很自然的。
如图 3A 所示,(即“c1cc …c1“)可以通过以下方式由RNN生成。RNN 接收第一个字符“c”,并为可能的下一个字符分配不同的概率:字符“1”将获得很高的概率,并且可以作为下一个字符进行采样。“1”是RNN的反馈输入。重复此过程,直到生成结束标记“\n”。
长短期记忆和门控循环单元 (GRU)引入一种门机制来记住一长串步骤的有价值的输入信息,这是传统 RNN 所缺乏的。LSTM或GRU是否可取可能取决于具体的应用。LSTM单元可以比GRU保存更长的历史。是,LSTM 中的其他参数可能会增加过度拟合的风险。具有LSTM或GRU的RNN是最有希望在SMILES代表下产生从头小分子的RNN。
变分自动编码器 VAE
一个自动编码器(AE)由两个网络构成:
(1)编码器训练将输入映射到一个低维潜在向量,
(2)解码器将潜在向量映射到输入数据。
原始 AE 通过重现输入创建一个潜在空间。
为了避免原始声发射的过度拟合和不连续性,变分声发射(VAE)通过用分布代替潜空间点来调整潜空间。在一项开创性的工作中,VAE 被用于分子生成,开创了从头设计药物的新策略。
如图3C 所示,编码器被训练以将分子(例如,SMILES)映射到假定从正态分布取样的低维潜在载体中,并且解码器将潜在载体映射到输入的分子(例如,SMILES)中。潜伏向量被限制遵循一个概率分布(通常是正态分布) ,因此一个分子被表示为潜伏空间上的一个明确的概率分布。当编码器和解码器共同训练时,输出必须重建训练样本的概率分布。最近,学习 VAE 的解纠缠表示已经引起越来越多的关注,其主要目标是使潜在矢量的每个潜在变量编码数据的独立性质或因子。如果成功地将解纠缠 VAE 引入分子产生,可以编辑分子性质而不改变其他性质,通过编辑与该性质相关的潜在变量。
生成性对抗网络 (Generative Adversarial Networks, GANs)
生成对抗网络 (GAN) 的发明开启了一系列生成模型。 与 VAE 不同,GAN 不使用显式概率密度函数(图 3 D),而是提供由生成器和鉴别器组成的对抗训练框架。 鉴别器训练一个分类模型,旨在最大化来自生成器的合成分子的错误率,类似于真实数据。 生成器和鉴别器在对抗性的零和游戏中一起训练,直到鉴别器模型被愚弄,这意味着生成器网络正在生成似是而非的(即真实的假)分子。
Flow-based models
VAE 和 GAN 没有明确地对真实的概率密度函数进行建模。VAE 通过最大化似然函数的下限来隐式优化数据的对数似然性,而 GAN 避免建模分布,但以对抗的方式学习来测量“有效分子”和“合成分子”之间的差异基于深度流的模型通过利用正常化流来解决显式密度估计的棘手问题。
正常化流是原始数据空间和潜在空间之间的可逆的确定性转换(图3B)。例如,最近的一种叫做 MoFlow 的方法学习了一个转换链来将有效分子映射到它们的潜在表征,以及反向转换链来将潜在表征映射到有效分子。
基于流的模型的一个主要限制是由于复杂的超参数调整过程,它们是耗时的。为了充分利用基于流的模型,必须将分子图转换成连续的数据,将实值噪声引入到分子生成流中。
强化学习(Reinforcement Learning, RL)
深度 RL 已经成为优化目标最突出的工具箱之一,尤其是最近的突破,如 AlphaGo。广阔的化学空间类似于 Go 的巨大的可能的解决方案空间,因此,深度 RL 是一种潜在的方法,通过动态决策过程来探索化学空间。
如图3E 所示,深度 RL ーー包括一个代理、一个奖励函数和环境ーー旨在针对用户导向的目标进行优化。代理选择下一个操作,奖励函数根据环境(特定于领域的规则)评估操作的质量,并向代理提供反馈。在生成模型接受大量的一般分子训练以学习 SMILES 语法之后,RL 可以作为一种微调目标特性的技术,例如评估物理特性的合成可及性42和类似药物的定量估计43。例如,提出了正向合成(PGFS)的政策梯度 ,以使用 RL产生合成可接近的分子。为此,(1)代理人是一个神经网络; (2)政策行动是通过添加或去除原子和键来修改分子执行的化学转化; 和(3)奖励是合成可接近性
在小分子药物设计中的应用
常规探索,如虚拟筛选,需要驾驭广阔的化学空间,这带来了时间和成本挑战。从头设计是一种从头开始自动生成具有所需特性的分子的技术,它受益于深度生成模型的进步。在这里,我们描述了它们针对各种设计目的的应用。
生成有效的小分子
随着用于从头设计小分子的深度生成模型的出现,研究最初集中在如何生成具有高有效性的分子上,特别强调小分子的语法和语义。
-
2016 年,Go ́ mezBombarelli 等人。 开创了一种数据驱动方法,通过将离散高维化学空间映射到连续潜在空间或从连续潜在空间映射来生成分子。该模型表明,结合分子特性预测任务训练 VAE 并通过高斯过程进行优化是有前途的。 这种范式促进了从头小分子设计的发展,即使输出包括无效分子。
-
随后,受编译器理论的启发,其中语法和语义检查是通过语法制导翻译(SDT)完成的,Dai 等人 将 SDT 合并到 VAE 中以约束解码器。
-
48 所提出的模型 (SD-VAE) 可以生成语法和语义上均有效的分子。48 以前的工作通过合并额外的约束实现了高有效性。
-
受基于片段的药物发现的启发,Jin 等人。 提议的连接树变分编码器 (JT-VAE)。
-
JT-VAE 将化学上有效的子结构(例如芳香环)视为图形结构中的节点。 由这些节点组装的分子图可以在不实施额外的化学规则的情况下保持化学有效性。 JT-VAE 达到了 100% 的有效性,因为它通过从片段中生成生物活性分子来遵守化学中的基本事实。
-
一种新的 AE,即 Wasserstein 自动编码器字符 (cWAE),结合了对抗性训练,并显示出改进的模型准确性。 当应用于分子设计并在 16 亿种化合物上进行训练时,与 JT-VAE 相比,cWAE 生成了准确的生成模型(化合物重建误差降低了 80% 以上)。
-
MoFlow以单次方式生成分子图,生成键和原子通过基于流的模型,然后将它们组装成分子图。
-
相反,MolGro以迭代方式生成分子图,通过递归地将每个节点一分为二,从单节点图生成分子图,称为分层归一化流模型。 实验结果表明,MoFlow 和 MolGrow 都可以生成 100% 的有效分子。
生成具有类药物特性的分子
随着生成模型的逐渐成熟,分子生成模型一直致力于寻找具有特定性质的分子,而不仅仅是关注其有效性。 类药物特性,例如生物活性和合成可及性,对于候选药物的成功至关重要。
-
2020 年,以基因表达特征为条件的分子 GAN 模型被证明可以生成极有可能诱导所需转录组学特征的分子。
-
生成张量强化学习 (GENTRL)旨在通过设计奖赏函数生成可抑制 DDR1(盘状蛋白结构域受体 1)的新型分子。 使用体外和体内小鼠测定法评估生成的分子,以验证对 DDR1 的结合亲和力以及临床前和药代动力学特性。 从目标选择到部分验证分子的时间框架为 46 天,GENTRL 验证了加速药物发现的前景(图 1D)。 值得注意的是,GENTRL 利用了一组经常可用的相关信息,例如晶体结构数据和与活性化合物相关的信息。 该模型不适用于目标特定活动数据不可用的情况,在这种情况下需要较少信息的模型可能更实用。
-
PGFS 旨在生成可以切实合成的分子。 PGFS 将分子生成问题视为在线性合成序列中选择反应物分子和反应转化的顺序决策过程,其中反应物的选择被认为是一种行动,而合成可及性是一种奖励。 PGFS 已在与三个 HIV 目标相关的计算机概念验证中得到验证。
生成具有多目标类药物性质的分子
用于从头分子生成的生成模型能够设计具有多种设计约束的分子,例如效力、安全性和所需的代谢谱。具有这种约束的分子将更好地满足药物发现的要求。基本原理训练一个基于图的RL模型,将预先选择的分子子图完成为具有几个所需共存特性的整数分子,例如对多个靶标(例如,GSK3β和JNK3;图1D),药物相似性和合成可及性的定量估计。作为多目标优化的一部分,通过组合单个分类器并计算其贝叶斯误差,对药物相似性的预测性得到了显着提高。困难在于如何定义和表征非药物样分子。
通过优化生成更好的生物可利用分子
分子优化旨在为给定的起始分子实现所需的特性。 这个过程类似于计算机视觉中的图像到图像的转换(例如,将马变成斑马)或 NLP 中的风格转换。
-
Jin等提出了一种受风格转移启发的优化方法。分子优化可以通过使用配对训练集将一个分子图转换为具有更好特性的另一个分子图来表示为图到图的转换。
-
受 CycleGAN学习在没有配对示例的情况下将图像从源域 X 转换到目标域 Y 的图像到图像转换方法的启发,提出了 MolCycleGAN 并在具有和不具有所需属性的两个数据集上进行了训练。 训练框架由两个 GAN 组成一个循环:(1)当输入不具备目标属性时,第一个 GAN 用于生成具有所需属性的分子,以及(2)第二个网络具有相反的输入/输出 命令。 该模型的目标是最小化原始分子与第二个网络的生成分子之间的距离。
捕获配体-蛋白质相互作用的 3D 信息
为了将 3D 蛋白质结构信息直接引入生成分子创建而不是通过后生成对接,利用高质量目标家族序列比对来识别激酶家族中的结合位点残基并训练 PaccMann 模型的一维字符串表示 .60 使用此简化数据集构建的定量结构-活性关系 (QSAR) 模型优于使用传统全序列方法构建的 QSAR 模型,并且使用生成模型创建的分子在与经过验证的激酶抑制剂的相似性方面同样令人鼓舞 .
在大分子药物设计中的应用
除了设计小分子,人工智能的应用已经扩展到药用大分子的设计,比如设计抗菌肽(AMP)、治疗性蛋白质,以及CRISPR-Cas9系统的设计和优化,详见下文。
AMP 生成
抗生素耐药细菌的出现导致全球每年有近1万人死于普通抗生素无法治疗的细菌感染。AMP增加了曲目,深度生成模型是设计它们的一种有前途的方式。Das等人扩充了VAE(Wasserstein自动编码器)的一个变体具有分子动力学信息,以产生具有广谱效力和低毒性的AMP。对于受控序列生成,在潜在空间上训练用于属性预测的线性二元分类器条件潜在(属性)空间采样(CLaSS),然后使用拒绝采样筛选感兴趣的分子。
治疗性蛋白质生成
从头蛋白设计在蛋白治疗中起着重要作用。例如,提出了一种从头设计策略,通过复制人血管紧张素I转换酶2(hACE2)的蛋白质界面来快速准确地生产诱饵蛋白,以潜在治疗2019年冠状病毒病(COVID-19)。深度生成模型也可用于通过对氨基酸序列的空间特性进行建模来设计蛋白质疗法。蛋白氮化镓,它将自我注意机制纳入GAN并学习蛋白质序列的进化关系,是生成具有特定功能的蛋白质序列的可推广框架。大约24%的生成序列是可溶的,并显示出与野生类型相当的活性,包括一些高度突变的序列。生成的序列包括训练数据集中不存在的119个新的结构序列基序,展示了用于治疗开发的功能蛋白的从头生成。
CRISPR-Cas9系统设计和优化
CRISPR-Cas9 系统由 Cas9 核酸酶和向导 RNA (gRNA) 组成,是一种基因组编辑技术和药物发现中识别靶标的工具(图 1A)。 基于碱基互补配对原理,gRNA引导Cas蛋白定位到基因组和CRISPR KO(knockout)。 然后,CRISPRi(干扰)和 CRISPRa(激活)技术确定候选基因是否是疾病的关键,从而成为治疗靶点。 gRNA 序列的选择会影响敲除效果,对于目标识别至关重要。 最近的研究证明了深度学习算法(例如 CNN 和 RNN)在设计和优化 CRISPR-Cas9 系统方面的强大功能。
-
最近,Chuai 等人提出了一种名为 DeepCRISPR 的 gRNA 设计工具,具有高灵敏度和特异性,它采用无监督和监督 CNN 的组合来学习 gRNA 的表示。
-
DeepCRISPR 可以在同一框架中预测靶向敲除效果和脱靶概况。 此外,它还能自动检测优化 gRNA 的重要特征,以促进有效的 CRISPR 设计。
-
SpCas9 基因组编辑工具可以解决脱靶问题。 开发了一种将 RNN 与二级结构、GC 含量和热力学特征相结合的 DeepHF 模型,但不能由 RNN 自动获得。
尽管深度学习模型方便地促进了 CRISPR-Cas9 系统设计,但这些数据驱动的方法是 67 CRISPR-Cas9 系统设计可以使用具有更高质量数据的高级算法进一步优化。
前景、未来方向
尽管人们对人工智能药物发现充满热情,但问题和挑战比比皆是。几十年来,转化科学一直面临着如何将研究结果转化为一种新颖、更有效的药物的挑战。事实上,“转化挑战的最终目标是通过科学理解和创新来消除死亡之谷。药物发现管道中的大多数机器学习模型都需要大量数据进行训练和验证,尤其是深度学习模型。缺乏足够的质量和强大的数据共享实践仍然是机器学习模型对药物发现产生积极影响的关键障碍。数据质量不足可能导致模型的泛化性较差。数据协调通过领域知识和机器学习技术提高数据质量和利用率,在药物发现的开发和应用中起着至关重要的作用。在这里,我们简要讨论以下几个挑战和潜在的未来方向。
可解释的生成模型
虽然生成模型和其他基于深度学习的方法提供了巨大的潜力,但它们通常本质上是“黑匣子”,需要对预测进行客观的算法解释以提供信心和可操作性。 药物发现是一个高度复杂的过程,涉及化合物和靶标以及相互关联的生物系统之间的相互作用。 当前的深度生成模型仅限于捕获数据的浅层统计相关性,这无法解释机制和结果,可能会误导决策。 因此,模型用户必须了解算法是如何构建的,它们依赖哪些数据,以及模型在多大程度上是可靠的。 人工智能科学家让生物学家和临床医生参与实验设计和数据解释也很重要。
模型应该是可解释的:
-
一种方法是扰乱模型中的输入或参数,并观察结果如何变化。 例如,可控分子生成可以通过解缠结来实现,解缠结将潜在空间分解为可解释和独立的因素,这些因素对应于每个属性,例如生物活性和可合成性。 以这种方式,可以生成具有所需特性的分子。
-
另一种解决方案是显示更多来自算法的语义信息,以解释结果的因果关系。 分子结构和药物样特性之间关系的推理可以指导分子生成后因果图的构建。 模型也可以透明。 算法以人类可以理解的方式合理化其预测过程。 分层生成模型可以更好地将每个步骤追溯到以前的级别,从而允许人机交互实现有针对性的优化。
小样本生成模型
目前的人工智能技术依赖于从大量数据中学习。然而,由于隐私,安全,伦理,或少数患有罕见疾病的患者等原因,现有数据往往在数量上不平衡,导致关于毒性和生物活性差的临床数据很少。这种情况可以通过从少量样本中学习的机器来缓解。结合过去的知识,他们可以取得良好的业绩。在这里,我们强调解决数据不足的策略。
从源头出发是解决问题的直观方法。增大样本量可以通过数据增大来实现。一些方法改变 SMILES 中的起始原子和分支顺序以丰富数据,利用 SMILES 序列对于结构的不唯一性。基于图的数据可以通过使用适当的策略添加或去除边来改变,例如3D 构象。这可以通过不同粒度(例如,原子,药效团和毒性团水平)的信息进行复合。
特异性靶标训练数据不足是从头分子生成过程中不可避免的,特别是在肽或蛋白质设计中。迁移学习的目的是将从一个领域学到的知识转移到与源领域相关的目标领域,以解决目标领域的数据稀缺性。迁移学习通常以预先训练的模型的微调方式驱动分子生成到期望的性质。从预先训练的模型获得的参数作为特定任务的初始化。如果没有可用的生物活性分子,可以采用零点学习,即模型可以学习识别未观察到的效应或条件。零拍学习需要更多的知识,减轻了对数据的依赖。在罕见疾病或孤儿靶标中,从大数据集(如 ChEMBL)学习化合物-靶标相互作用,并通过疾病相关靶标而不是拟合分子分布来设计分子,建立在“理解药物-靶标相互作用”的基础上
考虑到 AlphaFold 已经发现了98.5% 的人类蛋白质结构,基于目标的分子生成可以转换为经典的图像字幕问题。例如,图像是蛋白质的距离图(或3D 图像) ,字幕是要生成的分子 SMILES 代码。在这种配置中,基于目标的分子生成通常可以通过由目标可视化编码器和用于 SMILES 生成的语言模型组成的管道来处理。
多模态生成模型
成功的药物发现的前景在于多种数据模式的多样性,这些模式提供了互补的观点,并使发现的证据能够进行三角测量。使用多模态数据的深度生成模型可能比单模态模型具有显着优势,因为多模态数据包含互补的见解。目前的研究通常集中在分子结构数据上,并没有完全使用其他数据模式,例如药物 - 靶标相互作用,药物 - 疾病知识和药物治疗后特定细胞中的相关基因表达(图4A)。因此,如何充分利用多样化和异质性的生物数据是一个值得讨论的问题。对于这一挑战,有多种可能的解决方案。首先是“模态对齐”,这意味着将所有模态与中间模态连接起来。由于与分子结构建立关系更容易,因此选择结构模式作为其他模式的中介,例如药物诱导的基因表达。然后,我们将结构模态与其他模态连接起来,最后将所有模态对齐在中间空间中。“模态融合”,即降低中值模态转换器,是另一种可能性。所有模态都直接映射到一个公共的潜在空间,并由混合表示表示(图4A)。描述相同分子的不同模态在模态共享空间中应该更近,而反映不同分子的相同模态应该相距更远。
上述讨论基于具有充分和完整模式的训练数据,但现实往往不能满足这些假设。为了进一步利用这些部分数据,我们需要考虑如何补充缺失的模态。一种可能的方法是通过涵盖生物活性和分子的药代动力学和药效学特性的模式之间的建立关系来生成合成模式(图4B)。迫切需要寻求整合多模态信息的方法,这些信息可以有意义地产生分子,以加快药物发现的过程。
图4 药物发现应用中提出的多模态生成模型
从数据使用者到数据生产者的创成模型
除了深度学习算法的出现和基于图形处理单元的高性能计算的进步之外,前所未有的数据提供对于促进数据驱动的药物发现至关重要。高质量数据的数量仅靠并不能保证药物发现中可行的决策。例如,利用深度学习算法,AlphaFold从蛋白质的氨基酸序列和多序列比对中预测蛋白质的3D结构,具有卓越的性能。然而,分子识别位点的关键细节,配体结合的活性位点或蛋白质 - 蛋白质相互作用的四级结构,对于基于结构的治疗设计至关重要,仍未解决。药物对蛋白质的亲和力与底物(或辅因子)的亲和力决定了其有效性。然而,热力学和动力学特性甚至远未常规部署在药物设计的深度学习模型中,尽管它们被认为是重要的。自由能计算经常应用于分子大小可控(>∼100 s)的先导物优化,最近,蛋白质-配体结合动力学在药物化学中引起了人们的关注。然而,由于由高能垒分隔的过渡态,即使在传统分子动力学的长轨迹(∼ms)中也无法观察到蛋白质-配体结合/解结合动力学,从而将系统锁定在其初始状态周围的构型中,缺乏构象采样。在这方面,采用深度学习方法的大量工作集中在增强采样上,用于提取自由能表面和动力学,计算热力学变量,构建粗粒度模型以及分子结构采样的生成建模。虽然目前的药物发现主要致力于小分子系统,因为蛋白质的数据受到严重限制,但一旦蛋白质构象动力学数据变得更加可行,药物设计将朝着增强安全性和有效性的方向发展。
Conclusion and Outlook
药物发现平台正变得越来越工业化,能够使用人工智能消费和生成大数据来推动新的分子设计。老化,阿尔茨海默病,新冠肺炎-19,抗菌素耐药性,以及协助COVID-19大流行的诊断和治疗的发展提供示例。这些成功鼓励我们迎接挑战,进一步优化和验证医疗应用中的人工智能方法。增加企业架构和基础架构,包括百万兆次级计算,量子计算机,硬件和连接是行业、学术界和政府药物发现数据战略的优先事项。
强大的数据管理实践可以实现互操作性和对标准的遵守。 强烈推荐三个规则:
-
数据管理必须确保数据所有权(为数据共享模型奠定基础)得到实施并考虑到数据获取、使用和分发实践。
-
代表性数据(包括多样化的化学和目标覆盖范围)对于确保不存在数据偏差以允许深度学习模型覆盖广泛的应用至关重要。
-
大数据的数量、多样性、速度和准确性 (4Vs) 需要自动化和严格的数据协调和验证。
来自不同生物学终点和不同分析的数据协调和验证可以确保数据质量(完整性、一致性、完整性、公平性和透明度)和数据准确性。 此外,先进的数据共享和模型学习策略,如群体学习和联邦学习,将加速行业、学术界、政府和医疗保健系统之间的药物开发数据共享。 例如,最近一个名为协作 Profile-QSAR74 的平台根据先前报道的生物测定开发了协作模型,以在不共享任何训练数据的情况下扩大适用范围,从而提供了一种解决数据稀缺问题的方法。
综上所述,由快速增长的深度生成分子设计引发的最新进展为药物发现带来了新的动力,包括小分子和大分子的生产和优化。然而,人工智能技术的瓶颈,如模型缺乏或有限的可解释性、不可访问性以及缺乏高质量数据的可用性,目前限制了它们的应用并影响了它们的性能。迫切需要在现实的药物发现环境中进一步开发和评估智能生成模型,以使深度学习充分发挥其潜力。在这样的发展下,智能生成模型范式将有可能从理论研究转变为治疗的实际生成,并为化学家和化学建模师的日常工作提供易于使用的工具包。
原文链接