题目:Chemistry42: An AI-Driven Platform for Molecular Design and Optimization
文献来源:https://doi.org/10.1021/acs.jcim.2c01191
代码:https://insilico.com/pipeline (平台网址)
1.背景介绍
Chemistry42是Insilico Medicine提出的一个软件平台。该平台通过将AI技术以及计算、药物化学等方式,可以进行小分子的从头设计优化。Chemistry42可以有效地生成具有优化性质的小分子结构并且通过体内外实验来验证其有效性。本文主要介绍如何使用该平台获得针对DDR1和CDK20靶点的药物结构。
2.Chemistry42生成能力介绍
Chemistry42包含了最先进的生成式人工智能算法与医学和计算化学专业知识以及最佳工程实践。它于2020年推出,目前20多家制药公司、15个外部项目和30多个内部项目使用在使用该平台。该平台的主要任务是加速定制属性的新分子设计过程。其具体流程可以看图1。
图1 Chemistry42平台的从头生成实验的三步工作流程示意图。在第一步中,用户上传他们的数据,并为生成的结构规定所需的属性配置。第二步是运行平台,此时40个多个生成模型并行地生成新的结构,这一步称为生成阶段。在该阶段,各种过滤器会仔细地检查生成出来的分子结构。这些分子结构会被具有多种奖励或打分函数进行分为2D或者3D模块并且跟进预设的期望属性来动态评估生成的分子性质。其他的自定义评分模块(如ADME预测器)也可以集成到奖励管道中,从而对生成的结构进行优先排序。这些模块构成了Chemistry42的基于多主体强化学习(RL)的生成协议的主干。生成的结构的分数被反馈给生成模型,以加强它们,并引导生成过程走向高评分的结构-这步也可以称为学习步骤。最后一步是分析。生成的结构根据其预设的属性进行自动排序,评价指标包括合成可访问性、新颖性、多样性等。该平台还为用户提供了交互式工具来监控生成模型的表现。
Chemistry42具有非常友好的页面可以直接进行化学生成实验。根据获得的目标信息,可以使用基于配体/结构的方式进行实验。LBDD(Ligand Based Drug Design-基于配体的)方法需要使用2D/3D的配体结构信息作为输入,输入的形式包括了SMILES,sdf文件以及使用平台的手绘草图。同时,用户也可以通过手动或者自动的方式添加创造一些药效团假设。而在SBDD( Structure-Based Drug Design-基于结构的)的设计中,目标蛋白的结构:无论是复合物还是单体,都需要用pdb文件上传到平台上(图2)。人们可以直接选择配体上的结合口袋或者从Pocket Scanner Module中选择其中一个口袋作为选项。与LBDD的情况一样,这种设计也可以根据需要添加一个药效团假说。为了进行合理的生成实验,用户需要确定一些具体属性的范围。用户可以对奖励模块的权重进行调整并且通过调整阈值来确定相应模块的限制性。在LBDD和SBDD方法中,用户能够指定和微调奖励模块,以及在实验中使用的生成模型类型。平台的Anchor points功能还可以用于Hit 拓展, Hit优化, 以及 FBDD(Fragment-Based Drug Design-基于片段的)的药物设计。通过Anchor points,用户可以确定3D空间中的重要核心基团,而其他部分的分子结构可以通过生成实验产生。Anchor points同时也支持通过改变原子类型来获得多个子结构。例如,用户可以指定他们是想看到芳香环中看到氮还是碳。自动配置是根据所提供的输入数据自动调整所有参数的一种快速方法。
图2 Chemistry42平台进行的SBDD生成实验。
Chemistry42的生成管道采用了生成模型的异步集成。这些算法具有不同的架构以及策略。Chemistry42平台利用多种机器学习模型和分子表示来最大限度地提高每个模型的贡献以及平台的效率。例如,一些模型专注于化学空间的探索,同时可以改进这些被探索的结构。在目前的平台上,一共有40多种生成模型,包括了生成式自动编码器,生成式对抗网络,基于流的方法,进化算法,语言模型等。这些模型采用的分子表示也有所不用,主要包括了字符,图以及3D结构。
理解和刺激多种生成模型之间的相互作用是非常必要的。作者利用了深度学习领域的分析方法来研究每种模型的优缺点而非把它们当做一个黑盒式的解决方案。结合了各种先进的机器学习模型,Chemistry42在数小时内能给出多种不同的高质量分子结构。然后平台上的奖励/打分模块会对这些分子进行动态评估。
Chemistry42平台的奖励/打分模块主要是用于2D/3D的结构评估。2D模块由多个分数和MCFs(in-house Medicinal Chemistry Filters)组成,用于评估生成的结构。在当前的版本,Chemistry42包含了可以排除坏结构(那些包含结构警报、PAINS或反应性、不稳定或潜在毒性的官能团)的460个内部规则。MCE-18(Medicinal Chemistry Evolution)函数则是一种分子描述符可以依赖分子的累计的sp3复杂度对其新颖性(novelty)进行打分。其他的2D模块则是包含了Lipinski’s Rule of Five (Ro5), Drug-likeness 以及 Weighted atom-type portion descriptor,以及删除杂原子与芳香原子不平衡的结构过滤器。新颖性可以评估生成的结构和参考数据集(可以定制)之间的2D相似性,从而提高新颖性。平台通过一组拓展规则来评估Drug-likeness。ReRSA(Retrosynthesis Related Synthetic Accessibility ) 分数可以评估生成分子的SA(Synthetic accessibility-可合成性)。ReRSA是一种改进的基于片段的SA评估方法,它从逆合成的角度对生成结构的片段进行分析,从而得到更准确的SA。ReRSA会考虑了商业上可用的构建块的空间:会对可以转换为现有的构建块(BBs)的结构进行奖励。ReRSA默认使用了大约20万个常用的BBs。
平台还可以使用自定义相似度函数对生成的结构进行多样性(Diversity)评估和聚类度量。分析生成结构的多样性有利于了解哪些分类之后的生成分子的结构多样性。PFs(Privileged Fragments)指的是哪些与目标活性相关的分子结构/组成部分。PFs在两种分子生成流程中非常有用。第一个涉及定义2D PF子结构(s),在所有生成的在三维空间中没有预定义定位的结构中找到找到这些结构。这就很适合哪些没有抑制剂的蛋白质结构。例如,如果你的靶点是一个新激酶蛋白结构,结合剂的2DPFs可以用于生成实验,从而讲生成的结构引导到成熟的化学空间。第二种则会涉及到Anchor Points的使用本质上是3DPFs。因此,在蛋白质−配体复合物(SBDD模式)或配体的三维构象(LBDD模式)中,靶点子结构都是必不可少的。(The self-organizingmaps)SOM分类模块(general SOM map 100 × 100)用于分子生成方向的把握使其接近于特殊靶点相关的化学空间。由于一般的SOM包含的神经元的分类能力低于预定义的阈值,因此从这些神经元中收集所有参考分子,然后自动生成适应大小的ZOOM地图,以获得可靠的分类精度。HAM(Hierarchical ActiveMolecules)数据集用于训练SOMs分类器模块和ZOOM映射。HAM数据集由80万多的实验验证的IC50<10μM的分子的数据组成。Structure Morphing模块包含两个组成部分:基于规则的解决由生成的结构中潜在的代谢位点引起的代谢不稳定问题的Metabolic Stability Enhancer,以及执行生物等空间/等空间转换的Bioisostere模块。
2D模块对生成的分子进行评估之后,3D模块紧随其后。ConfGen模块是第一个3D模块。它会产生对应生成结构的一个构象集合。ComGen模块通过一套内部规则和基于小分子共晶x射线数据的预定义子结构几何图形生成构象集合,然后使用Insilico的专有力场进行能量最小化。FLEX 分数作为灵活性(flexibility)评估分数,根据刚性对生成的分子结构进行排序。一旦生成了构象集合,3D-Descriptors模块将使用一组计算出的3d描述符来评估生成的结构和参考分子(输入配体)之间的三维相似性。然后,Pharmacophore模块评估生成的构象是否符合指定的药效团假说如所有重要的结合点、距离、键角和耐受性。Anchor points检查用户定义的3D子结构是否在生成的结构中具有正确的构象和位置。Shape Similarity模块则会通过加权高斯函数来评估生成分子与参考分子的3D形状相似性。最后一个模块侧重于对生成的结构进行定位和评分,以评估它们与所选的结合位点(Pocket模块)的匹配程度,并以PLI(Pocket-Ligand Interaction-口袋-配体相互作用)分数近似结合亲和力。PDBBind Refined Set v2020用于训练PLI分数的评价。该分数考虑了hydrogen bonds, π-staking, π-cation, XH-π, hydrophobic interactions, 以及saltbridges和 chelating bonds。PLI分数的单位为千卡/摩尔,其中该值越负,分数越好。
用户可以设定他们想要运行生成实验的多长时间。一般情况下,72个小时可以观察到模型的收敛。在生成实验中,平台对每个生成模型的性能进行监测和记录。这允许用户从开始到完成实时跟踪他们实验的进展。生成的结构会根据集成到平台中的模块中所包含的度量进行自动评估和排序。所有相应的数据,包括分数、分子结构和生成模型性能,都存储在平台的结果页面上并可以访问。一旦生成实验完成,用户可以通过交互界面进行分析实验结果。
新手用户甚至可以从第一次运行的SBDD,LBDD,和其他各种工作流程等实验中获得有价值的结果(1−5个可合成的新分子)。所获得的结果及其后续的分析可以帮助以更具体的方式设置第二次运行,以获得更多想要的结果。通常,在第二次运行时,用户可以利用平台在第一次运行时提供的一些想法(例如,在第二次运行时添加一些privileged structures)。对平台的功能和结果非常熟悉的高级用户可以直接配置平台,并在新项目的第一次运行中获得预期的结果(10−20可合成的新分子)。
3.Chemistry42的生成模型的基准测试
Molecular Sets((MOSES)作为基准数据可用于评估所有生成模型的性能。MOSES可以评估每个模型在生成期间和实验完成后,以及奖励成分的表现,包括新颖性、多样性等。据所提供的分析方法,用户可以分析每个模型的性能。在实验过程中记录结果和训练数据并存储,以确保再现性和监测简单可行。
4.个案研究
生成管道的早期版本(在《化学42》发布之前),被用来展示生成算法设计经过实验验证的、类药分子结构的能力(见图3)。
图3 在2018年案例研究1中的GENTRL模型进行 DDR1抑制剂的生成实验。后续的模块((MCFs, SOMs, and pharmacophores)可以进一步缩小给出的结构集合数量。Chemistry42是一个于2020年发布的集成平台。该平台支持40多个生成模型一起工作,从奖励模块和过滤器中获取信息,从而产生具有所需属性的分子结构。新版本的平台允许利用蛋白质−配体复合物和载体蛋白结构的.pdb文件作为输入数据。来自AlfaFold2的CDK20模型可以用于两轮连续的生成实验。第一轮的重点是从apo结构中设计潜在的CDK20抑制剂,而第二轮利用了从第一轮确定的主要命中开始的命中选择工作流程。
4.1 GENTRL模型能够快速生成有效的DDR1抑制剂
GENTRL模型和后代协议是Chemistry42平台当前体系结构的前体。在开创性和广泛讨论的研究5中,2018年开发的模型生成了经过实验验证的强效DDR1激酶抑制剂。GENTRL先在ZINC数据集上进行训练,然后在已报道的DDR1抑制剂和可公开的激酶抑制剂数据集上进行微调。生成的结构通过结构过滤器清洗,除去消除具有反应性基团、PAINS和其他不靠谱的结构。该功能后来变成了为Chemistry42平台的MCFs模块。聚类和选择每个聚类中最具多样化的成员这两步操作进一步减少了结构集合数量。激酶SOMs和药效团假设(来自于已报道的DDR1与其抑制剂的共晶体)评估这个较小的结构子集。在最后剩下的的结构随机选择40个,并进一步进行人工合成可及性评估。在这40个结构中,有6个化合物进行了合成和生物评估。到第35天,这些化合物已成功合成,并在体外测试了其对DDR1酶激酶的抑制试验。实验结果发现超过一半的化合物被发现具有活性(半抑制浓度< 1 μM),包括两种两位数的纳摩尔抑制剂(10 nM和21 nM),而两种化合物在实验中没有活性。
4.2利用AlphaFold2生成的三维蛋白质结构来生成Hit-Molecules
作者最近在一个细胞周期蛋白依赖性激酶20(CDK20)抑制剂的SBDD案例研究中使用了AlphaFold2预测的蛋白结构。选择的靶点为CDK20(也称为cell cycle-related kinase, CCRK),是PandaOmics软件认为的潜在靶点。由于缺乏蛋白质和已报道的工具化合物的结构信息,CDK20成为验证AlphaFold2+Chemistry42方法的理想候选靶点。CDK20 AlphaFold2模型(AF-Q8IZL9-F1-model_v1)被用作SBDD模式下的Chemistry42的输入,用于产生抑制CDK20的新分子结构。Pocket Scanner 模块可以将ATP结合位点作为合适的口袋用于生成潜在的抑制剂。在已知的CDK抑制剂数据集训练过的 hinge binder harmacophore and a SOM会引导结构的生成到CDK抑制剂的化学空间。Novelty过滤器则可以保证生成的分子与已知的CDK数据避免具有相似的结构。因为Shape and 3D-descriptors这两个模块(图3)需要模板配体的信息,因此在第一步过程中这两个模块不会被启用而是使用蛋白质的建模结构。通过生成管道共设计了8918个分子经过一系列的工具对54个分子进行优先排序,并根据评分选择7种化合物进行合成。在这些化合物中,在CDK20结合试验中发现了一个Kd值为8.9 ± 1.6 μM的喹唑啉环。在第二阶段,使用2D PFs功能进行Hit-optimization:在维持喹唑啉支架同时探索r-基团空间,以提高已识别的Hit-Molecule的结合亲和力。Hit-optimization过程中探索了相似的第一步中的药效结构且没有使用SOM打分,获得了6个排序的分子。实验显示有两个分子达到了210.0±42.4 nM和375±5 nM的kd值。总之,这项工作证明了支持靶标识别(PandaOmics)、蛋白质折叠(AlphaFold2)和生成化学(Chemistry42)的人工智能方法之间的协同作用,它们能够在结构数据有限时有效地促进数字药物开发过程。
5.Chemistry42操作性
Chemistry42可以通过web界面来访问。该实现集成了各种旨在优化性能的特性。该平台允许其在AWS或Azure云上部署,或作为SaaS解决方案(chemistry42.com)上部署。平台可以集成到已经建立的工作流中。
Chemistry42 连接到Insilico公司的生信网页PandaOmics (https://pandaomics.com) (Figure 4)。PandaOmics是一个用于分析组学数据的综合计算套件,提供从疾病信号到潜在靶点和现有药物的信息。PandaOmics利用iPANDA算法将经典的生物信息学方法与信号通路分析相结合。PandaOmics还提供了一个人工智能工具包,包括路径重建的深度特征选择、路径评分引擎、因果推理、深度学习转录反应评分引擎和一个基于激活的评分引擎。这种多模态方法结合了大数据、化学、生物学和医学,完整地表征分子结构、性质、生物样本的改变和靶点发现所需的药物反应之间的相互作用。
图4 Chemistry42与PandaOmics集成的药物发现管道。平台的互通性可以实现靶点识别与从头设计小分子的有效互动。
6.结论
Chemistry42平台(https://chemistry42.com)作为一种可定制的工作环境,课题提供新分子设计最先进的人工智能技术。灵活、用户友好的界面使医学和计算化学家、人工智能专家和其他从事药物发现领域的科学家都能够使用Chemistry42。化学42的协作性质能够促进不同科学界领域的交互。
-------------------------------------------
欢迎点赞收藏转发!
下次见!