Chem. Sci.|AlphaFold加速了人工智能药物的发现:一种新型CDK20小分子抑制剂

news2024/11/14 16:56:38

题目:AlphaFold accelerates artificial intelligence powered drug discovery: efficient discovery of a novel CDK20 small molecule inhibitor

文献来源:Chem. Sci., 2023, 14, 1443

代码:是一个很大的流程

https://www.pandaomics.com/

https://www.chemistry42.com/

https://github.com/insilicomedicine/ipanda

https://github.com/insilicomedicine/GENTRL

https://github.com/insilicomedicine/TRIP

1.背景介绍

蛋白质的三维结构与其在细胞中的功能和氨基酸导致的生物学影响密切相关。蛋白质结构是研究基因-疾病关联和作用模式(MoA)的一种通用工具,可以用于评估治疗靶点的可用药性。基于结构的药物发现(SBDD)一直是识别hit molecules和进行先导物优化的主要方法,该方法的实现需要一个靶点的三维结构。但是蛋白质的预测是一个非常困难的事。直到AlphaFold才有了转机。目前,AlphaFold模型可以用于帮助通过晶体学和低温电子显微镜确定实验结构,指导PINK1的功能研究、帮助识别致病突变,以及探索蛋白-蛋白相互作用。

图1 AlphaFold与 Insilico Medicine端对端结合结合,以及人工智能药物发现平台 Insilico Medicine,在肝细胞癌药物发现中实现靶点选择和hit生成到hit鉴定。这个新的治疗靶点缺乏实验结构信息,是通过alphafold预测获得的。这种靶点代表了治疗HCC的一类新靶点。

在这项工作中,作者通过将AlphaFold预测的蛋白质结构与端到端人工智能药物发现平台 Insilico Medicine结合,快速识别出一个新靶点的从头分子。图1展示了整个工作流程。因为HCC(hepatocellular carcinoma)与肝癌和有效治疗的缺乏息息相关,所以HCC作为目标。总的来说,通过对HCC的10个数据集的文本和组学数据的分析,PandaOmics提供了含有20个靶点的列表。经过多种筛选之后,最后CDK20(Cyclindependent kinase 20)成为了目标单点。选择CDK20的原因是因为这个靶点与疾病有着紧密的联系,但是实验结构信息较少,而且这三年内关于该靶点的临床药物或者审批药物也比较少。利用AlphaFold预测的CDK20结构,Chemistry42平台进行基于结构的化合物生成,生成8918个分子,进行分子对接和聚类之后,7个化合物进行合成和生物测试。其中,化合物ISM042-2-001在CDK20激酶结合试验中显示其Kd值为9.2 ± 0.5 mM(n = 3)。通过Chemistry42和AlphaFold预测的蛋白质结构,作者只花了30天就完成了第一次hit。然后,预测的结合模式指导第二轮化合物生成、合成和测试,从而得到了更多具有纳摩尔抑制能力的分子ISM042-2-048。目前,这项工作是首次报道的成功地利用AlphaFold预测的蛋白质结构来识别早期药物发现的新靶点的新分子。

2.靶点的筛选和鉴别

肝细胞癌(HCC)是肝癌的主要类型,约占患者总数的75%。由于世界各地区的预后都很差,肝癌的发病率与死亡率非常接近。

PandaOmics是一个自动药物发现的人工智能引擎,旨在加速和优化药物发现早期阶段的关键步骤。该生物计算平台结合了用于数据分析、可视化和解释的生物信息学方法与高级多模态深度学习方法,可以用于靶点的鉴别。PandaOmics的治疗靶点以及生物标志系统的构建是在多重分数的基础上形成的。这些分数来自于与基因和目标疾病有关的文本/OMICs数据。文本的倾向挑出那些在文献中广泛出现的基因。而OMICs为基础的分数则相反,根据差异表达、基因变异、相互作用组拓扑结构、信号通路扰动分析算法、基因敲除/过表达实验等方法来探索基因与疾病分子上的联系。这种方法允许用户获得在常见的一般知识或简单的生物信息学分析中可能不明显的隐藏假设。人工智能工具有利于揭示一些靶点假设。总体评分方法对特定疾病的靶点候选物进行排序,然后根据其新颖性、小分子和抗体的可及性、安全性、组织特殊性、晶体结构可用性和主要生物结构进行筛选。

PandaOmics平台的另一个特性是,它能够将来自不同实验的数据合并成一个单一的元分析,并利用来自所有数据集的见解结合在一起,以实现精确的目标优先级。作者为HCC的10个数据集(1133个疾病样本和674个健康对照)组成的每种相关疾病创建了元分析。对靶点候选物进行排序之后,PandaOmics会进行筛选最后获得最后可能符合目标疾病场景特征的一个靶点集合。这些靶点没有结晶实验结构但是具有AlphaFold模型给出的结构信息。最后在人为选择的前20个靶点候选物中,CDK20作为HCC疾病条件下的最好靶点被选择。然后这个靶点信息被输入到 Chemistry42平台用于自动化地生成小分子抑制剂。

3.CDK20是一个很有前途的癌症治疗靶点

CDK20,又称 cell cycle-related kinase(CCRK),是周期蛋白依赖性激酶家族的最新新成员,因其在多种人体组织中的功能(细胞周期依赖和独立)而受到近年来的广泛关注。CDK20在许多人体组织中都具有相当的翻译水平广泛表达。而且,越来越多的临床前证据表明,CDK20在许多肿瘤细胞系中都存在过度表达。这个结论来自于多种不同类型癌症患者的肿瘤样本:结肠直肠癌、肝细胞癌(HCC)、肺癌和卵巢癌。具体的表达原理可见原文。

4.利用AlphaFold预测的结构用于CDK20的分子生成

到今天为止,尽管针对CDK家族其他成员的抑制剂研究取得了巨大的成功,但报道的CDK20抑制剂数量仍然非常有限(如图2所示)。

图2 从文献中报道的CDK20抑制剂和本文中发现的新型抑制剂ISM042-2-048以及利用RDKit从Morgan指纹中计算出所报告的分子与ISM042-2-2-048的谷本相似性。

图3描述了Chemisty42平台上利用SBDD方法来生成和预测CDK20抑制剂。

图3 Insilico Medicine公司的CDK20抑制剂生成过程。

当用户将蛋白质结构上传到Chemisty42平台时,程序会自动使用内置的能量基方法来确定假定的结合位点。蛋白质的表面被探针(甲基)均匀地覆盖,而且每个探针与受体原子的非共价相互作用的能量都会被计算出来。能量低于用户定义阈值的探针被聚集在单独的口袋中。每个深度空腔都以口袋体积、表面和深度描述符进行评分。基于这些描述符,Chemisty42提供了一个定义好的结合位点的列表。

图4 (A) AlphaFold预测的CDK20结构(AF-Q8IZL9- F1-model_v1);CDK20的(B) ATP口袋,具有DFG-in(残基Phe146)构象。Met84是铰链残物。绿色部分是p型环。两个酸中心Asp87和Glu90位于该蛋白的溶剂暴露区域。

AlphaFold(AF-Q8IZL9-F1- model_v1)预测的CDK20结构除了如图4a所示的C端外,总体上具有较高的识别水平。AlphaFold预测结构的C端构象阻断了蛋白质的溶剂暴露区域,C端残基Arg305占据了ATP口袋,如图4(A)所示。C端有一个具有各种构象的灵活环。AlphaFold预测结构中的C端并不利于通过占据ATP口袋来设计抑制剂的构象。因此,C端(Pro303-Gly346)被移除,只有从残基Met1到残基Ile302的结构被用作分子生成的Chemisty42平台输入。Chemisty42平台确定了一个体积为150埃3的浅ATP结合口袋(图 4B)。在铰链残基Met84附近,残基Phe81阻止配体到达后口袋。预测的结合口袋在溶剂化区域有一个DFG-in构象和两个酸性中心(Asp87和Glu90)。平台使用一种基于口袋的生成方法进行生成创新性的分子结构。铰链残基Met84被定义为所需的结合点。来自ATP口袋的其他三维结构信息已被用于引导分子的生成更好地指向目标口袋,如口袋的三维形状、口袋体积和口袋中原子的空间排列。Chemisty42共设计了8918个分子。通过分子对接以及聚类,优先考虑54个铰链核心结构的分子,最终选择7个化合物进行合成。

5.结果和讨论

图5 从Chemisty42平台的第一轮生成结果中选择的7个分子化学结构,用于合成和CDK20结合试验中的测试。

图5展示了这7种化合物的化学结构。在所选化合物中,一个化合物ISM042-2-001在CDK20激酶结合试验中Kd值为9.2 ± 0.5 mM(n = 3,一个具有代表性的结合曲线如图6A),在CDK20激酶活性试验中半抑制浓度值为>6000 nM。作者只花了30天的时间就发现了 hit molecule。他们还提出了ISM042-2-001通过分子对接的结合模式,如图6b所示:四个氢键的相互作用用虚线表示。除了与铰链残基Met84形成的两个氢键外,ISM042-2-001还通过酰胺-NH基与残基Leu85相互作用,并通过吡咯-NH基与p-环中的残基Ile10相互作用。或者,酰胺-NH基团或吡咯-NH基团可以与溶剂化区域的两个酸中心Asp87和Glu90形成氢键。

图 6 ISM042-2-001在CDK20激酶结合试验中的代表性结合亲和曲线。数据点以一次实验中重复最低点的平均值表示。在三个独立实验中也得到了相似的结果,KD是三个独立实验的平均值±SD。(B)预测了ISM042-2-001与CDK20的结合姿态。

基于预测的结合姿态和效价数据,作者利用Chemisty42平台进行了第二轮化合物生成。通过两种方法提高新分子的结合亲合力:(1)喹唑啉环上的官能团占据gatekeeper区域附近的疏水口袋;(2)修饰吡咯-2-羧酰胺阳离子进入溶剂化区域,使其与酸性残基Asp87或Glu90作用。采用上述策略,16个生成的分子中有6个被合成并测试。如图7所示,其中ISM042-2-048和ISM042-2-049的结合亲和力分别比ISM042-2-001提高了15倍和24倍,Kd值分别为566.7 ± 256.2 nM和360.0 ± 14.1 nM。ISM042-2-048与CDK20的预测结合模式如图8B所示。基于所提出的结合模式,ISM042-2-048的吡唑基团除了在铰链区域和溶剂区域的具有相互作用外,还与残基Lys33形成氢键,而这解释了其结合亲和力的显著提高。ISM042-2-048与已报道的CDK20抑制剂不同,具有一种新的支架以及低分子相似性,如图2所示。此外,ISM042-2-048对CDK20激酶活性的抑制作用,平均半抑制浓度为33.4 ± 22.6 nM(n = 3),在Huh7中表现出选择性抗增殖活性(半抑制浓度= 208.7±3.3 nM),一个过表达CDK20的HCC细胞系与反筛选细胞系HEK293(半抑制浓度= 1706.7 ± 670.0 nM)的比较如图9所示。下一轮的优化将很快开始,以进一步提高效价,ADME的特性也将对激酶的选择性进行评估。

图7 Chemisty42平台第二轮合成的化学结构,这些结构进行了CDK20结合和激酶活性测定实验,对应的数据来自三个独立的实验。

图8 (A)CDK20激酶结合试验中ISM042-2-048的代表性结合亲和曲线。数据点以一次实验中重复最低点的平均值进行表示。在三个独立实验中得到了相似的结果,KD是三个独立实验的平均± SD。(B)预测了CDK20中ISM042-2-048的结合姿态。

图9 (A)CDK20激酶活性测定中ISM042-2-02-048的代表性剂量-反应曲线。在三个独立的实验中也得到了相似的结果,半抑制浓度是三个独立实验的平均最低点± SD。(B)ISM042-2-048在Huh7细胞系和反筛选细胞系HEK293中的细胞活力曲线。数据点以一次实验中重复最低点的平均值表示。在三个独立的实验中也得到了类似的结果。

6.总结

基于结构的药物发现(SBDD)已经是识别hit molecules和进行先导物优化的主要方法。而预测蛋白质结构的AlphaFold是一个强大的工具,可以预测没有或具有有限的结构信息的新靶点。在此,作者通过使用AlphaFold预测信息作为平台的输入,在30天内实现目标选择、分子生成、化合物合成和生物测试,获得CDK20抑制剂。在合成的7个化合物中,ISM042-2-001在CDK20激酶结合试验中显示Kd值为9.2 ± 0.5 mM(n = 3)。基于初步的SAR,进行了第二轮AI化合物生成,并在30天内合成了6个化合物并测试,发现了首个hit ISM042-2-001。此外,作者发现了一个更好的hit molecule-ISM042-2-048,其平均Kd值为566.7 ± 256.2 nM(n = 3),平均半抑制浓度值为33.4 ± 22.6 nM(n = 3)。此外,ISM042-2-048在CDK20高表达(半抑制浓度= 208.7 ± 3.3 nM)的HCC细胞系Huh7中也表现出良好的抗增殖活性,而在反筛选细胞系HEK293(半抑制浓度= 1706.7 ± 670.0 nM)中作用较弱。这一初步结果表明,设计的CDK20抑制剂并没有诱导任意的细胞毒性,而是对过表达CDK20的HCC细胞有更强的作用,因此可以作为评估该靶点生物学功能的工具分子。该分子的进一步优化以及ADME性质的评价正在进行中。此外,这项工作代表了成功利用 AlphaFold预测蛋白结构获得新靶点hit identication的第一个例子。这种方法的进一步应用也应用于其他靶点类型,如GPCR和E3酶的相关实验正在进行中。

具体的实验细节可看Materials and methods部分。

-------------------------------------------

欢迎点赞收藏转发!

下次见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/343272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CountDownLatch的定义、使用 、原理

一、定义 CountDownLatch的作用很简单,就是一个或者一组线程在开始执行操作之前,必须要等到其他线程执行完才可以。我们举一个例子来说明,在考试的时候,老师必须要等到所有人交了试卷才可以走。此时老师就相当于等待线程&#xff…

《Terraform 101 从入门到实践》 Terraform在公有云Azure上的应用

《Terraform 101 从入门到实践》这本小册在南瓜慢说官方网站和GitHub两个地方同步更新,书中的示例代码也是放在GitHub上,方便大家参考查看。 简介 Azure是微软的公有云,它提供了一些免费的资源,具体可以查看: https:/…

从零开始学数据分析之数据分析概述

当今世界对信息技术的依赖程度在不断加深,每天都会有大量的数据产生,我们经常会感到数据越来越多,但是要从中发现有价值的信息却越来越难。 这里所说的信息,可以理解为对数据集处理之后的结果,是从数据集中提炼出的可…

11- 聚类算法 (KMeans/DBSCAN/agg) (机器学习)

聚类算法 聚类算法和降维算法那都属于无监督算法。KMeans 是以一个值为中心, 然后所有其他点到该点距离最小值的累积和。 kmeans KMeans(n_clusters3) # n_clusters 分类数量 kmeans.fit(data.iloc[:,1:]) # 无监督,只需要给数据X就可以 DBSCAN 算法是…

GAMES101作业7及课程总结(重点实现多线程加速,微表面模型材质)

目录闲言碎语最终全部效果展示(均为10241024512ssp)课程总结与理解(Path Tracing)框架梳理任务一:迁移相关代码任务二:实现path tracing任务三:多线程加速(包括其他加速的小trick&am…

Cocos Creator 3.x开发《切水果3D》

今天跟大家分享一个Cocos Creator 3D切水果的实战案例,帮助大家掌握Cocos Creator开发3D微信抖音小游戏,开发工具我们采用的是Cocos Creator 3.6。先上一波游戏操作效果图,接下来通过本文来讲解这个游戏的一些核心的技术点。 对啦&#xff0…

使用sqlmap + burpsuite sql工具注入拿flag

使用sqlmap burpsuite sql工具注入拿flag 记录一下自己重新开始学习web安全之路③。 目标网站:http://mashang.eicp.vip:1651/7WOY59OBj74nTwKzs3aftsh1MDELK2cG/ 首先判断网站是否存在SQL注入漏洞 1.找交互点 发现只有url这一个交互点,搜索框和登录…

Springboot扫描注解类

Springboot扫描注解类的入口在AbstractApplicationContext的refresh中,对启动步骤不太了解的,可参考https://blog.csdn.net/leadseczgw01/article/details/128930925BeanDefinitionRegistryPostProcessor接口有多个实现类,扫描Controller、Se…

【VictoriaMetrics】VictoriaMetrics单机版批量和单条数据写入(Prometheus格式)

VictoriaMetrics单机版支持以Prometheus格式的数据写入,写入支持单条数据写入以及多条数据写入,下面操作演示下如何使用 1、首先需要启动VictoriaMetrics单机版服务 2、使用postman插入单机版VictoriaMetrics,以当前时间插入数据 地址为 http://victoriaMetricsIP:8428/api…

ISYSTEM调试实践10-实时数据采集工具daqIDEA

本文介绍一种实时数据采集的工具daqIDEA,该软件整合在了winIDEA内,可以直接通过winIDEA启动。 daqIDEA类似于jlink的jscop,stlink也有类似功能。原理就是利用仿真探头,将程序运行的变量实时采集出来,并通过曲线的方式显…

记录次数 | V1.1.0版本变动说明

版本内容1、新增词条数据报告---统计累计次数、最早时间、最晚时间等等 2、词条加入内容文本审核功能---创建/修改词条先经过微信文本安全接口审查,审查通过的才能分享公开数据,否则只能自己可见 3、新增分享版本思考这个小程序是有自然流量的&#xff0…

跨域小样本系列4:finetune方法解决CDFSL

来源:投稿 作者:橡皮 编辑:学姐 带你学习跨域小样本系列1-简介篇 跨域小样本系列2-常用数据集与任务设定详解 跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解 跨域小样本系列4:finetune方法解决CDFSL以及…

通付盾汪德嘉——设备指纹的尽头是分布式数字身份

作者简介:汪德嘉,美国威斯康星大学麦迪逊分校数学博士、九三学社社员、正高级工程师;时空码发明者,《身份危机》与《数字身份》专著作者;曾在ORACLE、VISA、IBM等企业部门负责总体设计、产品开发,2011年归国…

深度学习训练营_第P3周_天气识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍦 参考文章:Pytorch实战 | 第P3周:彩色图片识别:天气识别**🍖 原作者:K同学啊|接辅导、项目定制**␀ 本次实验有两个新增任务&…

信息论绪论

本专栏针包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:information-theory】,需要的朋友们自取。或者关注公众号【AIShareLab】,回复 信息论 也可获取。 文章目…

「2」线性代数(期末复习)

🚀🚀🚀大家觉不错的话,就恳求大家点点关注,点点小爱心,指点指点🚀🚀🚀 方阵的行列式 (1) |A^T||A|(2) |&#x1d6…

树莓派 安装 宝塔linux面板5.9. 2023-2-13

​​​​​​​ 一.环境 1.硬件环境: 树莓派3b , 8GB tf卡 ,micro usb电源 2.网络环境: 网线直连路由器 , 可访问互联网 3.软件环境: 树莓派操作系统 CentOS-Userland-7-armv7hl-RaspberryPI-Minimal-2009-sda(linux) 系统刻录工具 Win32DiskImager (win) ip扫描工具 Adv…

Github 上如何提交 pull request

什么是复刻(forking)? 我们可以通过复刻操作将喜爱的仓库保存自己的Github账户中,以便独立地对其进行操作。 通过复刻,我们可以得到包含完整版本历史的目标仓库的实例,之后可以对复刻得到的仓库进行任意操作而不会影响…

iTOP3588开发板直连电脑配置方法(无线上网)配置主机IP

首先使用网线连接好主机和开发板,在没有上电的情况下,可以看到以太网显示网络电缆 被拔出,如下图所示: 当开发板上电以后,开发板网卡与笔记本电脑的网卡会连接,如下图所示: 然后右键点击以太网…

MY2480-16P语音模块的使用

MY2480-16P语音模块的使用开发环境:STM32CUBEMXKEIL5辅助软件:串口助手、迅捷文字转语音一、MY2480-16P语音模块引脚图及引脚定义二、选择触发方式三、使用串口控制MY2480-16P语音模块四、模块使用指南开发环境:STM32CUBEMXKEIL5 辅助软件&a…