分子生成工具应用案例+流程 - Pocket Crafter

news2025/1/23 7:56:52

2023年10月9日,诺华公司的Lingling Shen和He Wang在Chemrxiv上发表了文章《Pocket Crafter: A 3D Generative Modeling Based Workflow for the Rapid Generation of Hit Molecules in Drug Discovery》,介绍了他们分子生成在hit finding项目应用中的pipeline: Pocket Crafter,及其实际应用效果。

Pocket Crafter以Pocket2Mo作为3D的分子生成工具,然后经过化学物理的过滤器,类药过滤器,以及SAR富集,对top的分子进行骨架聚类,获得虚拟的多样性骨架。

在他们的WDR5体系中,基于获得的虚拟骨架在诺华库中进行有针对性的搜索后,获得了一组重点关注的 2029 个化合物。经过试验测定,获得了一个新颖的活性分子。

Pocket Crafter 成功构建了一个有效的端到端 3D 生成分子的实际应用的工作流程原型,用于探索新的化学骨架,代表了早期药物发现中识别新型活性化合物的一种有前途的方法。

这也是分子生成AI方法新的应用模式。

1. Pocket Crafter流程

Pocket Crafter的流程结构如下图:

首先,将蛋白的三级结构作为输入,利用Pocket2Mol模型,3D生成binder。

然后将生成的分子经过物理-化学过滤器,然后是hit过滤器(QED,可合成性SA,与口袋的结合力等),然后进行虚拟的SAR分析,提取多样性骨架。

Pocket Crafter最终输出的是:能结合在口袋上的多样性的分子骨架;对应的相互作用模式;虚拟预测的可合成性,可用在化合物库中检索的分子。

1.1 Pocket2Mol生成分子

使用github中的Pocket2Mol代码,每次采样生成2000个分子,重复进行300次,每次使用不同的随机种子。

最终,获得了50W个的de novo的多样性的虚拟分子。 

可想而知,虽然是在口袋条件下,但是生成的分子重复率仍然很低(1-50w/2000/300,约为17%),可见适合一个口袋的化学空间是多巨大的,对如此巨大的化学空间的检索,显然不是人能做的,只有CADD和AIDD才能完成。

案例中,WDR5 WBM口袋已知小分子binder的如下图(已知的binder,作为口袋参考):

1.2 化学物理性质过滤

使用Pipeline Pilot软件,包括:校验分子,保证分子的原子类型,化学键,电荷正确。然后计算分子的分子质量,AlogP,分子极性表面积,可旋转键数量,按照“Molecular_weight < 800, AlogP < 7, AlogP > -1, Molecular_PolarSurfaceArea (Å2 ) < 125, and Num_RotatableBonds < 12”的条件,进行过滤。

1.3 Hit相关的性质过滤

将能通过上述化学物理性质filter的分子,使用rdkit计算QED,SA分数。仅保留SA_score<4, QED>=0.5的分子。

使用“Bemis-Murcko Assemblies”片段化方法,用 Murcko 片段 SMILES 片段化并注释所有分子(即,提取骨架)。

随后,基于Murcko SMILES的ECFP_6描述符,使用最大相异性方法选择聚类中心,最大距离为0.625,对分子进行聚类。

可惜作者没有给出最后产生了多少个类别,一共有多少分子通过了这些filters(文章中没有具体指明数量,预印本有卖描述错误)。

化学物理性质过滤器以及Hit相关性质过滤的Pipeline Pilot流程如下图:

将能通过上述filters的分子,使用MOE计算GBVI/WSA ΔG 分数,评估pocket2Mol生成构象与口袋的结合自由能。

注意,之前使用docking进行构象重新生成,docking使用默认参数,分子使用QuickPrep快速准备,晶体结构中的原来的小分子作为对接中心。

注意,这里并没有使用docking分数作为阈值打分。

1.4 虚拟 SAR 富集和多样性骨架生成

将能经过上述两步filters的分子,称为虚拟的hits(virtual hits)。

关于GBVI/WSA ΔG 分数,作者在流程中会尝试使用不同的阈值,从-6开始,每间隔0.01逐个尝试。

作者是使用了Fisher's 抽取测试,按照每一个分子是否是hit,以及是否属于某个类别,进行P值统计。

将P值<=0.005的类的Top N个分子作为Hit SAR 骨架。

虚拟 SAR 富集分析使能够识别哪些化学基团和结构最有可能成为口袋的真正binder,其动态 SAR 范围适合药物化学家进一步优化。

1.5 分子库的检索

经过SAR富集的分子数量还是很多,考虑到合成的复杂性,要直接合成也是不可能的。作者使用检索内部分子库的方式。

他们使用的诺华内部的3~4百万的多样性的分子库,以及100亿级别的按需合成的Enamine库。使用ROCS (Rapid Overlay of Chemical Structures)以及机器学习的分子检索工具,基于形状,静电,药效团,以及其他的2D,3D的特征,从分子库中检索分子。

作者将之前选出的top 100-200个虚拟hit,使用ROCS工具,利用Tanimoto Combo score 阈值为1.0,从诺华内部的多样性分子库中检索分子。流程如下图:

将检索到的分子,重新计算GBVI/WSA ΔG score,使用之前的阈值,做筛选,同时这些分子还要经过诺华内部的溶解度预测机器学习模型。

注意,上述工作,pocket2mol使用了10个节点,CPU部分使用了1-200个节点,花费了1个星期时间。这个算力,还真不是一般公司可以提供的。

随后,会经过QC质量检测,HTRF活性检测,DSF检测,已获得筛选出来分子的活性。

2. 实验结果

pocket2mol一共生成了543,491个有效分子。

作者比较了pocket2mol生成的分子与诺华内部多样分子库的化学空间,pocket2mol生成的分子多样性要更大一些,也许这就是AIDD分子生成的意义,遍历了更大的化学空间。如下图。

经过物理化学filters的分子一共有352,820个。相关性质分布如下图:

352,820个分子类hit性质如下图。经过类hit filters(SA分数,QED分数等)以后,共计只有9,531。分子数量在类药filters大规模下降了。

毕竟对于现在的AI模型来说,生成分子的类药性真的是一个硬伤。

经过SAR富集分析和分子库检索以后,考虑溶解度,分子库中质量,选择了2029个分子进行实验测试,测试结果如下图。

湿实验获得7个阳性hit,对应的阳性率为0.345%,Hit Rate较HTRF分子库直接实验筛选,提升了12.8倍。

在7个阳性hit中,三个分子的IC50分别为35.6, 27.5 and 28.5 μM,他们的WDR5-MYC HTRF dose-response curve (DRC)如下图,对照实验结果表明这三个分子影响了WDR5 and MYC 相互作用。

DSF实验有明显温度漂移,也暗示着这些小分子是结合在WDR5蛋白上。

同时,对接分析结果表明,这些分子的结合模式与已知的binder结合模式不相同(对接结果,没有晶体)。

但是,基于Pocket Crafter流程筛选出来的活性hit,活性要低于之前湿实验的结果。但是,不管怎么说,获得了一个之前湿实验没有获得新骨架。

3. 总结

在换句话说,Pocket Crafter代表了AIDD领域的分子生成的新应用场景。

以往,AI生成的分子往往被抱着怀疑的态度,因为生成的分子在被合成不是每一个都有活性,确切的说,是几乎都没有活性,或者活性远低于参考分子。这是药化团队或者公司成本是不能接受的,因此,分子生成的工业应用,非常困难。

Pocket Crafter的例子呢,则提供了一种新的分子生成应用方式,用于生成新的骨架,然后再去检索分子库。

似乎,直接检索分子库做docking更好一些?当然,也有可能在这个体系中,docking无法识别分子活性,甚至分类都做不出来。这估计也是为什么在流程中,作者没有使用docking打分作为阈值的原因。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1403134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python+appium自动化测试-Appium并发测试之python启动appium服务

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

【加速计算】从硬件、软件到网络互联,AI时代下的加速计算技术

AI、元宇宙、大模型…每一个火爆名词的背后都代表着巨大的算力需求。据了解,AI模型所需的算力每100天就要翻一倍,远超摩尔定律的18-24个月。5年后,AI所需的算力规模将是今天的100万倍以上。 在这种背景下,加速计算提供了必要的计算能力和内存,其解决方案涉及硬件、软件和…

ChatGPT:关于 OpenAI 的 GPT-4工具,你需要知道的一切

ChatGPT&#xff1a;关于 OpenAI 的 GPT-4工具&#xff0c;你需要知道的一切 什么是GPT-3、GPT-4 和 ChatGPT&#xff1f;ChatGPT 可以做什么&#xff1f;ChatGPT-4 可以做什么&#xff1f;ChatGPT 的费用是多少&#xff1f;GPT-4 与 GPT-3.5 有何不同&#xff1f;ChatGPT 如何…

红黑树(超详解)

文章目录 前言红黑树的概念红黑树的实现红黑树的结构 insert 前言 上一篇文章我们讲了AVL树,但是AVL树只是一个过渡,我们实际当中用的更多另外一颗树还是红黑树. 也不能说红黑树就是AVL树的改进,它是用另外一种方式来控制. 这棵树更抽象一些,下一步我们来看一下. 红黑树的概…

气膜建筑助力体育场馆智能化升级

随着科技的不断进步和人们对健康生活的日益重视&#xff0c;体育馆作为体育活动的主要场所也面临着智能化升级的时刻。在这个背景下&#xff0c;气膜建筑以其轻巧、灵活的特性正成为推动体育馆智能化升级的创新力量。 气膜建筑的独特优势 气膜建筑采用特殊的薄膜材料&#xff…

每日一题——LeetCode1299.将每个元素替换为右侧最大元素

方法一 个人方法&#xff1a; 题目意思就是求在i1;i的循环条件下&#xff0c;arr[i]-arr[arr.length-1]的最大值分别为多少&#xff0c;最后一项默认为-1 用slice方法可以每次把数组第一位去除&#xff0c;得到求最大值的目标数组 Math的max方法可以直接返回数组里的最大值 …

archlinux安装软件

用 pacman 安装 sudo pacman -S XXXX xxx 中填写要安装的软件就可以了 搜索的命令是 pacman -Ss 搜索的话不需要管理员权限 查看已经安装的程序 pacman -Q 可以通过 | 将前面的信息传给后面&#xff0c;相当于传参 pacman -Q | grep XXXX 删除软件 sudo pacman -Rs…

Python中的函数(二)

1 闭包与装饰器 1.1 闭包 闭包&#xff08;Closure&#xff09;是指在一个函数内部定义的函数&#xff0c;并且该内部函数可以访问外部函数作用域中的变量。闭包可以在外部函数执行完毕后&#xff0c;仍然保持对外部函数作用域的引用&#xff0c;从而可以继续访问和操作外部函…

银河麒麟桌面桌面操作系统v10保姆级安装

目录 一、下载ISO映像文件 1.产品试用申请 2.试用版下载 二、虚拟机搭建 1.新建虚拟机 2. 选择虚拟机硬件兼容性 3.选择安装客户机操作系统 4.选择客户机操作系统 5.命名虚拟机 6.处理器配置 7.虚拟机内存 8.网络类型 9.硬件 10.指定磁盘容量 三、修改虚拟…

「优选算法刷题」:在排序数组中查找元素的第一个和最后个位置

一、题目 给你一个按照非递减顺序排列的整数数组 nums&#xff0c;和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。 如果数组中不存在目标值 target&#xff0c;返回 [-1, -1]。 你必须设计并实现时间复杂度为 O(log n) 的算法解决此问题。 示例 1&a…

【Linux】解决普通用户无法进行sudo提权

当某个普通用户进行sudo指令提权的时候&#xff0c;可能存在无法操作的问题&#xff0c;如下图&#xff1a; 这个图中有一个细节&#xff0c;我们使用sudo进行提权的时候&#xff0c;用的可是zhangsan的密码&#xff0c;因此有人可能会有疑问&#xff0c;这不是有问题吗&#x…

在CentOS 7中配置 RAID服务

实验过程 Xnode1克隆虚拟机raid ps&#xff1a; 阿里云盘Xnode1获取 xnode1 https://www.alipan.com/s/HgLXfoeBWG2 提取码: eb70 编辑虚拟机 添加2硬盘 CRT连接&#xff08;root密码&#xff1a;000000&#xff09; 创建raid 0 [rootdemo ~]# lsblk 安装mdadm [rootdemo…

数据结构之栈的基本操作

该顺序栈涉及到了存储整型数据的顺序栈还有存储字符型数据的顺序栈 实现的功能有&#xff1a;入栈、出栈、判断是否为空栈、求栈的长度、清空栈、销毁栈、得到栈顶元素 此外根据上述功能&#xff0c;编写了数值转换&#xff08;十进制转化八进制&#xff09;方法、括号匹配方法…

无人机航迹规划(四):七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划(提供MATLAB代码)

一、七种算法&#xff08;DBO、LO、SWO、COA、LSO、KOA、GRO&#xff09;简介 1、蜣螂优化算法DBO 蜣螂优化算法&#xff08;Dung beetle optimizer&#xff0c;DBO&#xff09;由Jiankai Xue和Bo Shen于2022年提出&#xff0c;该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁殖…

【ARM 嵌入式 编译系列 7.3 -- GCC 链接脚本中 DISCARD 与 .ARM.exidx】

请阅读【嵌入式开发学习必备专栏 之 ARM GCC 编译专栏】 文章目录 背景.ARM.exidx方法一:使用链接器脚本方法二:使用链接器选项注意事项背景 在移植 RT-Thread 到 cortex-m33(RA4M2)上的时候,在编译的时候遇到下面问题: Building target: ra4m2.elf arm

Gitee Reward让开源作者不再为爱发电

一、什么是Gitee Reward&#xff1f; Gitee Reward是Gitee为改善开源开发生命周期提出的新策略。开源项目的支持者们可以更轻松地为其喜爱的项目提供资金&#xff0c;贡献者们也可以因为其不懈的开源贡献得到奖励。 二、Gitee Reward上允许哪些类型的项目&#xff1f; 允许任…

DL专栏—笔记目录

前言&#xff1a; &#x1f60a;&#x1f60a;&#x1f60a;欢迎来到本博客&#x1f60a;&#x1f60a;&#x1f60a; &#x1f31f;&#x1f31f;&#x1f31f; 本专栏主要是记录工作中、学习中关于AI(Deep Learning)相关知识并分享。 &#x1f60a;&#x1f60a;&#x1f…

广告灯(利用取表方式)

1&#xff0e;  实验任务 利用取表的方法&#xff0c;使端口P1做单一灯的变化&#xff1a;左移2次&#xff0c;右移2次&#xff0c;闪烁2次&#xff08;延时的时间0.2秒&#xff09;。 2&#xff0e;  电路原理图 3&#xff0e;  系统板上硬件连线 把“单片机系统”区域中…

机器学习:holdout法(Python)

import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder, StandardScaler # 类别标签编码&#xff0c;标准化处理 from sklearn.decomposition import PCA # 主成分分析 import matplotlib.pyplot as plt from sklearn.model_selection impor…