新颖拓扑指纹助力虚拟筛选:ToDD革新计算机辅助药物发现之路

news2024/11/17 5:35:05

编译 | 于洲

今天我们介绍由Novartis集团的Novartis与德克萨斯大学达拉斯分校的Baris Coskunuzer为第一作者发表在NeurIPS 2022会议上的工作,文章介绍了一种新的虚拟筛选方法——ToDD模型,该方法使用了多参数持久性同调(MP)来生成化合物的拓扑指纹。与传统虚拟筛选方法使用规范分子表示不同,该方法生成的指纹是多维向量,利用原子亚结构的周期性特性在多个分辨率级别提取它们的持久同调特征。作者表明预训练的Triplet网络的边际损失微调在区分嵌入空间中的化合物和排名它们成为有效候选药物的可能性方面获得了极具竞争力的结果。这种方法生成的拓扑指纹为搜索与描述与药物发现和开发相关的化学空间提供了一种新方式,并发现使用MP签名增强下的ToDD 模型在基准数据集上达到了最先进的结果。

94de505f0fd362bba6cbfa90b7d4347a.png

背景介绍

传统的虚拟筛选方法使用标准分子表示法,但面临着处理大规模虚拟化化合物数据时性能下降的问题。因此,本文为了解决以上问题,提出了一种新的方法——ToDD,利用多参数持久性同调算法生成多维向量的拓扑指纹,并利用原子亚结构的周期性属性提取它们在多个分辨率级别上的持久性同调特征。这种算法可以在预测的Triplet网络通过边界损失微调的方法中产生高竞争力的结果,用于区分化合物并排名其成为有效药物候选物的可能性。

7ff20f1b08bfe8f31cd418f9bd115ffb.png

本文的创新和贡献:

  • 本文开发了一种革命性的方法来生成分子指纹。使用多持久性,本文为化合物产生高度表达和独特的拓扑指纹,而不依赖于规模和复杂性。这为描述和搜索与药物发现和开发相关的化学空间提供了一种新的方法。

  • 本文为TDA中的多参数持久性带来了新的视角,并产生了计算效率高的化学数据多维指纹,可以成功地将多个域函数合并到PH过程中。这些MP指纹利用线性表示的计算能力,适合集成到广泛的ML、DL和统计方法中2;并为潜在拓扑信息的高效计算提取开辟了一条道路。

  • 本文证明了多维持久性指纹具有与目前最现有的单个持久性摘要所展示的相同的重要稳定性保证。

  • 本文在VS中进行了大量的数值实验,表明ToDD模型在很大程度上优于所有最先进的方法。

方法介绍

ToDD框架通过扩展单持久性(SP)指纹,将化合物指纹生成为多维向量。虽然本文的结构适用于各种形式的数据,但在这里本文关注的是图形,特别是用于虚拟筛选的化合物。本文利用2或3个函数/权重(如原子质量、部分电荷、键类型、电子亲和能、电离能)对每个化合物进行图过滤,得到其指纹的二维矩阵(或3D数组)。本文的框架基本上是利用MP方法将给定的SP向量化扩展为多维向量。从技术上讲,通过使用现有的SP向量化,本文在多持久性模块中有效地使用其中一个过滤方向作为切片方向,从而生成多维向量。本文用两个步骤来解释本文的过程。

  • 利用多维持久性同调,生成化合物的拓扑指纹。首先以双函数亚级双滤(sublevel bifiltration with 2 functions)的方法从给定的化合物中获得相关的子结构,然后为每一行(共有M行)获取持久化图,最后一步是在这些M个持久化图上进行向量化。具体而言,通过对化合物的原子亚结构的周期性属性进行分析,提取它们的持久同调特征,并在多个分辨率级别上产生拓扑指纹。

在图1和图2中,本文给出了化合物胞嘧啶通过原子序数和部分电荷函数的亚级双滤的例子:

de1b6558281173618981e657126d7127.png

图1:胞嘧啶

f439250db84480d06fbe8c2762b20f5d.png

图2:胞嘧啶的亚级双滤是由滤过函数的原子电荷f和原子序数g引起的。

  • 使用预训练的Triplet网络,对产生的拓扑指纹进行边际损失微调,实现化合物的筛选和排名。通过这种方法,能够在处理大规模化合物数据集时,提高传统VS方法的性能。

实验介绍

数据集:本文实验采用了两个数据集进行测试:Cleves-Jain 数据集和 DUD-E Diverse 数据集。Cleves-Jain 数据集包含 1149 种化合物,其中共有 22 个药物靶点,每个靶点只有 2-3 种模板活性化合物用于模型训练,其余活性化合物用于模型测试。此外,数据集中还包含 850 种假药化合物作为 decoy。而 DUD-E Diverse 数据集则是一个综合性的配体数据集,涵盖了102个靶点和约150万种化合物。该数据集划分为 7 个类别,并针对每个类别选择了一个代表性的靶点集。DUD - E的“多样化子集”包含了每个类别的目标,为VS方法提供了一个平衡的基准数据集。不同的子集包含来自8个目标集和8个decoy集的116,105个化合物。每个目标使用一组decoy。在测试中,本文从每个靶点集中随机选择一个正样本,将其与相应的 decoy 集合并,构成测试集。两个数据集都是公认有效的测试数据集,能够用于评估虚拟筛选方法的性能。

实验过程:本文的实验过程包括以下几个方面。首先,文章使用的是MP(multiparameter persistence)同调算法来生成分子拓扑指纹。其次,选择了不同的机器学习模型进行计算,包括使用Triplet网络架构的ToDD-ViT和ToDD-ConvNeXt,以及使用随机森林(Random Forest)的ToDD-RF。实验中使用了Enrichment Factor和ROC-AUC分数来评估所有模型的性能表现。此外,作者在文章中还进行了对比实验来验证其结果的可靠性。在可解释性方面,作者还使用了Morgan指纹方法对其进行了量化分析。

cf9feb91aa336518bcd472256ecaeb4b.png

图3:端到端模型管道

实验结果:本文的实验结果证明了使用基于多参数持久化同调的拓扑化合物指纹作为虚拟筛选方法在计算辅助药物开发中具有非常高的竞争力。本文的方法可以生成多维化合物指纹的拓扑特征,从而实现了搜索和描述与药物发现和开发相关的化学空间的新方式。在各个基准数据集上,应用本文的方法可以实现前沿的结果,相对于其他虚拟筛选方法,ToDD模型可以在各个数据集和不同的EF 1% 水平上实现最佳性能。

01111ac39c21bda6d89ebbc2c45f248e.png

表1:Cleves-Jain数据集上ToDD与其他虚拟筛选方法EF 2%、5%、10%及ROC-AUC值的比较

1bcad38de48abae2dff7162fd500027e.png

表2:EF 1% (max. 100) ToDD与其他虚拟筛选方法在DUD- E多样性子集的8个目标上的差异

结论

本文提出了VS中的拓扑指纹的新想法,允许更深入地了解化合物的结构组织。本文已经在基准数据集上评估了ToDD方法在计算机辅助药物发现方面的预测性能。此外,本文已经证明了本文的拓扑描述符是模型不可知的,并已被证明是极具竞争力的,在所有基线上明确地产生最先进的结果。以不同的VS模式丰富ToDD模型,并将其应用于超大型虚拟复合库是未来的研究方向。这种捕获化合物化学信息的新方法为从药物发现的早期阶段到开发中配方的最后阶段的制药管道的各个层面提供了一个变革性的视角。

参考资料

Demir, A., Coskunuzer, B., Gel, Y., Segovia-Dominguez, I., Chen, Y. and Kiziltan, B., 2022. ToDD: Topological Compound Fingerprinting in Computer-Aided Drug Discovery. Advances in Neural Information Processing Systems, 35, pp.27978-27993.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/509576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

wx.request get请求重定向问题

微信小程序wx.request请求,重定向问题。 背景 在开发微信小程序项目的时候,使用wx.request请求一个公共接口,结果请求被重定向多次之后,返回失败,而且没有 code 码,只有一个 errMsg: request:fail。 Netw…

OpenShift - 使用 Ansible Automation Platform 纳管 OpenShift Virtualization 虚机

《OpenShift / RHEL / DevSecOps 汇总目录》 说明:本文已经在支持 OpenShift 4.12 的 OpenShift 环境中验证 本文所用到的运行环境和配置方法请先参照以下 blog 准备: 《OpenShift 4 - 安装部署 Ansible Automation Platform 4.x 控制台》《OpenShift …

React 组件

文章目录 React 组件复合组件 React 组件 本节将讨论如何使用组件使得我们的应用更容易来管理。 接下来我们封装一个输出 “Hello World&#xff01;” 的组件&#xff0c;组件名为 HelloMessage&#xff1a; React 实例 <!DOCTYPE html> <html> <head> &…

css中的grid高频布局

1.需求 1.一个父级容器内有n个子元素; 2.每个子元素最小宽度是100px&#xff1b; 3.每个子元素最大宽度根据屏幕宽度自适应&#xff1b; 4.每个子元素的宽度保持同宽&#xff1b; 5.每个元素之间有间隔&#xff0c;每一行的两边不留间隙&#xff0c;每一列的上下不留间隙&…

2.V853支持WIFI和有线网卡

100ASK-V853-PRO开发板支持WIFI和有线网卡 0.前言 ​ 通过上一章节&#xff0c;我们已经成功下载Tina SDK包&#xff0c;完成编译并烧写Tina Linux系统&#xff0c;接下来展示100ASK_V853-PRO开发部如何通过WIFI和有线网卡进行上网。 全志Linux Tina-SDK开发完全手册&#x…

02-mysql升级篇(rpm方式+压缩包升级)

文章目录 升级方式一、二进制方式安装1、下载mysql-5.7.42安装包&#xff08;mysql-5.7.37升级mysql-5.7.42&#xff09;2、备份数据库、my.cnf文件&#xff0c;停止mysql服务&#xff08;重要&#xff09;3、查看当前数据库版本3、上传 mysql-5.7.42-1.el7.x86_64.rpm-bundle.…

SpringMVC 详解

文章目录 一、SpringMVC简介1、什么是MVC2、什么是SpringMVC3、SpringMVC的特点 二、HelloWorld1、开发环境2、创建maven工程a>添加web模块b>打包方式&#xff1a;warc>引入依赖 3、配置web.xmla>默认配置方式b>扩展配置方式 4、创建请求控制器5、创建springMVC…

关于太阳黑子数的查询

太阳黑子数查询地址&#xff1a;点此跳转 浏览器中打开下图所示的网站。 根据自己的需求下载相应的文件查找太阳黑子数&#xff0c;下载时可以选择 TXT 文件格式&#xff0c;也可以选择 CSV 文件格式。 我下载了每日估计的太阳黑子数&#xff0c;TXT 格式文件打开如下图所示。…

免费下载的无水印人物素材网站!

在日常设计中&#xff0c;设计师常常需要使用人物素材来提升设计作品的吸引力。一个可爱的人物插画可以使网页界面更加生动&#xff0c;一个富有个性的人物素材可以让应用程序更具吸引力&#xff0c;引发用户的共鸣。但设计师有时会苦恼于找不到合适的人物素材网站&#xff0c;…

PCB制板基础知识[详细版]

一、PCB概念 PCB&#xff08;PrintedCircuitBoard&#xff09;&#xff0c;中文名称为印制电路板&#xff0c;又称印刷电路板、印刷线路板&#xff0c;是重要的电子部件&#xff0c;是电子元器件的支撑体&#xff0c;是电子元器件电气连接的提供者。由于它是采用电子印刷术制…

USB descriptor

如下为oneplus的插入MIDI模式 device descriptor 注意&#xff1a;1个device只有一个描述符 bNumConfigurations 标识只有一个配置&#xff0c;该配置只属于一个传输速度 通过getDescriptor的方法获得&#xff0c;需要指定wvalue为deivce descriptor,至于index可以为0 大概1…

【5.JS基础-JavaScript的DOM操作】

1 认识DOM和BOM 所以我们学习DOM&#xff0c;就是在学习如何通过JavaScript对文档进行操作的&#xff1b; DOM Tree的理解 DOM的学习顺序 DOM的继承关系图 2 document对象 3 节点&#xff08;Node&#xff09;之间的导航&#xff08;navigator&#xff09; 4 元素&#xff0…

Java的抽象类 接口

抽象类 如果自下而上在类的继承层次结构中上移&#xff0c;位于上层的类更具有通用性&#xff0c;甚至可能更加抽象。从某种角度看&#xff0c;祖先类更加通用&#xff0c;人们只将它作为派生其他类的基类&#xff0c;而不作为想使用的特定的实例类。例如&#xff0c;考虑一下…

python中使用opencv LED屏数字识别(可用做车牌识别,一样的原理)

应项目要求需要基于cpu的LED数字识别&#xff0c;为了满足需求&#xff0c;使用传统方法进行实验。识别传感器中显示的数字。因此使用opencv的函数做一些处理&#xff0c;实现功能需求。 首先读取图像&#xff0c;因为我没想大致得到LED屏幕的区域&#xff0c;因此将RGB转换为H…

Java 观察者模式 详解

观察者模式是一种常见的设计模式&#xff0c;也称作发布-订阅模式。它主要解决了对象之间的通知依赖关系问题。在这种模式中&#xff0c;一个对象&#xff08;称作Subject&#xff09;维护着一个对象列表&#xff0c;这些对象&#xff08;称作Observers&#xff09;都需要被通知…

STANet代码复现出现的问题

1 IndexError: boolean index did not match indexed array along dimension 0; dimension is 4194304 but corresponding boolean dimension is 65536定位到导致错误的代码&#xff0c;是metric.py&#xff0c;Collect values for Confusion Matrix 收集混淆矩阵的值时出错 …

Java框架学习02(SpringSpringBoot常用注解总结)

1. SpringBootApplication 这里先单独拎出SpringBootApplication 注解说一下&#xff0c;虽然我们一般不会主动去使用它。 Guide&#xff1a;这个注解是 Spring Boot 项目的基石&#xff0c;创建 SpringBoot 项目之后会默认在主类加上。 SpringBootApplication public class…

ROM、RAM、FLASH区别

文章目录 一、ROM二、RAM三、FLASH四、单片机程序大小计算1、Keil/MDK 一、ROM ROM&#xff08;Read Only Memory&#xff09;只读存储器。是一种半导体内存&#xff0c;其特性是一旦储存资料就无法再将之改变或删除。通常用在不需经常变更资料的电子或电脑系统中&#xff0c;资…

性能测试的核心原理

性能测试的核心原理 1 基于协议&#xff0c;前后端交互机制&#xff0c;性能核心。基于界面决定和前端用户交互&#xff0c;基于代码决定了后端。 1 网络分布式架构。 2 单机应用&#xff0c;比如安安兔&#xff0c;鲁大师。主要判断io读写&#xff0c;以及对资源的消耗。 2 多…

git常见操作命令

1.Git 配置 在安装完成 Git 后&#xff0c;开始正式使用前&#xff0c;是需要有一些全局设置的&#xff0c;如用户名、邮箱。 git config --global user.name "your name" // 设置全局用户名 git config --global user.email "your email" // 设…