Nature子刊:精准预测分子性质和药物靶标的无监督学习框架

news2025/1/16 2:34:31

234aa55e67a6ae52fadd19ed9cb4d153.gif

药品的临床疗效与安全性由在人类蛋白质组内的分子靶标决定。本文中,湖南大学信息科学与工程学院的李肯立/曾湘祥教授课题组提出了一种无监督的预训练深度学习框架,对 1000 万个未标记的类药性、生物活性分子进行预训练,以预测候选化合物的药物靶标和分子性质。

8df8548cea733d4afd599f3a95e34e42.png

论文标题:

Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework

论文链接:

https://www.nature.com/articles/s42256-022-00557-6

收录期刊:

Nature Machine Intelligence

cbe1b0e2b2437b2b411e171bfc755714.png

背景介绍

药物的临床疗效和安全性取决于药物分子的性质和药物作用的靶点。然而,通过湿实验和临床实验的方式评估药物性质和药物靶点是代价巨大的,平均一款新药的研发需要花费 10 年以上时间,10 亿美元成本。通过人工智能技术预测药物性质和药物靶点,可以加速药物研发进程,大幅减少药物研发成本。

在计算机视觉中无监督的最新进展下,本文开发了一个具有化学意识的无监督分子图像预训练框架—— ImageMol,用于从大规模分子图像中学习分子结构。ImageMol 将图像处理框架与综合分子化学知识相结合,以可视化计算的方式提取精细像素级分子特征,在各种药物发现任务中演示了 ImageMol 的高准确性,为计算药物发现提供了一个强大的预训练深度学习框架。

da93ad9c5a5ebac912dad35920213ab6.png

本文创新和贡献:

1. 以往分子性质及药物靶标预测的研究大多围绕序列表示和图(graph)表示展开,它们在提取分子表征时存在一定的局限性。本文提出首个基于分子图像的无监督深度学习框架,为性质预测与靶标预测的分子图像推理提供了基础性、关键性的支撑,证明了分子图像在该领域具有巨大的潜力,开创了分子表征学习的新范式,具有重要的应用价值。

2. 相比于现有的基于序列和图的方法,该研究提供了分子结构重要性的实验观察,展示了模型对分子图像的全局注意力与局部注意力,这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。

3. 该研究在 51 个药物发现的基准数据集上进行评估,展示了其在性质预测和靶点预测的性能均优于其他模型。此外,在美国国家转化科学推动中心(NCATS)的 13 个实验数据集中准确识别了抗 SARS-CoV-2 分子并确定了治疗 COVID-19 的临床候选 3CL 蛋白酶抑制剂,这对于加速新冠药物研发的进程具有重要意义。

88e3f077f17430d83061e999f970f1be.png

方法介绍

2.1 ImageMol预训练策略

由于有标签的数据较少,通过预训练可以提升模型的效果。目的为让模型学习如何通过对大规模的无标记数据集进行训练来提取表达性表示,然后将预训练好的模型应用于相关的下游任务并进行微调,以提高其性能。在对模型进行预训练时,需要确定几个有效的、与任务相关的代理任务。与基于图的和基于 SMILES 的预训练方法(只考虑一致性/相关性)不同,本文设计了考虑一致性、相关性和合理性的 5 个代理任务(MG3C、MIR、MCL、MRD、JPP)。

06809a8f45582a4681226b84211c4f42.png

2.2 预训练过程和微调

在预训练中,本文使用了来自 PubChem 的约 1000 万个未标记分子进行无监督的预训练。ImageMol 的预训练包括两个步骤,分别是数据增强和训练过程。完成预训练后,本文在下游任务中对预训练的 ResNet18 进行微调。通过为预训练模型建立复杂的微调任务,可以进一步提高模型的性能。

c10d990d8c7e584244859def570f276b.png

实验

3.1 基准评估

本文使用两种最流行的拆分策略(scaffold split与random scaffold split)来评估 ImageMol 在所有基准数据集上的性能。在分类任务中,利用 ROC 曲线面积 AUC,发现 ImageMol 在 scaffold split 上发现了更高的结果。本文使用了与最先进的卷积神经网络(CNN)框架 Chemception相同的实验设置进行比较。

ImageMol 对 HIV 和 Tox21 的检测结果优于 Chemception,表示 ImageMol 比 Chemception 能够从分子图像中获取更多的生物学相关信息。与 Chemception46,ADMET-CNN12 和 QSAR-CNN47 这三种最先进的基于分子图像的表达模型相比,ImageMol 在预测五种主要药物代谢酶的抑制剂和非抑制剂方面的 AUC 值更高。

78fd7259832eede8990fce921dc1b663.png

7f6e03f87515cfdfbe0199ad64c5a44f.png

ImageMol 与使用 random scaffold split 的基于指纹的模型(如AttentiveFP)、基于序列的模型(如 TF_Robust)和基于图的模型(如N-GRAM、GROVER 和 MPG)相比具有更好的性能。此外,与传统的基于 MACCS 的方法和基于 FP4 的方法相比,ImageMol 在 CYP1A2,CYP2C9,CYP2C19,CYP2D6 和 CYP3A4 上实现了更高的 AUC 值。

de4f92aee8c72349fd1b8aa3bdb6606c.png

与基于序列的模型(包括 RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF和CHEM-BERT)和基于图的模型(包括 MolCLRGIN、MolCLRGCN 和 GROVER)相比,ImageMol 在 CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4 上得到了更好的 AUC 值。

e0366445a711001819f4750b9c286343.png

3.2 13个SARS-CoV-2靶标的抗病毒活性预测

在 13 个 SARS-CoV-2 生物检测数据集中,ImageMol 获得了 72.6% ~ 83.7% 的高 AUC 值。为了测试 ImageMol 是否捕获到生物相关特征,本文使用 ImageMol 的全局平均池化(GAP)层提取潜在特征,并使用t分布随机邻域嵌入(t-SNE)对潜在特征进行可视化。

在所有 13 个靶标上,ImageMol 通过识别的潜在特征可以很好地将有无活性的抗 SARS-COV-2 药物进行区分。这些观察结果表明,ImageMol 可以准确地从分子图像中提取区分的抗病毒特征,用于下游任务。

62f703c6158615f4272d02a51fd29089.png

3.3 识别抗SARS-COV-2抑制剂

通过 ImageMol 框架下的 3CL 蛋白酶抑制剂和非抑制剂数据集的分子图像表示,发现 3CL 抑制剂和非抑制剂在 t-SNE 图中很好地分离(b)。ImageMol 从 16 种已知的 3CL 蛋白酶抑制剂中鉴定出 10 种药物,表明在抗 SARS-COV-2 药物发现中具有较高的泛化能力(c,d)。

c086b408ee9e5602888b3f567e2e41ab.png

3.4 注意力可视化

ImageMol 可以从分子图像表示中获取化学信息的先验知识,包括 =O 键、-OH键、-NH3 键和苯环(a)。图 b 和 c为 ImageMol 的 Grad-CAM 可视化的 12 个示例分子。这表示 ImageMol 同时准确地对全局(b)和局部(c)结构信息进行注意捕获,这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。

5c01c70a9711d965276d406f1b1ff9ff.png

3.5 消融分析

ImageMol 比 ImageMol_NonPretrained 的标准差更低,这表明预训练策略提高了 ImageMol 对超参数的鲁棒性。ImageMol 可以预训练更多的类药物分子,且  ImageMol 框架集成实现的每个任务都协同地提高了性能,这表示未来可以通过从更大的类药物化学数据集进行预训练来进一步改进模型。

a819899f6427a3a115b3127b817b7f9c.png

总结

本文提出了一种基于无监督的预训练深度学习框架,该框架结合了分子图像和无监督学习来学习分子表征。ImageMol 将为各种新发疾病(包括 COVID-19 大流行和未来的大流行)的快速药物发现和开发提供强大的工具。实验表明,ImageMol 在药物发现的不同任务中实现了高效的性能,优于目前最先进的方法,具有更好的可解释性,在识别分子性质和靶标结合的生物相关化学结构或亚结构方面更直观。

更多阅读

c75db7c7dcd4080023d5078125ed0351.png

7f04181cceae4d7ae6932ab1d1594e0f.png

45bda2b78eaa0ddacdbaaad9d965b8c0.png

7bf49dbb3bd9a69148c57cb0a5e4fb1a.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

568583b0f02d92930a14c0eca10ca473.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

cc6e39bf9ed48112a9a642c5f3b9f3a1.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/44972.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

osgEarth示例分析——osgearth_manip

前言 本示例主要演示osgEarth的事件处理的用法,内容比较多,这部分功能也很重要。 输入命令依然采用china-simple.earth的示例,加上了模型,但是模型并没有看到,可能是因为模型没有放大太小的原因。在代码中设置了不加…

传奇单机架设登录器配置教程

传奇单机顾名思义就是在本地电脑上架设传奇,限制同一个局域网才能一起玩,我接触到几个朋友不明白外网和单机的区别 架设单机需要准备以下程序: 传奇服务端(版本Mirserver) DBC2000 (百度可直接下载) 配套登…

IPv6进阶:IPv6 过渡技术之 GRE 隧道

实验拓扑 R1-R3-R2之间的网络为IPv4环境PC1及PC2处于IPv6孤岛 实验需求 R1及R2为IPv6/IPv4双栈设备在R1及R2上部署GRE隧道使得PC1及PC2能够互相访问(先采用IPv6静态路由实现互通)R1及R2基于建立好的GRE隧道运行OSPFv3交互IPv6路由前缀 实验步骤及配置…

【数据可视化】免费开源BI工具 DataEase 之 Tab 组件前世今生

小D :小助理,小助理,在哪儿呢?(焦急脸) BI 小助理:在呢,啥事?(不耐烦脸) 小D :又有 BI 工具放大招啦!!&…

C语言习题练习11--指针

1.代码结果 #include <stdio.h> int main() {int arr[] {1,2,3,4,5};short *p (short*)arr;int i 0;for(i0; i<4; i){*(pi) 0;}for(i0; i<5; i){printf("%d ", arr[i]);}return 0; } 正常&#xff1a;0001--00 02--00 03--00 04--00 05 数组内部是倒…

Kotlin高仿微信-第2篇-登录

Kotlin高仿微信-项目实践58篇详细讲解了各个功能点&#xff0c;包括&#xff1a;注册、登录、主页、单聊(文本、表情、语音、图片、小视频、视频通话、语音通话、红包、转账)、群聊、个人信息、朋友圈、支付服务、扫一扫、搜索好友、添加好友、开通VIP等众多功能。 Kotlin高仿…

【安卓逆向】去除云注入(使用MT论坛dl的方法总结拓展)

1 需求 因为最近使用的虚拟机突然不能用了&#xff0c;被人云注入强制弹窗&#xff0c;如下图&#xff1a;&#xff08;这一看就是云注入了&#xff09; 2 大佬的方法 如图&#xff08;MT大佬分享的&#xff0c;感兴趣的朋友可以去大佬主页看看他其他文章&#xff09;&…

把backtrader改造成金融强化学习回测引擎

原创文章第119篇&#xff0c;专注“个人成长与财富自由、世界运作的逻辑&#xff0c; AI量化投资”。 继续强化学习应用于金融投资。 我们的AI量化平台&#xff0c;针对传统规则量化策略&#xff0c;进行了“积木式”的拆分&#xff0c;这种拆分的好处&#xff0c;就是最大化…

【三维目标检测】Part-A2(二)

PartA2数据和源码配置调试过程请参考上一篇博文&#xff1a;【三维目标检测】Part-A2&#xff08;一&#xff09;_Coding的叶子的博客-CSDN博客。本文主要详细介绍PartA2网络结构及其运行中间状态。 1 PointRCNN模型总体过程 Part-A2的整体结构如下图所示&#xff0c;主要包括…

据2019年中国社交电商行业研究报告称,电商正处于更新换代的时期

引言&#xff1a; 据艾瑞咨询《2019年中国社交电商行业研究报告》示,传统主流电商平台用户与交易规模增速均呈现逐渐放缓的趋势,平台亟需找到更高效、低价、高粘性的流量来源,来跳出竞争日益激烈获客成本持续攀升的困境。移动互联网时代,微信、QQ、微博、快手、抖音等社交类AP…

Wordpress模板主题中functions.php常用功能代码与常用插件(持续收集整理)

用Wordpress建站的初学者一定会需要用到的Wordpress模板主题中functions.php常用功能代码与常用插件。慢慢持续收集整理....... 目录 一、Wordpress模板主题中functions文件常用的代码 二、Wordpress自定义字段的设定与调用代码&#xff08;系统常规自定义字段&#xff09; …

【面试宝典】Java八股文之Dubbo 面试题

Dubbo 面试题1、为什么要用 Dubbo?2、Dubbo 的整体架构设计有哪些分层?3、默认使用的是什么通信框架&#xff0c;还有别的选择吗?4、服务调用是阻塞的吗?5、一般使用什么注册中心?还有别的选择吗?6、默认使用什么序列化框架&#xff0c;你知道的还有哪些?7、服务提供者能…

下沉市场投资热度提升 7天酒店打造酒店投资“极致性价比”

近日&#xff0c;7天酒店 “总裁面对面”酒店投资云沙龙活动举办&#xff0c;通过微信、抖音双平台联合直播&#xff0c;多维度探讨酒店行业的“新蓝海”机遇以及下沉市场的投资模式&#xff0c;助力更多投资人把握新的市场红利。 经济型酒店拥抱“新蓝海” 下沉市场投资热度提…

【学习笔记60】JavaScript原型链的理解

一、万物皆对象 JS中, 万物都可以都可以称为对象 1、对象概念 含义1: 一种数据格式 {key: value, key2: value2}含义2: 某一类事务的实例(某一类内容中的真实个体) 2、说明 arr1就是Array这一类内容中的某一个真实个体数组也可以算作一个对象(Array 这一类事务中的一个个体) …

天宇优配|酒企没借壳!标准股份股价上演A杀,两跌停

11月28日晚间&#xff0c;接连三日大跌的规范股份&#xff08;600302.SZ&#xff09;发布股价异动公告&#xff0c;再次否定了借壳和重组风闻。当日龙虎榜该股获净卖出774.89万元&#xff0c;闻名游资“赵老哥”常用席位中国银河绍兴现身卖一席位。另外&#xff0c;也有多家本地…

五笔会消亡吗

今天第一次看到“五笔会消亡”的说法。一看好像也没有什么消不消亡的说法&#xff0c;但是深入想一想好像的确是有一个现象90 后 00后使用五笔的应该会少很多&#xff0c;可能用的非常少。 从五笔与拼音在百度的搜索比例也可以看出&#xff0c;的确在2015~2016年间有了转折&am…

【Hack The Box】linux练习-- Paper

HTB 学习笔记 【Hack The Box】linux练习-- Paper &#x1f525;系列专栏&#xff1a;Hack The Box &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; &#x1f4c6;首发时间&#xff1a;&#x1f334;2022年11月27日&#x1f334; &#x1f36…

第一期 微信云开发小程序介绍-生活智打卡

目录 1.项目介绍 1.1 开发背景 1.2 项目简介 1.2.1 雏形 1.2.2 现状 1.2.3 展望 1.3 市场分析 1.3.1 目标用户 1.3.2 市场需求分析 1.4 系统需求 1.5 竞品分析 2.产品设计 2.1产品功能 2.1.1 智打卡 2.1.2 发现 2.1.2 我的 2.2交互设计 2.2.1 智打卡流程 2.2…

BP神经网络的梯度公式推导(三层结构)

本站原创文章&#xff0c;转载请说明来自《老饼讲解-BP神经网络》bp.bbbdata.com目录 一. 推导目标 1.1 梯度公式目标 1.2 本文梯度公式目标 二. 网络表达式梳理 2.1 梳理三层BP神经网络的网络表达式 三. 三层BP神经网络梯度推导过程 3.1 简化推导目标 3.2 输出层权重…

模拟电路(详细版)--放大电路的频率效应(RC电路)

一、高通电路 1.1传输特性 AuA_uAu​ RR1jωC\frac{R}{R \frac {1} { j \omega C}}RjωC1​R​   &#xff08;补充知识&#xff1a;j是复数域中的一个旋转因子&#xff09; 详细求解思路&#xff1a;   求解AuA_uAu​就是要求输入与输出的关系。 所以AuA_uAu​ U˙oU˙…