J. Chem. Inf. Model. | 使用GRID描述符进行深度学习预测血脑屏障透过性

news2024/9/21 12:46:54

今天为大家介绍的是来自Simon Cross团队的一篇论文。深度学习方法能够自动从输入数据中提取相关特征并捕捉输入和输出之间的非线性关系。在这项工作中,作者提出了基于GRID的AI(GrAId)描述符,这是对GRID MIFs的简单修改,使它们能够与卷积神经网络(CNNs)结合使用,以建立一个作者称之为DeepGRID的旋转、构象和对齐无关的深度学习模型。这是首次将GRID MIFs与CNNs结合在深度学习方法中使用。作者应用这种方法构建了用于血脑屏障透过性的回归和分类模型,这在设计中枢神经系统药物以及设计以避免中枢神经系统非活性药物的非靶效应时是一个重要因素。

70e42bc2ddd70114a006e437c126aff0.png

在药物设计过程中,血脑屏障透过性(BBB)是一项重要属性;中枢神经系统(CNS)靶向药物需要高透过性以发挥作用,而对于靶向外周非CNS靶点的药物,需要低透过性以避免不希望的与CNS相关的非靶效应。实验测定这种透过性(定义为药物在大脑中与在血液中浓度的对数比值,或log BB)是耗时、困难和昂贵的;因此,能够从分子结构中预测log BB具有巨大价值。最初的方法尝试使用参数(如logP、极性表面积、溶剂色变参数、溶解自由能和MolSurf参数等)来预测log BB。亲脂性在被动扩散中是一个重要因素,还有其他因素,如电离特性、分子大小、柔韧性和极性基团的三维分布等。进入大脑是一个复杂的现象,包括被动扩散,主动输送也可能起作用;血浆蛋白结合、主动外排和代谢也可以影响BBB透过性。因此,要找到明确可靠的数据是困难的,需要谨慎对待。

自从GRID力场诞生以来,它已被广泛用于各种应用,描述蛋白质、它们的结合位点以及小分子与外部观察探针之间的相互作用能量,展示了这种分子相互作用场(MIFs)在药物设计中的实用性。在GRID方法中,一个“目标”分子被包含在一个虚拟的网格笼中,然后在网格上的每个点上放置一个小分子探针(例如水分子、羰基氧、酰胺NH或芳香碳;总共有74个可用的探针)。探针可以旋转以与目标形成最佳的相互作用,并使用它们的静电、氢键和熵势的组合来计算相互作用能量。这些分子相互作用场(MIFs)通常对多种不同的探针进行计算,这些探针代表氢键供体和受体、亲脂性和亲水性基团,以及正电和负电静电荷基团;这些相互作用热点可以在能量较低(更有利)的情况下被识别出来,这表示在这些位置,探针与目标之间的相互作用是比较强烈和有利的。然而,当相互作用能量略微为正时,这表示在这些位置,探针与目标之间的相互作用能量开始变得不利。通常,不利的正能量被限制在+5 kcal/mol以内,超过这个阈值的正能量通常不被考虑。在这种情况下,能量为正的位置可以被看作是目标分子的形状定义点,因为它们表示了探针与目标之间开始排斥的位置。作者决定探讨是否可以通过深度学习的CNN结合使用GRID MIFs;类似于使用二维图像和三个通道(红色、绿色、蓝色)来描述每个像素的图像识别方法,作者将使用基于不同GRID探针相互作用能量的多通道三维分子图像进行识别。作为案例研究,作者选择了一个血脑屏障数据集(BBB)。

数据来源

VS-lgBB-332数据集是一个血脑屏障(BBB)数据集,之前已经在VolSurf软件中用于构建logBB模型,用于测试不同的建模方法,旨在与VolSurf模型进行比较。作者将这个数据集称为VS-lgBB-332数据集,因为它是由VolSurf(VS)使用的,包含logBB数据,并包含332个分子。

Light-BBclass-2105和Light-lgBB-416数据集。为了将方法与最近的机器学习BBB模型进行比较,作者决定使用经过修改的LightBBB数据集。这个数据集最初包含了相对较大的7162个化合物,这些化合物来自各种文献来源,并以SMILES格式准备,经手工筛选以去除重复项、不一致的结果和缺少结构信息的化合物。在这个数据集中,有5453个BBB可透过(BBB+)的化合物,1709个BBB不可透过(BBB-)的化合物。经过各种筛选后,剩下2105个化合物,形成了带有分类数据(BBB±)的Light-BBclass-2105数据集。这个数据集中包含了416个化合物的实验性logBB数据,用于构建Light-lgBB-416数据集。在文中,“较小的数据集”指的是VS-lgBB-332和Light-lgBB-416数据集,“较大的数据集”指的是Light-BBclass-2105数据集。

1d6ec9fbe783452bb35c57182b754f5d.png
图 1

为了检查数据集的相关性,作者使用VolSurf+分析了e-Drug3D数据库中已知药物的化学空间,该数据库反映了美国药典中小分子药物的当前内容,包含了1939年至2022年间批准的2056种药物分子结构,分子量小于2000 Da。该数据库经过筛选,保留了分子量小于700 Da的1435种药物。这些结构被导入到VolSurf+中,并使用VolSurf描述符生成了主成分分析模型。前两个主成分解释了该集合内52%的方差,并用于可视化化学空间。图1显示了该化学空间的前两个主成分的得分图,上面投影了上述三个数据集。得分图中的已知药物(黑色圆圈)位于图的左上方,这些药物较大且极性较强。图的左下角的已知药物较小且极性较强。相反,图的右上方包含了较大而疏水的药物,而图的右下方包含了较小而疏水的药物。在这项工作中,所有数据集都在图的右下方具有一组与已知药物不重叠的化合物,其中包括2-甲基辛烷、甲苯、丙烯和丙酮等化合物。对于VS-lgBB-332数据集,有54个不重叠的化合物(16.3%),对于Light-lgBB-416数据集,有20个不重叠的化合物(4.8%),对于Light-BBclass-2105数据集,有21个不重叠的化合物(1.0%)。

分子描述符

为了构建一个类似于图像识别的深度学习模型,作者使用GRID MIFs计算了每个分子的GrAID (3D)描述,从不同的化学角度提供描述。所使用的探针包括OH2(水)、CRY(亲脂性)、O(受体)、N1(供体)、O::(带负电的受体)和N3+(带正电的供体)。对于每个分子,生成了多达30个构象。每个构象都位于一个30×30×30 Å的笼子中,并通过递归围绕每个轴固定120°旋转分子3次,生成了27个不同的“视点”,并删除了任何对称相关的重复。对于每个构象的每个视点,使用1.5 Å的分辨率计算了六个GRID MIFs。负相互作用能量(有利的相互作用)被保留下来,并被反转并归一化为0.0到1.0之间的值,其中1.0表示强烈有利的相互作用,0.0表示非常弱的相互作用。此外,对于CRY和OH2探针,保留了正的相互作用能量(不利的相互作用,描述了来自两个分子角度的分子形状);这些也被归一化为上述方式,其中1.0表示强烈的不利相互作用,0.0表示弱的不利相互作用。这样,对于每个分子的每个构象的每个视点,总共有8个“通道”来描述,类似于一组图像的3个RGB通道。

VolSurf描述符是使用VolSurf软件计算的,采用动态GRID场参数化和0.5 Å的GRID分辨率。这些描述符是从每个分子结构计算得到的,总共有124个一维描述符,已知它们在很大程度上是构象独立的。其中许多描述符是基于输入分子的GRID MIFs,用于模拟分子与水性环境(例如血液)和亲脂性环境(例如细胞膜)的相互作用。

模型

e7300c696175431f6a45069944bf1a44.png
图 2

b3892bdac30245b43db516968401a134.png
图 3

数据集被随机分成三部分,其中60%的分子用于训练,20%用于验证,剩下的20%用作测试集。使用Morgan指纹来对数据集进行了相似性分析,既在每个数据集内部,也在测试集与其他两个数据集之间进行了相似性分析,以Tanimoto相似性作为相似性度量标准。图2显示了VS-lgBB-332数据集的结果。箱线图显示数据集本身具有相当的多样性,测试集与其他两个数据集相当不同。

DeepGRID的CNN模型是使用Python 3中实现的TensorFlow的Keras构建的,作为输入只使用了上面描述的GrAId描述符。作者开发了一个自动程序(即网格搜索)来搜索滤波器、核、池化、稠密层和每个稠密层的单元的组合,并使用验证集的平均均方误差(MSE)选择了最佳模型。DeepGRID网络示例如图3所示。

实验结果

ae0072aee316f7c171bc66b850a98b07.png
图4 训练(蓝圆)、验证(绿圆)和测试集(红圆)的预测与实验图,显示所有构象的预测(左列),平均预测(中列)和最佳构象预测(右列)。

VolSurf logBB Model on VSlgBB-332 Data Set:为了提供一个比较基线, VolSurf计算的lgBB描述符被用作输入分子的每个独立构象的预测值。每个分子在训练、验证和测试集中的构象的平均预测值分别为0.25、0.31和0.27的MSE(Mean Squared Error)值。GMFE(Geometric Mean Fold Error)值分别为3.45、4.29和3.77。训练、验证和测试集的预测vs实验散点图如图4所示。模型性能还不错,但存在一些异常值,只有43%的测试集被预测为GMFE < 2.0(66%被预测为GMFE < 3.0)。

a40b5c27700caaacaee25bb1646c98f9.png
图 5

fb2005fc255df18e654ff491e6f26f3e.png
图 6

DeepGRID Deep Learning CNN Model on VSlgBB-332 Data Set作者实施了一个自动化方法(即网格搜索)来优化模型的超参数。网格搜索能够测试各种CNN滤波器和核大小、多种稠密层(1-5)以及每个稠密层的单元数(32、24、16、14、12、10和8),并训练35个epochs的回归模型。表现最佳的模型是使用3个CNN滤波器(每个有32个滤波器,池大小为2,核大小为3),5个稠密层和每层32个单元构建的。训练和验证集的每个epoch的MSE(图5)显示,随着模型的学习,MSE逐渐减小,验证集的MSE也类似减小。

图6显示了训练、验证和测试集的预测vs实验散点图。首先要注意的是,每个化合物由多个构象表示,这些数据显示在左侧的图表中。例如,在训练集中具有实验性“真实”值-2.0的化合物(左上图,图表左侧的点),有从约-1.4到-0.9的预测值。圆圈以半透明的方式着色,以突出显示通过给出更密集的颜色而重叠的点。这显示了从图的左下到右上有一个明显的趋势,特别是在-1.0到-1.0之间的区域,表明模型已经学会以定性的方式预测输入数据;定量上,训练、验证和测试集的MSE值也很好,分别为0.12、0.14和0.19。在更极端的值(实验值< -1.1和> 1.1)下,预测性相关性较差,即使分类仍然成立(大多数BBB-化合物被预测为BBB-)。对于未见的测试集性能稍差于训练和验证集,定性上有几个异常值可以看出。图中列的中间列显示了跨构象的平均预测值,以标准偏差为误差棒;这些平均预测图的总MSE分别为0.13、0.15和0.24,对于训练、验证和测试集而言。右侧的图表显示了跨构象的最佳预测值(即最接近实验值的预测值),这些最佳预测图的总MSE分别为0.10、0.11和0.20,对于训练、验证和测试集而言。这些最佳预测图是有趣的,因为它们只在构象平均图上略有改进,这表明虽然能够预先识别“最佳”构象将改善模型,但并不是如此关键的因素。

Different models on Light-lgBB-416 Data Set:对于DeepGRID模型,训练集中构象的平均均方误差(MSE)为0.27对数单位,相应的验证集和测试集MSE值分别为0.30和0.38。测试集的GMFE为5.04,53.0%的化合物的GMFE < 2.0,65.1%的化合物的GMFE < 3.0。对于RF模型,训练集中构象的平均MSE为0.15对数单位,相应的验证集和测试集MSE值分别为0.30和0.31。测试集的GMFE为4.27,53.0%的化合物的GMFE < 2.0,63.9%的化合物的GMFE < 3.0。对于PLS模型,训练集中构象的平均MSE为0.26对数单位,相应的验证集和测试集MSE值分别为0.31和0.35。测试集的GMFE为4.79,37.4%的化合物的GMFE < 2.0,60.2%的化合物的GMFE < 3.0。使用原始的VolSurf logBB模型,测试集中构象的平均MSE为0.42对数单位,GMFE为7.78,36.1%的化合物的GMFE < 2.0,56.6%的化合物的GMFE < 3.0。对于这个数据集,所有指标都比VS-lgBB-332数据集差。

ceef0b2826f6f709f52e544a422617a0.png
图 7

a0b534a322d2d85b5e20333935af6e12.png
图 8

DeepGRID and Random Forest Models on Light-BBclass-2105 Data Set: 对于Light-BBclass-2105数据集,作者建了DeepGRID和RF模型。在构建DeepGRID模型时,作者观察到模型在经过几个时期后就停滞不前,精度没有提高。作者假设由于数据集中BBB-化合物与BBB+化合物的比例较低(约1:4),并且由于实施的批次拆分方法可能有些批次中只包含BBB+化合物,这意味着神经网络无法学会区分这两类化合物。因此,作者实施了一种数据增强方法,复制了BBB-化合物,使比例达到1:2,这使得最后获得了一个能够满意地按时期改善精度的模型。在20个时期后,该模型在保留的测试集上给出了0.87的ROC AUC,在整个数据集上的总体AUC为0.97(图7)。作者确定的最佳RF分类器在测试集上的ROC AUC为0.84,在整个数据集上的总体AUC为0.95(图8)。

参考资料

Storchi, L., Cruciani, G., & Cross, S. (2023). DeepGRID: Deep Learning Using GRID Descriptors for BBB Prediction. Journal of Chemical Information and Modeling.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1230994.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Javaweb之Ajax的详细解析

1.1 Ajax介绍 1.1.1 Ajax概述 我们前端页面中的数据&#xff0c;如下图所示的表格中的学生信息&#xff0c;应该来自于后台&#xff0c;那么我们的后台和前端是互不影响的2个程序&#xff0c;那么我们前端应该如何从后台获取数据呢&#xff1f;因为是2个程序&#xff0c;所以…

记一次攻防实战渗透

经典开局一个登录框 由于漏洞应该还未修复。对于数据和相关网址打个码见谅一下 常规思路&#xff08;爆破&#xff09; 常规操作进行一波 尝试弱口令然后开始爆破 对于此种有验证码的爆破&#xff0c;可以借用一个bp插件。 captcha-killer-modified-jdk14.jar 具体使用我就…

读懂:“消费报销”模式新零售打法,适用连锁门店加盟的营销方案

读懂&#xff1a;“消费报销”模式新零售打法&#xff0c;适用连锁门店加盟的营销方案 引言&#xff1a;2023年的双十一已经落下帷幕&#xff0c;作为每年的经典电商促销节&#xff0c;今年已是第15个年头&#xff0c;但是今年各大电商平台却都是非常默契的&#xff0c;没有公布…

算法学习 day26

第二十六天 最大子数组和 53. 最大子数组和 - 力扣&#xff08;LeetCode&#xff09; 动态规划问题 class Solution {public int maxSubArray(int[] nums) {int len nums.length;int[] dp new int[len];dp[0] nums[0];int res dp[0];for(int i 1; i < len; i){dp[i] …

【封装UI组件库系列】搭建项目及准备工作

封装UI组件库系列第一篇搭建项目 前言 &#x1f31f;搭建项目 创建工程 基本结构 1.创建8个组件展示页面 ​ 2.配置路由文件router/index.js 3.页面布局 &#x1f31f;总结 前言 在前端开发中&#xff0c;大家可能已经用过各种各样的UI组件库了&#xff0c;现在市面上热…

ANSYS网格无关性检查

网格精度对应力结果存在很大的影响&#xff0c;有时候可以发现&#xff0c;随着网格精度逐渐提高&#xff0c;所求得的最大应力值逐渐趋于收敛。 默认网格&#xff1a; 从默认网格下计算出的应力云图可以发现&#xff0c;出现了的三处应力奇异点&#xff0c;此时算出的应力值是…

聊一聊go的单元测试

文章目录 概要一、测试框架1.1、testing1.2、stretchr/testify1.3、smartystreets/goconvey1.4、cweill/gotests 二、打桩和mock2.1、打桩2.2、mock2.2.1、mockgen 三、基准测试和模糊测试3.1、基准测试3.2、模糊测试 四、总结4.1、小结4.2、其他4.3、参考资料 概要 软件测试是…

vue3 ts vite 主题色功能

开发工具&#xff1a;vue3 ts vite 如上图&#xff0c;选择个颜色整个变化&#xff0c;如下图 默认主题为绿色 切换成其它色。 这里面的颜色块&#xff0c;你也可以给个取器色组件&#xff0c;可切换成任意色。切换时主要执行下方的方法&#xff0c;有兴趣可自己研究下。 /…

【运维篇】5.6 Redis server 主从复制配置

文章目录 0. 前言1. 配置方式步骤1: 准备硬件和网络步骤2: 安装Redis步骤3: 配置主服务器的Redis步骤4: 配置从服务器的Redis步骤5: 测试复制功能步骤6: 监控复制状态 2. 参考文档 0. 前言 在Redis运维篇的第5.6章节中&#xff0c;将讨论Redis服务器的主从复制配置。在开始之前…

根据nginx日志统计页面访问次数

静态页面部署在nginx上&#xff0c;页面只有查看下载功能。 需求是统计每条访问次数和下载次数&#xff0c;根据日志分析写了一个shell脚本&#xff0c;触发脚本后生成一个html可以远程查看统计的数量。 #!/bin/bash # nginx日志文件路径 LOG_FILE"/usr/local/nginx/l…

vue安装three.js并创建第一个入门场景

vue安装three.js&#xff0c;并创建第一个入门场景 安装three.js npm install --save three引入three.js import * as THREE from threethree.js结构 three.js坐标 创建一个场景 scene场景&#xff0c;camera相机&#xff0c;renderer渲染器 创建一个场景 this.scene new T…

B站短视频如何去水印?一键解析下载B站视频!

在浏览B站视频时&#xff0c;我们有时会遇到带有水印的场景。这些水印可能会干扰我们对视频内容的观看体验&#xff0c;特别是在全屏观看时。此外&#xff0c;当我们想要保存或分享这些视频时&#xff0c;水印也会成为一种障碍。因此&#xff0c;去除水印的需求就变得非常迫切。…

机器学习算法项目开发流程

机器学习算法是当今人工智能领域最重要的技术之一&#xff0c;它可以让计算机通过学习数据中的模式和规律来实现预测和决策。在实际应用中&#xff0c;开发一个成功的机器学习算法项目需要遵循一定的开发流程。本文将介绍一个常见的机器学习算法项目开发流程&#xff0c;帮助读…

公司电脑文件透明加密、防泄密管理软件系统

天锐绿盾数据透明加密系统是一款采用驱动层透明加密技术实现电子文件安全加密的防护产品&#xff0c;可以对企业电子文件的存储、访问、传播和处理过程实施全方位保护。该系统遵循基于文件生命周期安全防护的思想&#xff0c;集成了密码学、访问控制和审计跟踪等技术手段&#…

22年+21年 计算机能力挑战赛初赛C语言程序题 题解

22年 第14题&#xff1a;答案&#xff1a;33 #include<stdio.h> int x1; int f(int a) { static int x2;int n0;if(a%2){ static int x3;nx; }else { static int x5;nx; }return nx;} void main() { int sumx,i;for(i0;i<4;i) sumf(i); printf(&qu…

百云齐鲁 | 云轴科技ZStack成功实践精选(山东)

山东省作为我国重要的工业基地和北方地区经济发展的战略支点&#xff0c;在“十四五”规划中将数字强省建设分为数字基础设施、数字科技、数字经济、数字政府、数字社会、数字生态六大部分&#xff0c;涵盖政治、经济、民生等多个方面&#xff0c;并将大数据、云计算、人工智能…

腐蚀监测常用技术及作用

上次我们介绍了设备状态监测中的红外热像技术>>热成像仪的工作原理及在工业设备状态监测中的应用&#xff0c;这次我们一起来探讨腐蚀监测技术方面的内容。 在工业领域中&#xff0c;腐蚀监测技术是腐蚀控制的重要部分和可靠而有效的手段。通过对设备的腐蚀情况进行监测和…

简单模拟 Spring 创建的动态代理类(解释一种@Transactional事务失效的场景)

模拟 Spring 创建的动态代理类 本文主要目的是从父类和子类继承的角度去分析为什么在 Service 标注的业务类中使用 this 调用方法会造成事务失效。解释在这种情况下 this 为什么是原始类对象而不是代理类对象。 问题描述 在 Service 标注的业务类中&#xff0c;如果调用本类…

机器学习第10天:集成学习

文章目录 机器学习专栏 介绍 投票分类器 介绍 代码 核心代码 示例代码 软投票与硬投票 bagging与pasting 介绍 核心代码 随机森林 介绍 代码 结语 机器学习专栏 机器学习_Nowl的博客-CSDN博客 介绍 集成学习的思想是很直观的&#xff1a;多个人判断的结合往往比…

起立科技(起鸿)在第25届高交会上展示透明OLED技术创新

第二十五届中国国际高新技术成果交易会 日期&#xff1a;2023年11月15日 地点&#xff1a;福田会展中心7号馆 深圳&#xff0c;2023年11月15日 — 起鸿科技&#xff0c;作为透明OLED领域的引领者&#xff0c;于今日参展了第二十五届中国国际高新技术成果交易会。这一展会将汇…