CCGNet用于发现共晶材料中的coformer

news2025/1/11 10:57:45

共晶工程(cocrystal engineering)在制药,化学和材料领域有广泛应用。然而,如何有效选择coformer一直是一个挑战性课题。因此,作者开发了一个基于GNN的深度学习框架用于快速预测共晶的形成。为了从现有报告的6819个正样本和1052个负样本中捕获结晶(crystallization)的main driving force,作者探索了一种可行的GNN框架,将重要的先验知识整合到分子图的端到端学习中。CCGNet在7个竞争方法和3个具有挑战性的独立测试集(pharmaceutical cocrystals,π–π cocrystals和energetic cocrystals)上进行了验证,结果表明,CCGNet具有鲁棒性和泛化性。

来自:Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials


coformer是指在共晶工程中与活性成分一起形成共晶的分子。在共晶工程中,选择合适的coformer非常重要,因为只有某些特定的分子才能与活性成分形成共晶。


目录

  • 背景概述
  • 方法
    • 数据收集和增强
    • 样本的表示
    • CCGNet概述
  • 实验
    • 消融实验
    • 药物共晶的独立检测
    • π–π共晶的独立检测
    • 高能共晶ECCs的应用与实验验证

背景概述

共晶体(co-crystals,CCs)是由两个或两个以上的中性分子按一定的化学计量比通过非共价力组合而成的一种单相结晶材料,它既不是溶剂化物,也不是简单的盐。这种共结晶可以通过低成本、结构灵活的非共价键合成来实现功能分子的新特性。因此,共晶工程已成为制药、化学和材料领域的一种有效的设计策略。例如,CCs被用作处理物理化学、生物制药的手段,并扩大活性药物成分(APIs,Activate Pharmaceutical Ingredients)的固体形态多样性。对于有机功能材料来说,CCs具有先进的光学、电学新功能。同时,共晶是提高炸药性能以实现低灵敏度高能量的有效杠杆。

尽管前景诱人,但如何选择coformer是共晶工程的关键,因为共晶只发生在某些特定的分子之间。新共晶的实验测定通常涉及大范围coformer的系统筛选,因此在时间、精力和实验资源上都是昂贵的。为了解决这一问题,一些计算方法被提出并用于预测可能形成CCs的coformer,例如,使用CSD(Cambridge Structural Database)的实验数据进行结构分析、基于网络的共晶设计链接预测、共晶形成的热力学特性研究、分子动力学模拟、分子间位点配对能(ISPE,intermolecular site pairing energy)研究。以上这些方法大致遵循了基于知识的和基于物理的范式,它们确实为实验设计提供了有用的指导。然而,它们在非共价相互作用和分子化学结构多样性的推广方面受到限制。因此,迫切需要开发更通用、计算成本更低的策略。

一些研究已经利用ML方法对共晶预测进行了有意义的尝试,包括支持向量机、多元自适应回归、随机森林和深度神经网络。然而,这些ML方法与分子描述符或指纹相结合,仅表现出中等的共晶预测精度。随着数据的快速积累和图形处理单元GPU的蓬勃发展,深度学习在许多研究领域已经远远超出了传统的机器学习方法。特别是图神经网络GNN,作为深度学习的一个子集,由于图的强大表达能力而受到越来越多的关注。对于GNN,在分子图上的端到端学习取代了传统的特征工程。据报道,一项基于GNN的共晶筛选工作在验证集达到了97%的准确率,但是在独立测试集仅达到80%的准确率。尽管GNN提高了验证集上的性能,但反映ML模型对未知样本的鲁棒性和泛化的独立测试集上的预测精度仍然适中。然而,提高泛化能力一直被认为是机器学习面临的最大挑战之一。

机器学习主要依赖于大量的高质量数据。CSD(Cambridge Structural Database)含有丰富的共晶结构,但仅限于正样本(cocrystals),而缺乏无效的共晶组合(即负样本)。为了构建平衡的负样本,Devogelaer和Wang借助一些计算方法,如基于网络的链接预测和基于分子相似性的方法,将两个coformer组合成无效共晶。在没有实验数据的情况下,这种计算方法被认为是一种很好的替代方法。然而,加上实验报告的一些负样本,数据集依然不平衡。不平衡数据集上的ML很容易偏向过拟合。然而,在现实世界中,数据表示不均匀的问题经常出现。此外,从数据挖掘的角度来看,少数类更重要,因为它可能携带重要和有用的知识来确定界限。

此外,表征样本的特征也是关键,特别是对于不平衡数据。如果两个高度不均衡的类都可以用非重叠分布很好地表示,则基于ML的分类器仍然可以获得很好的准确率。传统的机器学习算法通常涉及特征选择或优化以提高模型性能。而像gnn这样的现代深度学习方法通常遵循端到端策略,该策略强调最小的先验表征和计算假设。然而,在许多领域,可用的数据往往是有限的,这很难支持深度学习足够的知识表征。在这种情况下,应该提倡一种方法可以考虑先验知识和端到端学习的互补优势。

在上述挑战的激励下,作者在这项工作中重建了一个由7871个样本组成的可靠共晶数据集,其中1052个负样本全部来自实验报告,以尽量减少假阴性,6819个正样本仍然来自CSD。为了从有限的和不平衡的数据集中更完整地捕捉到共晶的main driving force,作者提出了一种互补策略,通过将分子图和来自先验知识的12个分子描述符结合起来表示共晶的coformer,这些描述符对共晶的形成有重要贡献。在学习特征表示方面,作者探索了一种灵活的基于GNN的深度学习框架,该框架有效地将先验知识整合到分子图的端到端学习中,可以通过迁移学习应用于与训练数据集差异显著的CCs。作者将其命名为共晶图网络CCGNet。

方法

数据收集和增强

为了获得一个可靠的数据集,作者构建了一个包含7871个样本的大数据集(CC数据集),其中6819个正样本和1052个负样本。正样本来自CSD。如图1a所示,CCs是根据以下条件从CSD筛选出来的:

  • 只含有两种化学上不同的多原子单位;
  • 具有3D结构,没有无序原子,避免低质量结构;
  • 不含任何一组常见溶剂或小分子;
  • 只含C、H、O、N、P、S、Cl、Br、I、F、Si等元素,不含金属元素;
  • 考虑到大多数有机CCs一般都是小分子,各组分的分子量<700;
  • 排除多态性去除重复样品,考虑到当结晶条件改变时,两种相同的分子组合可以形成不同的晶体结构。

负样本来自186篇文献报告,与通过计算模拟的负样本相比,这可以减少假阴性样本的存在。负样本的coformer结构来自PubChem。

这7871个样本可以为深度学习训练提供支持,也为今后研究CCs的其他性质提供了数据资源。此外,在使用数据集训练机器学习模型时,作者采用了数据增强策略,以增强模型的鲁棒性。由于共晶的输入涉及一对coformer,作者交换它们的输入顺序以使样本数量增加一倍,从而扩大数据集。

样本的表示

样本表示对于ML拟合分子结构与其性质之间的关系至关重要。与传统的仅以分子图表征样本的GNN不同,作者提出了一种将先验知识和分子图上的学习相结合的互补特征表示,以便从有限的数据集中更完整地捕获共晶的main driving force。

表1列出了使用的分子图的原子和共价键特征。选择12个分子描述符代表先验知识,因为相关研究表明它们与共晶高度相关。表2显示了12个选定的分子描述符,涉及分子的形状、大小、极性、柔韧性和氢键倾向,这些描述符可以快速计算,以便于高通量筛选。如图1b所示,将这些来自专家知识的分子描述符作为全局状态 u u u,嵌入到一个2×12矩阵中。分子图中的共价键信息由一个邻接张量 A A A表示。每个切片 A l A_{l} Al是一个邻接矩阵,表示一种键类型,通过这个邻接矩阵,共价键以外的其他特征也可以作为额外的切片嵌入到 A A A中。最后,将分子图中的原子能级特征转换为顶点矩阵。

CCGNet概述

在提出互补特征的基础上,作者构建了基于图神经网络的共晶预测模型CCGNet。作者通过引入消息传递范式的相关概念来形式化CCGNet框架。如图1c所示,CCGNet主要由两个阶段组成,即消息传递阶段和 read out 阶段。消息传递将顶点嵌入传播到相邻节点并更新嵌入。如图1d所示,消息传递阶段可以由N个CCGBlock(论文中为4个ccgblock)组成。CCGBlock包含两个可学习函数 Φ u \Phi_{u} Φu Φ v \Phi_{v} Φv Φ u \Phi_{u} Φu被定义为全局状态函数,由单层前馈神经网络构建,该网络计算与12个手工选择的分子描述符相关的全局状态的隐藏表示。 Φ v \Phi_{v} Φv为GNN,使用edge的邻接张量在分子图的节点之间传播和更新信息。 ρ u → v \rho^{u\rightarrow v} ρuv为concat操作,用于将 u u u的latent表示嵌入到每个coformer的节点向量中。

在 read out 阶段,还进行了concat操作,进一步融合多层特征,并在 read out 函数中引入全局注意力机制,从分子图中计算特征向量,采用原子向量的加权求和,而不是简单求和,如图1e所示。为了稳定自注意力的学习过程,进一步优化隐藏嵌入,作者构建了多头注意框架,该框架并行计算每个原子的 k k k个独立注意力系数,产生 k k k个独立的嵌入,然后将它们concat到向量上作为整个样本的表示。在全局注意力之后,将全局状态的隐藏表示 U ′ U' U与图嵌入连接起来,进一步丰富信息。

最后,将顺序的Dense层应用于共晶形成的最终预测,如图1c中的灰色块所示。

fig1

  • 图1:CCGNet的整体框架。

tab1

  • 表1:CCGNet使用的原子和键属性。

tab2

  • 表2:用于编码全局状态的分子描述符。

实验

消融实验

fig2

  • 图2:消融实验结果。

作者对特征表示和模型框架进行了一些消融研究,以探讨它们是否对模型性能至关重要。在12个分子描述符中,有7个与三维构象相关,如S、S_L、M_L、S_M、Globularity、FrTPSA和Dipole_Moment,它们被标记为三维描述符。其余五个描述符可以由二维结构决定,因此标记为二维描述符。作者分别从全局状态中去除2D描述符、3D描述符和所有12个分子描述符,然后测试剩余特征的影响。图2a显示了在十倍交叉验证集上的预测性能,其中仅使用分子图的模型准确率最低(BACC的93.90%,balanced accuracy)。在加入二维描述符后,预测性能略有提高,达到94.16%。然而,通过单独将7个3D描述符嵌入到分子图中,获得了实质性的改进(97.68%)。当12个分子描述符全部融合到分子图中时,预测准确率进一步提高到98.54%。结果表明,GNN在有限数据集的分子图上的学习很难掌握足够的结构信息,特别是与三维构象相关的特征。在这种情况下,特征互补将减轻限制。

此外,分子间氢键(Hbond)和π -π相互作用(π -π)被认为主导了共晶的识别过程。因此,作者还研究了通过将两种分子间相互作用作为两种新的edge特征添加到分子图的邻接张量中,是否可以进一步提高预测精度,如图2b所示。出乎意料的是,模型的性能不但没有提高,反而有所下降,如图2c所示。实际上,这12个分子描述符涉及芳香原子和氢键,与分子间的氢键和π -π相互作用有关。

此外,CCGNet模型还在读出阶段引入了注意机制,进一步优化了特征空间。由图2d可以看出,共晶结构中的一对coformers表现为-O5-H··N2、-O4-H··O3和-O6-H··O1氢键以及苯环和恶二唑环之间的π -π相互作用,而注意力权值只捕获了涉及这两种分子间相互作用的基团。因此,两个边缘特征的额外添加反而增加了特征的冗余,使模型学习更加困难,从而降低了预测精度。

图2e代表了t-SNE可视化。可以看出,CCGNet学习的共晶嵌入即使在数据分布不平衡的情况下也能很好地分离正、负样本,这得益于互补特征和合理的模型框架。

药物共晶的独立检测

在药物共晶的独立测试中,通常需要对共晶的物理化学性质和药理学性质进行测试。作者收集了四种潜在API(活性药物成分)作为研究案例,包括Nicotinamide、Carbamazepine、Indomethacin和Paracetamol。这些API被用于测试模型在药物共晶方面的泛化能力。具体而言,需要对这些API与不同coformer形成的共晶进行测试,并评估其物理化学性质和药理学性质是否得到了保留。结果见图3b。


药物共晶可以改善潜在原药的物理化学性质,同时保持其药理性质,因此在制药工业中发挥着重要作用。为了检验模型在药理学共晶中的泛化能力,作者收集了烟酰胺、卡马西平、吲哚美辛和扑热息痛四种原药作为研究案例。烟酰胺是一种无害且应用广泛的食品添加剂,常被用作共晶的coformer。卡马西平用于治疗癫痫和神经性疼痛。由于卡马西平的生物利用度有限,如溶解度低,通常需要使用更高的剂量才能达到预期的治疗效果,而共晶是提高其溶解度的有效方法。此外,在以前开发的方法中,对吲哚美辛和扑热息痛的共晶预测表现不佳。


π–π共晶的独立检测

在有机功能材料领域,共晶已成为构建新型功能材料的一种很有前途的方法,范围从光子材料到光学和电子材料。具有丰富π轨道的多环芳烃PAHs通过分子间π -π相互作用使电子迁移,因此是形成具有多种电学和光学性质的共晶的有希望的组分。然而,与H键或卤素键等强相互作用相比,π -π相互作用相对较弱,导致共晶合成和结构确定的难度较大。因此,准确预测π -π共晶体系是非常必要的。芘是一种重要的多环芳烃。结果见图3c

高能共晶ECCs的应用与实验验证

高能材料(炸药、推进剂和烟花)在军事和民用领域发挥着重要作用。然而,炸药的威力和灵敏度之间的矛盾一直是一个众所周知的具有挑战性的问题,例如,高能炸药通常具有较低的安全性,反之亦然。共晶工程在提高稳定性、灵敏度和氧平衡等性能方面显示出巨大的潜力。然而,高能分子往往含有丰富的硝基,缺乏对传统有机CCs有重要贡献的官能团,导致合成预测难度较大。因此,有效预测高能共晶形成的模型将成为实验研究的重要工具。结果见图3d和e。

fig3

  • 图3a:3种独立测试集的样本(药物共晶的对象包括烟酰胺,卡马西平,吲哚美辛,对乙酰氨基酚)。
  • 图3b:四种原料药的平衡精度。
  • 图3c:对芘共晶的预测性能。TPR、TNR和BACC分别表示真阳性率、真阴性率和平衡准确率。
  • 图3d:迁移学习和不迁移学习(预训练)对TNT的预测性能。
  • 图3e:迁移学习和不迁移学习(预训练)对CL-20的预测性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/453194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超详细Redis入门教程——Redis命令(下)

前言 本文小新为大家带来 超详细Redis入门教程——Redis命令 相关知识&#xff0c;具体内容包括简单动态字符串 SDS&#xff0c;集合的底层实现原理&#xff0c;BitMap 操作命令&#xff0c;HyperLogLog 操作命令&#xff0c;Geospatial 操作命令&#xff0c;发布/订阅命令&…

2023.04.23 学习周报

文章目录 摘要文献阅读1.题目2.摘要3.介绍4.模型4.1 研究区域4.2 自相关分析4.3 LSTM 5.实验与讨论5.1 高架道路不同位置空气污染物的变化5.2 高架道路不同位置空气污染物的相关性5.3 高架道路不同位置空气污染物预测 6.结论7.展望 度规张量1.曲率2.度量张量3.代码实现4.平行四…

基于遗传算法的梯级水电站群优化调度研究(Matlab代码实现)

&#x1f4a5; &#x1f4a5; &#x1f49e; &#x1f49e; 欢迎来到本博客 ❤️ ❤️ &#x1f4a5; &#x1f4a5; &#x1f3c6; 博主优势&#xff1a; &#x1f31e; &#x1f31e; &#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 …

王道计组(23版)7_I/O系统

I/O控制方式 数据传输率低的外设&#xff1a; 程序查询方式 程序中断方式&#xff1a;外设准备就绪则主动向CPU发送中断请求 数据传输率高的外设&#xff1a; DMA方式&#xff1a;主存和I/O设备有一条直接数据通路&#xff0c;无需调用中断 通道方式&#xff1a;每个通道挂接若…

CTFSHOW web入门——web30

代码审计 把flag、system、php都给过滤了 passthru()函数同system()函数类似&#xff0c;都可以用来执行外部命令的&#xff0c;因此可以用passthru来代替system。 因此构造payload&#xff1a;?cpassthru(cat f*); 查看页面源代码即可获得flag

ROS学习第三十四节——URDF与Gazebo基本集成流程

https://download.csdn.net/download/qq_45685327/87718593 1.创建功能包 创建新功能包&#xff0c;导入依赖包: urdf xacro gazebo_ros gazebo_ros_control gazebo_plugins 2.编写URDF文件 demo01_helloworld.urdf <robot name"mycar"><link name"…

Android 一个获取网址时间的Demo

Android 一个获取网址时间的Demo 文章目录 Android 一个获取网址时间的Demo通过一个网址获取时间的代码关于Android NTP 时间Android 同步时间代码 前段时间有个客户想用局域网同步Android 设备的时间&#xff0c;开发后把这个demo分享一下。 效果&#xff1a; 这里也获取了阿…

Xshell中的基本命令

whoami 当我们刚登录上Xshell的时候&#xff0c;我们应该做什么呢&#xff1f;&#xff1f; 我们上次说了如何增加使用者&#xff0c;和删除使用者&#xff0c;今天我们说一下其他的基本命令。 我们刚开始登录的时候可以用root登录 那么我们怎么看自己事谁呢&#xff1f; …

C/C++占位符,%x和%p的区别

遇到的问题 今天遇到了一个很奇怪的问题&#xff0c;当使用malloc分配了一个堆空间后&#xff0c;分别尝试用cout和printf尝试打印该地址&#xff0c;出现了两个地址不一样的情况&#xff1a; int *pp (int*)malloc(10*sizeof(int)); *pp 1234; cout << pp << …

35. 搜索插入位置 58. 最后一个单词的长度

目录 35. 搜索插入位置 思路 代码 58. 最后一个单词的长度 思路1 代码1 思路2 代码2 35. 搜索插入位置 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。…

存钱罐出口欧盟CE认证ROHS标准测试

近年来生活水平提高&#xff0c;人们手头上的余钱也多了起来&#xff0c;家长们通常会给小孩子买存钱罐&#xff0c;培养小孩子的理财能力&#xff0c;养成良好的财富观&#xff0c;一般的存钱罐都被设计用来存放硬币&#xff0c;一般分为陶瓷&#xff0c;塑料和金属。上端有缝…

电脑蓝屏怎么办?一招教你修好

很多用户遇到电脑蓝屏问题之后不懂怎么去进行解决&#xff1f;电脑蓝屏之后&#xff0c;我们只需要花一分钟制作一个启动盘&#xff0c;然后用这个启动盘来进行系统的重装就可以了。那么具体要怎么去操作呢&#xff1f;以下带来具体的操作方法教学。 准备工作&#xff1a; 1、U…

备忘录设计模式(Memento Pattern)[论点:概念、组成角色、示例代码、框架中的运用、适用场景]

文章目录 概念组成角色示例代码框架中的运用适用场景 概念 备忘录模式&#xff08;Memento Pattern&#xff09;是一种行为型设计模式&#xff0c;主要用于保存对象的内部状态&#xff0c;以便在需要时恢复到先前的状态。这种模式有助于实现撤销、恢复或回滚操作&#xff0c;同…

软件测试之基础概念学习篇(需求 + 测试用例 + 开发模型 + 测试模型 + BUG)

文章目录 1. 什么是软件测试2. 软件测试和软件开发的区别3. 软件测试和软件调试的区别4. 什么是需求1&#xff09;以需求为依据设计测试用例 5. 测试用例是什么6. 什么是 BUG&#xff08;软件错误&#xff09;7. 五个开发模型1&#xff09;瀑布模型2&#xff09;螺旋模型3&…

有哪些方法可以防止企业内部数据泄露?

企业内部数据安全威胁多数源于企业内部&#xff0c;企业内部存在许多安全威胁&#xff0c;主要包括: 1. 员工误操作或疏忽&#xff1a;这是导致内部安全事故的最主要原因之一。员工对安全程序缺乏认识或执行不严谨&#xff0c;可能会无意中泄露敏感数据或引发系统漏洞。 2. 未经…

Windows 服务监控工具

在任何企业中&#xff0c;Windows 服务都是面向业务的应用程序的核心组件。这些 Windows 服务的有效运行对于防止网络和应用程序停机至关重要。这使得 Windows 服务监视成为任何网络管理策略的关键部分。 Windows 服务监视使管理员能够确保关键 Windows 服务的可用性&#xff…

mysql的函数 --- MySQL总结(二)

mysql的函数 文章目录 mysql的函数日期函数字符串函数其他函数 日期函数 上面的所以的函数都可以使用select进行展现相应的数据 这里的使用current_date()时间戳&#xff0c;其他日期都可以相似的操作进行对于时间的操作 字符串函数 后面这里的操作查找name表之中的id的字符集&…

重构这件“小”事儿 | 得物技术

本文以一个Web项目的业务代码重构实践作为依据&#xff0c;来探讨项目业务代码重构过程中遇到的开发问题&#xff0c;以及重构过程中的一些注意点&#xff0c;希望可以给项目开发和服务开发维护重构提供一些通用的参考与思路。 这里不探讨大型项目的重构实践&#xff0c;毕竟一…

SHELL的脚本编写(2)

目录 1.编写脚本for1.sh&#xff0c;使用for循环创建20账户&#xff0c;账户名前缀由用户从键盘输入&#xff0c;账户初始密码由用户输入&#xff0c;例如&#xff1a;test1、test2、test3、......、test10 首先创建并编写for1.sh 查看结果 2.编写脚本for2.sh&#xff0c;使用…

Java - Lambda 表达式

一、背景 Lambda表达式是Java SE 8中一个重要的新特性。lambda表达式允许你通过表达式来代替功能接口。 lambda表达式就和方法一样,它提供了一个正常的参数列表和一个使用这些参数的主体(body,可以是一个表达式或一个代码块)。 Lambda 表达式&#xff08;Lambda expression&am…