Nature Machine Intelligence | “化学元素知识+功能提示”双驱动,探索分子预测新方法

news2024/11/20 12:30:57

论文题目:Knowledge graph-enhanced molecular contrastive learning with functional prompt

论文链接:https://doi.org/10.1038/s42256-023-00654-0

项目地址:GitHub - HICAI-ZJU/KANO: Code and data for the Nature Machine Intelligence paper "Knowledge graph-enhanced molecular contrastive learning with functional prompt".Code and data for the Nature Machine Intelligence paper "Knowledge graph-enhanced molecular contrastive learning with functional prompt". - GitHub - HICAI-ZJU/KANO: Code and data for the Nature Machine Intelligence paper "Knowledge graph-enhanced molecular contrastive learning with functional prompt".icon-default.png?t=N7T8https://github.com/HICAI-ZJU/KANO

发表期刊:Nature Machine Intelligence

引言

借助 AI的分子性质预测模型,可以评估候选药物的临床试验成功率和治疗潜力,极大地提升了药物研发的效率,能够显著降低因后期失败带来的经济损失。当前,大多数基于分子的自监督学习方法由数据驱动,通常仅考虑原子之间通过化学键建立的联系,未能充分挖掘分子图中原子间的潜在关联,从而使其结果缺乏可解释性。此外,预训练任务往往与下游任务有很大差异,这意味着直接将预训练得到的表示应用于下游任务,可能无法取得理想的性能表现。

因此,本文提供了一种有力的辅助药物发现的分子性质预测工具。通过融合化学元素知识图谱中的基础化学信息作为先验知识,激发模型在理解分子语义和拓扑结构方面的潜在能力。

方法

图1: KANO模型总览

图2: ElementKG概览

首先,本文基于元素周期表和维基百科,构建了一个“化学元素知识图谱”(ElementKG)。ElementKG 从化学元素的角度呈现了一个全面且标准化的视图,覆盖了元素的类层次结构、化学属性、元素间的关系、相关官能团及官能团与其组成元素间的连接。

在此基础上,本文提出了一种基于功能提示的知识图谱增强分子预训练方法。在预训练阶段,针对分子中存在的元素和官能团类型,从ElementKG中检索相应的实体和关系,创建一个增强的分子图。该分子图融合了基础领域知识,并捕获了拥有相同元素类型的原子间的基本关系,即使它们并未通过化学键直接相连。此方法用于构建对比学习的正样本对,并通过预训练获得分子的向量表示。该表示在保留拓扑结构的同时,整合了关键的化学语义。

在预训练后,为了弥补预训练对比任务和下游任务之间的差距,本文提出使用官能团知识作为提示,以激励预训练的图编码器,并从ElementKG的官能团知识中生成功能提示。首先,检测输入分子中的所有官能团,并检索其在ElementKG中的对应实体嵌入,构建可学习的中介变量,以捕捉每个官能团的重要性。接下来,将自注意力机制应用于中介变量和官能团实体的嵌入,以全面聚合其语义并获得功能提示。该方法有效提升了分子属性预测的准确性,同时确保了一定程度的可解释性。

实验

本文在14个分子性质预测的基准测试中对KANO进行了全面的评估,展现了其优越的性能。

图3: KANO在14个基准数据集上获得了优越的性能

为深入评价KANO在表示空间质量上的表现,研究主要聚焦于对齐性和均匀性两大纬度,并与现有最具代表性的有监督模型、基于预测的预训练模型及基于对比的预训练模型进行对比分析。实验结果揭示,KANO能够将拥有相同主要构造(scaffold)的分子映射到相近的表示空间,并确保所得表示向量在单位球面上均匀分布,进而保留更多的数据信息。

图4: KANO通过元素知识增强的预训练获得高质量的分子表示空间

进一步地,通过可视化官能团的注意力权重,本文探讨了KANO的预测可解释性。可解释性分析表明,KANO能够在分子中识别出具有特殊化学意义的子结构,并通过激活与下游任务密切相关的知识,来实现预训练目标与下游性质预测目标之间的对齐。

图5: KANO通过官能团提示指导的微调感知具有特殊化学意义的子结构

总结

本文提出了KANO,一种通过结合化学领域的专业知识来增进分子属性预测任务新策略。在知识图谱的指导下进行的预训练使KANO获得了高质量的分子表征空间,同时,官能团提示捕捉了与下游任务相关的、富有化学意义的子结构信息。当然,KANO也存在一些局限性。例如,ElementKG可能无法充分体现分子系统的复杂性,现有的官能团提示可能无法捕捉子结构之间的远程相互作用。面对这些挑战,未来的研究方向可能包括:首先,可以将ElementKG扩展到其他化学领域或与其他现有知识图谱融合,以提供更全面、更系统的理解分子的途径。其次,探讨KANO所学习的表征的可解释性和官能团提示捕捉的化学知识,为分子设计和优化提供深入的见解。最后,探讨将KANO与其他技术整合的方法,以增强其在小数据集上的性能,并进一步加速药物的发现过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1062167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

光纤掺杂浓度之间的转换计算方法

掺杂浓度表示形式 掺杂浓度是光纤光学中无源或有源掺杂光纤中最重要的参数之一。在文献中可以找到许多不同的方法来表示基于原子或摩尔的掺杂浓度。 化学元素基于原子或离子的定义是非常明确的。例如原子百分比(atomic percentage,at.%)、原…

爬虫为什么需要 HTTP 代理 IP?

前言 爬虫在互联网数据采集、分析和挖掘中扮演着至关重要的角色,但是对于目标网站而言,频繁的爬虫请求可能会对其服务器产生不小的负担,严重的情况甚至会导致网站崩溃或者访问受限。为了避免这种情况的发生,同时也为了保护客户端…

如何安全驾驭物联网视频革命

相机即将连接到您附近的连接设备。来自旧手机的廉价图像传感器正在涌入市场,并将视频带入物联网 (IoT)。 吸尘器、喂鸟器、联网汽车甚至智能烤箱现在都配备了摄像头,可以识别菜肴并建议剩余的烹饪时间。这是联网设备功能的重大转变,目前全球…

EasyXnote5关于批量绘图

专栏:EasyX图形化编程 文章目录 问题引入 绘制画面批量绘图解释批量绘图使用 问题引入 之前的讲解中,我们可以发现创建的窗体在进行动画的显示时会出现闪烁现象,本节课将会一步一步探讨如何解决,可以使以后学习中的动画效果更加流…

二项分布以及实现

文章目录 前言所谓二项分布就是只会产生两种结果的概率 1.概念 前言 所谓二项分布就是只会产生两种结果的概率 1.概念 下面是一个二项分布的的theano实现 import numpy as np import theano import theano.tensor as T from theano.tensor.nnet import conv from theano.ten…

【数据结构--八大排序】之快速排序

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …

MySQL——使用mysqldump备份与恢复数据

目录 1.mysqldump简介 2.mysqldump备份数据 2.1 备份所有数据库 2.2 备份一个/多个数据库 2.3 备份指定库中的指定表 3.mysqldump恢复数据 3.1 恢复数据库 3.2 恢复数据表 1.mysqldump简介 mysqldump命令可以将数据库中指定或所有的库、表导出为SQL脚本。表的结构和表中…

图像压缩:Transformer-based Image Compression with Variable Image Quality Objectives

论文作者:Chia-Hao Kao,Yi-Hsin Chen,Cheng Chien,Wei-Chen Chiu,Wen-Hsiao Peng 作者单位:National Yang Ming Chiao Tung University 论文链接:http://arxiv.org/abs/2309.12717v1 内容简介: 1)方向:…

代码随想录 Day11 二叉树 LeetCode T144,145,94 前中后序遍历 (递归解法)

题解及更详细解答来自于:代码随想录 (programmercarl.com) 前言: 递归三要素 确定递归函数的参数和返回值: 确定哪些参数是递归的过程中需要处理的,那么就在递归函数里加上这个参数, 并且还要明确每次递归的返回值是什么进而确定递归函数的返…

深度学习实战基础案例——卷积神经网络(CNN)基于MobileNetV3的肺炎识别|第3例

文章目录 前言一、数据集介绍二、前期工作三、数据集读取四、构建CA注意力模块五、构建模型六、开始训练 前言 Google公司继MobileNetV2之后,在2019年发表了它的改进版本MobileNetV3。而MobileNetV3共有两个版本,分别是MobileNetV3-Large和MobileNetV2-…

不容易解的题10.5

31.下一个排列 31. 下一个排列 - 力扣(LeetCode)https://leetcode.cn/problems/next-permutation/?envTypelist&envIdZCa7r67M会做就不算难题,如果没做过不知道思路,这道题将会变得很难。 这道题相当于模拟cpp的next_permu…

Windows系统上使用CLion远程开发Linux程序

CLion远程开发Linux程序 情景说明Ubuntu配置CLion配置同步 情景说明 在Windows系统上使用CLion开发Linux程序,安装CLion集成化开发环境时会自动安装cmake、mingw,代码提示功能也比较友好。 但是在socket开发时,包含sys/socket.h头文件时&am…

浅谈CDN内容分发与全局负载均衡

CDN简介 CDN的全称是Content Delivery Network,即内容分发网络。CDN是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容&#xff0c…

软件设计师_数据结构与算法_学习笔记

文章目录 6.1 数组与矩阵6.1.1 数组6.1.2 稀疏矩阵 6.2 线性表6.2.1 数据结构的定义6.2.2 顺序表与链表6.2.2.1 定义6.2.2.2 链表的操作 6.2.3 顺序存储和链式存储的对比6.2.4 队列、循环队列、栈6.2.4.2 循环队列队空与队满条件6.2.4.3 出入后不可能出现的序列练习 6.2.5 串 6…

C语言学习系列->联合体and枚举

文章目录 前言联合体概述联合体的特点联合体大小的计算优点练习 枚举概述优点使用 前言 在上一篇文章中,小编将结构体的学习笔记整理出来了。现在,小编将枚举和联合体笔记分享给大家。枚举和联合体与结构体一样,都是自定义类型,在…

竞赛 机器视觉的试卷批改系统 - opencv python 视觉识别

文章目录 0 简介1 项目背景2 项目目的3 系统设计3.1 目标对象3.2 系统架构3.3 软件设计方案 4 图像预处理4.1 灰度二值化4.2 形态学处理4.3 算式提取4.4 倾斜校正4.5 字符分割 5 字符识别5.1 支持向量机原理5.2 基于SVM的字符识别5.3 SVM算法实现 6 算法测试7 系统实现8 最后 0…

MySQL之逻辑备份与恢复

逻辑备份简介: 备份的是建表、建库、插入等操作所执行SQL语句,适用于中小型数据库,效率相对较低。 本质:导出的是SQL语句文件 优点:不论是什么存储引擎,都可以用mysqldump备成SQL语句 缺点:速度…

输入一个大写字母,程序根据输入字符在字母表的顺序位置n,输出一个高度为n的金字塔图形

python字母金字塔根据输入的字母输出一个字母金字塔输入一个大写字母,程序根据输入字符在字母表的顺序位置n,输出一个高度为n的金字塔图形,比如输入E时,此时 字母金字塔 # A # ABA # ABCBA # ABCDCBA # ABCDEDCBA 看到…

php单独使用think-rom数据库 | thinkphp手动关闭数据库连接

背景(think-orm2.0.61) 由于需要长时间运行一个php脚本,而运行过程并不是需要一直与数据库交互,但thinkphp主要是为web站点开发的框架,而站点一般都是数据获取完则进程结束,所以thinkphp没提供手动关闭数据…

Trie树(字典树)C++详解

字典树的定义 字典树是一个用来快速查找和存储字符串集合的数据结构。 字典树的形状 假设我们字典树里有以下5个单词: akio,akno,cspj,csps,trie 那么字典树长这样: trie 的结构非常好懂,我们…