Briefings in bioinformatics2021 | QSAR模型中,传统表征要优于molecular embedding?

news2025/1/2 3:55:13

论文标题:Using molecular embeddings in QSAR modeling: does it make a difference?

GitHub - VirginiaSabando/MolecularEmbeddings: Official site for "Using Molecular Embeddings in QSAR modeling: Does it Make a Difference?" (Briefings in Bioinformatics, 2021)

一、问题提出

尽管已有的分子表征方法层出不穷,但如何选择最适合QSAR分析的表征方法还没有实证研究。最近发表的一些研究表明,分子embedding在QSAR建模中似乎只匹配或略超过传统表示。虽然在分子embedding和传统表示之间建立一个公平的比较不是很直接,但这样的比较是必要的,它需要通过广泛和仔细的实验工作流程来进行。

旨在回答一下问题:

Q1: 文献中用于QSAR建模的主要分子embedding方法是什么? 在分类/回归任务中,它们是否优于传统的分子表示?

Q2: 将生物目标的信息整合到分子embedding(有监督embedding)中是否会比从无监督embedding中获得更高的预测性能?

Q3: 不同的预处理决策,例如SMILES标准形式或最终embedding的大小,是否对使用分子embedding的QSAR模型的预测性能有显著影响?

 

二、模型方法

1、Materials and methods

ZINC数据库:200M数据。

预处理阶段结束后,随机选择了4000万个化合物的子集用于训练。

选择了8个不同的标记数据集、5个分类数据集和3个回归数据集用于评估。

对比模型(5个,3个有监督、2个无监督):

2、Experimental design

Training and embedding extraction

Evaluation of the molecular embeddings

三、实验

1、回答第一个问题:

比较使用传统分子表征molecular descriptors、ECFPs、MACCS

在NB、SVM和RF分类器中,传统分子表示对所有数据集都产生了最好的结果,显著优于大多数学习嵌入。在不平衡数据集—“SR-ATAD5”和“HIV”—的情况下,“ECFP”显著优于使用NB的其他表示,在其他分类器的最佳表现表示中,如图5C所示。“MACCS”和“molecular descriptors”也产生了明显优于大多数数据集和分类器中的学习embedding的结果。在' PCBA-686978 '(图E)的情况下,除FFNN外,在所有分类器中使用传统表示都获得了最佳结果。使用三种传统表示方法得到的结果无显著差异。FFNN的最佳结果通常是使用' SA-BiLSTM '获得的:这是对' SR-ARE ', ' SR-MMP '和' SR-ATAD5 '数据集观察到的。对于数据集“HIV”,“ECFP”获得了最好的FFNN结果,显示出对所有学习嵌入的显著差异,而“Mol2Vec_300”对数据集“PCBA-686978”获得了最好的FFNN结果。这些表现出:在所有情况下,这些结果都明显优于使用其他学习过的embedding得到的结果,如下图所示

2、回答第二个问题:

确定在分类和回归任务中,有监督分子embedding是否可以超过无监督分子embedding。

使用监督表示SA-BiLSTM得到的结果普遍显著优于使用无监督embedding得到的结果。可以得出这样的结论: 总的来说,学习分子embedding并没有远远超过传统分子表示所得到的结果。而且,大多数无监督嵌入方法与传统分子表示的结果不匹配。

 

在无监督嵌入技术中,“Mol2Vec”产生了最好的结果,通常表现明显优于使用“SMILESVec”或“Seq2Seq”获得的结果。这可能与SMILES公式的预处理步骤有关,该步骤基于计算“ECFP”指纹的算法,与其他两种技术中应用于SMILES公式的简单标记步骤相反。

然而,这样的结果并不是决定性的,因为它们要么没有得到任何显著性检验的支持,要么没有对超参数进行合理调优的系统比较。结果证明了对分子embedding技术进行彻底和仔细的实验比较的重要性,以及学习表示在QSAR建模中的潜在作用。

虽然传统的表示是按照标准算法计算的,每次只观察一个分子,但学习嵌入可以从大量的化合物集合中计算,这可能会产生更丰富的表示,适合于分子相似性分析。此外,自注意等技术可能为分子子结构搜索、分子对接或将分子子结构与生物活性图谱连接等任务提供良好的embedding。

论文中提出的各种方法虽然大量细致的工作证明传统表征要molecular embedding好,但是模型都是老模型,在smiles embedding或者graph中目前已经大幅超过传统表征(eg:MoleculeNet上)。因此......

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp组件传值的方法(父传子,子传父,对象传值)案例

文章目录前言父组件给子组件传值子组件给父组件传值父组件给父组件传对象值前言 最近看到uniapp组件传值的方法,这里记录一下,学过vue的应该都觉得很简单,传值的方法基本与vue的写法差不多 父组件给子组件传值 创建子组件comp.vue&#xf…

DDT+yaml实现数据驱动接口自动化

前言 在之前的文章中我们知道了yaml文件可以进行接口自动化。除了yaml文件,Excel文档也可以用来编写自动化测试用例。 一定很想知道这两者有什么区别吧? 1、Excel使用简单,维护难,多种数据类型转换起来比较复杂 2、yaml学习稍…

AVS3中的intra string copy(ISC)

AVS3是AVS系列的最新标准,其中新增了一些SCC工具,intra string copy(ISC)就是其中之一。下图1是AVS3的编码框架,其中橙色部分是ISC,可见ISC分为两个子模式FPSP和EUSP。 图1 AVS3编码框架 ISP是AVS3中新增的技术,它作用…

科技对金融业的告白信,有百融云创的落款

“当一家龙头企业失去了创新能力,或者其科技升级到达天花板之后,便会成为巴菲特老爷子的潜在重仓股选项。”这是笔者在近日巴菲特买进价值超过41亿美元的台积电ADR新闻之下,刷到的一条评论。 没错,当摩尔定律放缓,晶圆…

Linux之 rsyslog、日志轮转

1.rsyslog 1.1rsyslog介绍 Rsyslog的全称是 rocket-fast system for log,它提供了高性能,高安全功能和模块化设计。rsyslog能够接受从各种各样的来源,将其输入,输出的结果到不同的目的地。rsyslog可以提供超过每秒一百万条消息给…

如何做项目的权限控制?

(1)项目背景和问题 现有一个后台管理系统,共存在三种类型的人员: 普通用户:拥有查看、审核和下架商品的权限 管理员:普通用户权限 修改、删除商品的权限 超级管理员:管理员权限 添加、删除用户…

基于多领导者智能体的Olfati算法matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 人们通过群体行为的研究可以揭示群体智能的产生,群体智能是自组织的过程,将简单的个体通过交互作用或协作表现出来整体智能行为的特性称为“群体智能”。 “群体智能”应…

win10系统怎样分区,win10固态硬盘怎么分区

Windows10简称win10,是微软公司研发的跨平台操作系统,应用于计算机和平板电脑等设备。许多用户在购买一台新电脑后,开机后发现:电脑只有一个C盘,且C盘存储空间很大,为了更加合理地使用磁盘分区,…

Linux文件搜索命令find、which和whereis应用

记录:349 场景:在CentOS 7.9操作系统上,使用find命令在指定目录搜索文件,支持精确搜索和模糊搜索;使用which命令搜索一个命令所在的目录和别名信息。使用whereis命令搜索命令所在的目录和man帮助手册等相关的文件路径…

NR CSI(四) PMI

微信同步更新欢迎关注同名modem协议笔记 如38.214 5.1.1.1中所述,NR PDSCH 38214只有一种传输模式Transmission scheme 1,gNB将data(di)和DMRS一同预编码,之后通过无线信道,发送给UE,如下图。DMRS是用于信道估计,服务…

一键获取主图设计模板的工具平台

想设计一个好看又简介的电商商品模板?不懂如何设计排版电商商品主图?今天小编分享给你这个主图设计工具和设计教程,乔拓云不仅能快速上手设计,还有海量的主图设计素材能直接使用!只需要跟着小编下面的工具使用教程&…

C语言IO操作fread/fwrite/fflush

参考 1 2 IO操作 fread/fwrite/fflush: c语言标准规定的io流操作,建立在read/write/fsync之上;在用户层, 又增加了一层缓冲机制,用于减少内核调用次数,但是增加了一次内存拷贝; read/write/…

[附源码]SSM计算机毕业设计学生量化考核管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

mysql相关基础知识篇(五)

1.MySQL 事务的四大特性说一下? 原子性:事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行。一致性:指在事务开始之前和事务结束以后,数据不会被破坏,假如 A 账户…

maven的pom.xml文件爆红,并且刷新maven无法下载依赖的解决方案

平时使用idea时,对于新手有时候会遇到一些比较尴尬的事情——依赖无法下载 分析一下,maven依赖无法下载有以下原因 (1)maven在项目中是否安装且环境变量是否配置成功 (2)maven依赖下载慢,考虑是…

Dubbo3入门实践,SpringBoot+Dubbo+Nacos+DubboAdmin

前言 学习Dubbo的过程中发现官网文章太过简单,而且没有提供完整的项目整合,导致入门门槛比较高,初学者不知从何下手。本文将在SpringBoot的基础上整合Dubbo,注册中心使用当下流行的Nacos,还将使用Dubbo-Admin来管理服务…

RationalDMIS 2020 叶片检测 -快速定义叶片截面线方法

1.快速定义叶片截面线方法 用多平面切割叶片CAD定义曲线的方法,用来快速定义叶片截面曲线;自定义多个平面,使用这些平面切割CAD,生成多个叶片曲线(BladeCurve):再将生成的叶片曲线(BladeCurve)自动打断为两个子曲线(Curve);上述所有生成的曲线(Curve)都会添加到元…

[附源码]Python计算机毕业设计Django常见Web漏洞对应POC应用系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

使用 Rainbond 搭建本地开发环境

在开发之前,你需要在本地安装各种开发工具和服务,比如:Mysql、Redis、Nacos 等等,我们都知道在个人电脑上安装这些服务相当的繁琐,可能会遇到很多问题,环境问题、依赖问题等等。 在需要团队协作业务联调的…

第十三章《集合》第5节:Map集合

List、Set和Queue都是Collection接口的子接口,因此从更高层次来说它们属于统一类型的集合。Map接口也代表一种集合,但它不是Collection子接口,因此它属于另一种类型的集合。Map用于保存具有映射关系的数据。映射关系的数据分为两部分,就好比电话本一样,如图13-20所示。 图…