Bioinformatics2019 | FP2VEC+:基于新分子特征的分子性质预测

news2024/11/15 14:05:42

论文标题:FP2VEC:a new molecular featurizer for learning molecular properties

代码: GitHub - wsjeon92/FP2VEC

预测化合物性质最成功的方法之一是定量结构-活性关系(QSAR)方法。

Mol2vec使用分子子结构表将分子结构表示为类似于分子指纹向量的向量表示。SMILES2VEC模型引入了从SMILES表示到embedding向量的直接转换。

引入了一种新的分子特征FP2VEC,它将化合物表示为一组可训练的embedding向量。这项工作的动机是化合物和自然语言之间存在明显的类比

一、模型方法

使用CNN架构构建了一个QSAR模型。采用了一个简单的CNN架构,该架构已经成功地用于NLP分类任务,如句子分类

1、Benchmark featurizers and datasets

MoleculeNet(Tox21, HIV, BBBP and SIDER + Malaria, CEP, ESOL, FreeSolv and Lipophilicity)

2、Featurizer and QSAR model

Fingerprint embedding featurizer

一种化合物可以表示为一组分子子结构(分子指纹),每个子结构表示为一个向量(指纹嵌入向量),假设一个化合物可以由一组指纹embedding向量表示,就像文本可以由一组word embedding向量表示一样。

首先从化合物的smiles表示中提取分子的子结构,即 使用RDKit生成半径为2的1024位Morgan(或圆形)指纹。已经尝试了2048位或全尺寸(“展开”)指纹,但发现指纹向量的大小不影响模型的性能。之后,我们收集指纹索引,在指纹向量中标记为“1”。然后将分子结构的特征表示为一个整数列表,其中每个整数代表一个特定的分子子结构。这些整数类似于文本的单词索引。

接下来构建查找表(Lookup table),将每个整数索引表示为有限大小的向量(嵌入大小)。查找表是一个二维矩阵,其大小是bit size乘以embedding size。查找表的每一行都提供一个唯一的嵌入向量,对应于Morgan指纹的每个整数。在初始状态下,查找表使用随机值初始化。通过训练过程,对查找表的值进行微调,以最大限度地实现训练的特定目标。

通过这个过程,得到了特定任务的化合物向量表示,称为指纹embedding矩阵。这个特定于任务的查找表可以提供比传统圆形指纹本身更有用的信息。

Structure of the QSAR model using a simple CNN architecture

Multi-task learning

在Tox21和SIDER数据集中,一个化合物与多个目标相关联。在这种情况下,多任务学习模型比单任务学习模型显示出更好的预测效果。在单任务学习的情况下,每个目标都有单独的CNN模型。例如,对于tox21数据集,针对12个不同的目标有12个单独的CNN模型。因此,每个CNN模型都由不同的输入数据训练。然而,对于多任务学习,所有12个目标只有一个CNN模型(图3)。在多任务学习方案中,12个不同的目标共享CNN模型体系结构的参数。通过共享参数,CNN模型可以捕获目标化合物的一般特征。

每个目标的分离的完全连接层然后学习每个目标化合物的特定特征。同时使用单一CNN模型和分离的全连接层,多任务学习模型可以提高预测精度

二、Results and discussion

特别注意的是(证明了一点:分子指纹不适合单独作为分子性质预测的输入):

圆形指纹模型的预测结果比FP2VEC的预测结果差很多。圆形指纹向量稀疏;因此,小窗口的卷积滤波器不能适当地捕捉分子特征。当窗口大小为11时,预测精度略有提高(ROC-AUC评分为0.624)。大于11的窗口大小没有显著差异。这些结果清楚地表明,与原始圆形指纹相比,FP2VEC特征器提高了QSAR任务中的预测性能。

很新颖,把分子指纹的index映射为一个learnable table。虽然是19年的论文,思想、网络也很简单,但是工作扎实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32632.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

甘露糖-聚乙二醇-CY5 Cy5-PEG-mannose

甘露糖-聚乙二醇-CY5 Cy5-PEG-mannose 中文名称:甘露糖-菁染料CY5 英文名称:mannose-Cyanine5 别称:CY5标记甘露糖,CY5-甘露糖 存储条件:-20C,避光,避湿 外观:固体或粘性液体,取…

设计模式之美——实战MVC的意义

对于一个工程师来说,如果要追求长远发展,你就不能一直只把自己放在执行者的角色,不能只是一个代码实现者,你还要有独立负责一个系统的能力,能端到端(end to end)开发一个完整的系统。这其中的工…

《机械工程基础》复习题

一、填空题: 1. 构件由于受力不同,会产生不同的变形。基本形式有以下五种:1. 弯曲 ;2. 扭转 ; 3. 剪切 ;4. 轴向拉伸 ;5. 轴向压缩 。 2. 在机器中,运动的基本单元称之为__机构_ ___…

ip-guard安全网关问题集锦一

1、忘记安全网关Web管理界面的登录密码如何处理? 重置安全网关Web管理界面的登录密码操作如下: 1、把网线连接电脑和网管的emp端口。 2、修改电脑的Ip为190.190.190.x,子网掩码:255.255.0.0。 3、电脑上访问http://190.190.190.1…

Django Web框架的使用

1.前言 Django是基于Python的重量级开源Web框架。Django拥有高度定制的ORM和大量的API,简单灵活的视图编写、优雅的url、适用于快速开发的模板以及强大的管理后台。 Django简介可以查看菜鸟教程 Django 简介 | 菜鸟教程 2.使用pip安装Django 当我们更换镜像源进…

Windows更新NVIDIA显卡驱动

笔记本显卡联想拯救者Y70001050Ti 1、首先进入GeForce官网,选择顶部的驱动程序。 2、拉到下面手动搜素驱动程序,有以下6个筛选条件。 3、我的显卡是GTX 1050Ti,所以选择的配置情况如下。这里注意下产品系列选择的一定要是带(NoteB…

一款可以协助排查视频是否乱序的软件:BitRecoverFree JPEG Viewer

笔者在做某个嵌入式linux视频项目的过程中,遇到的需求如下:同事在解码进程中将h264解码为RGB数据,发送给Qt进程,我在Qt进程中通过RPC接收RGB图片数据(至于为啥不是接收压缩后的h264数据,这是历史遗留问题&a…

虾皮、Lazada怎么选爆款?测评有哪些方法?

对于一个店铺来说,想要让自己店铺获得更多的流量推广,那么打造出爆款是非常重要的,虾皮、Lazada作为跨境平台也是同样如此,下面就来介绍虾皮、Lazada怎么去选爆款? 1、跟卖 以Shopee、Lazada平台选品,直接“抄”同行…

JavaScript开发工具WebStorm入门教程:开始运行WebStorm(一)

WebStorm是一个JavaScript开发工具,用于JavaScript及其相关技术编码,包括TypeScript、React、Vue、Angular、Node.js、HTML和样式表。就像IntelliJ IDEA和其他JetBrains ide一样,WebStorm让您的开发体验更愉快,自动化日常工作&…

SpringBoot集成Spring Data JPA项目实操

《从零打造项目》系列文章 工具 比MyBatis Generator更强大的代码生成器 ORM框架选型 SpringBoot项目基础设施搭建 SpringBoot集成Mybatis项目实操 SpringBoot集成MybatisPlus项目实操 SpringBoot集成Spring Data JPA项目实操 前言 该说的在《SpringBoot集成Mybatis项目实…

HikariCP源码阅读笔记

加入HikariCP的maven依赖 <dependency><groupId>com.zaxxer</groupId><artifactId>HikariCP</artifactId><version>4.0.3</version> </dependency> <dependency><groupId>mysql</groupId><artifactId&g…

[附源码]java毕业设计疫情背景下社区公共卫生服务系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

10月BIOTREE协助发表文章再创新高,最高影响因子31.373

10月&#xff0c;BIOTREE在代谢组学、蛋白质组学、多组学方向共收录24篇客户文章&#xff0c;总影响因子&#xff1a;183.749&#xff0c;最高影响因子&#xff1a;31.373&#xff0c;IF>5分有19篇&#xff0c;发表杂志有Cell Metabolism、Clinical Immunology、Cell and Bi…

web网页设计期末课程大作业 HTML+CSS+JavaScript重庆火锅(代码质量好)

&#x1f380; 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

5、设计模式之工厂模式

工厂模式5.1 案例引入5.2简单工厂模式5.2.1 简单工厂模式结构5.2.2 实现5.2.3 优缺点分析5.3 工厂方法模式5.3.1 工厂方法模式结构5.3.2 新需求5.3.3 思路5.3.4 实现5.3.5 优缺点分析5.4 抽象工厂5.4.1 介绍5.4.2 结构5.4.3 实现5.4.4 使用场景5.5 工厂配置文件实现解耦相关文章…

【Vue】pc和移动端网页样式适配

在下面环节会讲解怎么做pc和移动端网页样式适配。 在当下有两种实现样式适配的&#xff1a;JS 适配方案和CSS 媒体查询适配。下面会具体讲解一下代码该怎么写。 &#x1f64f; 希望该文章能帮助到你。 1. JS 适配方案 比如在src/router/index.vue文件中有一个统一的Layout组件包…

《机器学习实战》9.树回归

目录 树回归 1 复杂数据的局部性建模 2 连续和离散型特征的树的构建 3 将CART算法用于回归 3.1 构建树 3.2 运行代码 4 树剪枝 4.1 预剪枝 4.2 后剪枝 5 模型树 6 示例&#xff1a;树回归与标准回归的比较 7 使用python的Tkinter库创建GUI 7.1 用Tkinter创建GUI …

UG旋钮盖模具设计与加工

文章目录三维造型设计创建草图旋转拉伸拉伸求差圆周阵列倒圆抽壳二板模模具设计分型面初始化项目定义模具坐标定义成形镶件定义一模四腔的布局创建型芯和型腔检测区域创建区域和分型线创建分型面创建型芯和型腔加载模架创建模架添加标准件添加定位圈添加浇口套添加旋钮盖顶杆修…

【JavaScript】浏览器调试控制台console的功能有了解多少

在我们学会JavaScript编程以后&#xff0c;编程调试通常使用console.log() &#xff0c;那有没有想过&#xff0c;console除了log&#xff0c;还有很多是没有用到的&#xff0c;久而久之&#xff0c;就忘记了怎么用&#xff0c;接下来熟悉一下&#xff0c;温故而知新&#xff0…

网页大作业代码自取

&#x1f468;‍&#x1f393;静态网站的编写主要是用HTML DIVCSS JS等来完成页面的排版设计&#x1f469;‍&#x1f393;,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode 、Webstorm、Animate等等&#xff0c;用的最多的还是DW&#xff0c;当然不同软件写出的…