论文解读:ExamPle:用于预测植物小分泌肽的可解释的深度学习框架

news2024/11/26 15:49:09

ExamPle: explainable deep learning framework for the prediction of plant small secreted peptides

期刊:Bioinformatics

影响因子:6.931

中科院分区:小类数学与计算生物2区

出版日期:2023年3月10日

Github:https://github.com/Johnsunnn/ExamPle


摘要

植物小分泌肽(SSPs)在植物生长发育和植物与微生物相互作用中起着重要作用。在过去的几十年里,基于机器学习的方法得到了发展,然而,现有方法高度依赖手工特征工程,容易忽略潜在的特征表示,影响预测性能。

 在这里,我们提出了一个新的深度学习模型,使用Siamese网络(Siamese network)和多视图表示(multi-view representation)来预测植物ssps的可解释性。基准比较结果表明,我们的示例在植物ssps预测方面的性能明显优于现有方法。同时,我们的模型也表现出了出色的特征提取能力。重要的是,通过利用硅诱变(silico mutagenesis)实验,ExamPle可以发现序列特征并确定每个氨基酸对预测的贡献。我们的模型学到的关键新原理是肽的头部区域和一些特定的序列模式与ssps的功能密切相关。因此,该方法有望成为预测植物ssps和设计有效植物ssps的有效工具。

数据集

植物SSPs数据集:我们从MtSSPdb (Boschiero et al . 2020)中收集植物ssps数据集的阳性样本。MtSSPdb是一个综合性的数据库,包含在模式豆科植物紫花苜蓿中发现的植物ssp。在阴性样本中,我们发现了两个非分泌肽家族CYSTM和DVL (Butenko et al . 2009;Xu et al . 2018);之后,我们搜索非ssp序列并从Pfam数据库下载,该数据库是一个蛋白质家族的大型集合(Mistry et al 2021)。之后,我们使用CD-Hit (Li和Godzik, 2006)将数据集中序列的相似性降低到20%。此外,正负样本平衡的数据集通常有利于深度学习模型的训练过程。因此,我们从两个数据库中获取相同数量的阳性和阴性样本。按照上述步骤,我们得到了植物ssp数据集,包括1184个植物分泌肽和1184个植物非分泌肽。将数据集按80%和20%的比例分别划分为训练和测试数据集。

肽二级结构:在本研究中,我们使用PHAT web界面生成肽二级结构。PHAT由Jiang等人(2023)提出。PHAT是一种用于预测肽二级结构的新型深度学习框架。PHAT利用强大的预训练蛋白语言模型和一种新型的超图多头注意网络,不仅可以将语义知识从大尺度蛋白质转移到多肽,学习多肽残基的高潜伏和长期特征,还可以对多肽残基进行多语义二级结构信息编码,同时利用多层次注意机制捕获连续区域的上下文特征。此外,PHAT具有交互式、无代码和非编程的web界面。我们使用PHAT web界面获取预测的肽的3态二级结构,然后将3态二级结构信息添加到植物ssp数据集中。

方法

框架概述

本文提出了一种基于两个Transformer和两个Bi-GRU结构和Siamese网络的预测框架,该框架融合了多肽序列和二级结构信息来预测植物ssps。我们的框架架构如图1所示,包括B(i)对比学习和基于变压器的双暹罗网络和B(ii)特征融合和分类。

首先,在B(i)中,我们将植物ssp序列及其二级结构输入到基于双变压器的Siamese网络模型中进行特征嵌入。具体来说,每个基于Transformer的Siamese网络包括Transformer编码器、Bi-GRU(双向门循环单元)、全连接神经网络(FNN)和对比模块。两个Transformer模型不共享权重。变压器编码器用于生成ssp序列和二级结构的上下文敏感特征表示。然后,利用Bi-GRU捕获具有长距离信息的特征表示。随后,使用FNN嵌入特征以生成统一的表示。

然后,我们可以得到两个ssp特征表示之间的距离。对比模块计算对比损失,利用对比损失减小相同标签的表示向量之间的距离,增大不同标签的表示向量之间的距离。其次,在B(ii)中,我们融合了从B(i)中学习到的序列和二级结构特征。随后,我们使用FNN作为鉴别器。根据鉴别器给出的预测分数,该模型可以判断给定肽是否属于植物ssp。如果预测分数大于0.5,则属于植物ssp。

 Transformer

Transformer由Vaswani等人(2017)提出,最初应用于机器翻译任务,并已成为大量自然语言处理(NLP)任务中最先进的模型。与之前基于蛋白质能量的方法相比(Mrozek et al 2007;2009;Malysiak-Mrozek and Mrozek 2011), AlphaFold通过使用Transformer (Jumper et al 2021)取得了巨大的成功。因此,在这项工作中,我们采用Transformer作为模型的主干。在模型的Transformer部分,我们使用Transformer的原始版本。变压器由编码模块和解码模块组成。编码模块由一系列编码器组成,用于提取输入的特征。此外,解码模块由一系列用于生成表示的解码器组成。在这里,我们只使用Transformer编码器提取特征。变压器编码器层如图所示

GRU

门控循环单元(GRU)由Cho等人(2014)提出。它旨在使每个循环单元自适应地捕获不同时间尺度的依赖关系。与长短期记忆(LSTM)相比,GRU的架构得到了简化(Hochreiter and Schmidhuber 1997),同时保持了与LSTM相同的有效性。GRU具有门控单元,可以像LSTM单元一样调节单元内的信息流,但没有单独的存储单元。LSTM单元的三个基本组成部分——输入门、遗忘门和输出门在GRU中被转换成两个门:

 Siamese network and contrastive module

暹罗网络可以用来量化两个序列的相似性。例如,为了寻找匹配和不匹配的图像对,Melekhov等人(2016)使用Siamese网络架构中的对比损失函数,利用卷积神经网络从匹配和不匹配图像对的标记示例中学习得到特征向量。Li和Zhang(2019)提出了一种名为SiamVGG的连体网络,该网络结合了卷积神经网络骨干和相互关联算子,利用示例图像的特征进行更精确的目标跟踪。具体地说,给定两个输入向量v1和v2,它们被输入到相同的模块中。网络将输入映射到相同的特征空间。然后,网络使用距离测量函数计算两个输入的相似度,记为d - v1;v2Þ。这里,我们使用欧几里得距离d / v1;v2Þ:

结果

ExamPle with other methods

为了评估ExamPle的性能,我们采用了几种经典的比较模型,包括朴素贝叶斯(Rish 2001)、逻辑回归(Hosmer et al . 2013)、支持向量机(SVM) (Cortes and Vapnik 1995)、随机森林(Breiman 2001)、深度神经网络(DNN) (Montavon et al . 2018)和标准Transformer,考虑到之前的工作中缺乏直接预测ssp的方法。为了公平比较,我们使用训练集进行模型训练,并在相同设置的独立数据集中评估这些模型。为了更好地再现对比实验,DNN和Transformer的架构由DeepBIO (Wang et al 2022)服务器实现。如图2所示,ExamPle在ACC、SE、SP和MCC指标方面优于所有比较模型。例如,ExamPle的ACC性能比Transformer提高了3.65%,比Random Forest提高了11.99%;MCC的性能比DNN提高了10.91%,比SVM提高了56.35%。总之,这些结果表明,ExamPle有效预测植物ssp的能力优于大多数机器学习和深度学习方法。

 ExamPle特征与其他特征的比较

为了验证通过示例学习的特征表示的有效性,我们将不同的手工特征方法与我们的模型进行了性能比较。在iLearnPlus (Chen et al . 2018,2020,2021)的帮助下,我们选择了5种特征编码方法,包括氨基酸组成(AAC) (Spackman et al . 1958)、CTD组成(CTDC)、CTD分布(CTDD)、CTD过渡(CTDT) (Dubchak et al .)1999)和联合三位一体(CTriad) (Shen et al . 2007)。这些手工特征编码的详细信息可在补充表S1中找到。然后,我们分别将五种手工特征编码方法输入到模型的分类层中进行训练和测试。如图3所示,CTriad编码方法在ACC上达到94.67%,CTDC编码方法达到78.86%。然而,由ExamPle嵌入的表示优于所有其他手工制作的特征编码方法。特别是在MCC性能方面,我们的模型比CTDC高37.57%,比CTDT高24.28%。为了进一步验证示例的性能,我们可视化了五种手工特征编码方法嵌入的特征表示以及使用降维的模型。如图3(D-I)所示,我们可以更直观地看到,我们的模型编码的表征比其他任何五种手工制作的特征表征都能更好地分类。综上所述,与其他手工特征编码方法相比,我们的模型具有良好的适应性和鲁棒性,可以学习到更强大的特征表示。

 可视化

在训练过程中,深度学习模型是如何工作的尚不清楚。为了更透明地理解,我们使用主成分分析(Abdi and Williams 2010)和t分布随机邻居嵌入(t-SNE) (Van der Maaten and Hinton 2008)将模型的潜在空间减少到二维空间,以验证ExamPle的效率。如图4所示,在训练过程开始时,阴性样本和阳性样本混合在一起。随后,随着训练迭代次数的增加,样本逐渐分为两组,表明我们的模型通过反向传播优化可以学习到足够的信息。

 分析

鉴于我们的复杂神经网络架构的优异性能,我们的目标是从计算的角度进一步探索植物ssp的序列特征。为此,我们对数据集中的每个肽进行了硅诱变(ISM)解释方法,并将一个肽的每个参考氨基酸突变为其他19个替代氨基酸,以评估预测的概率变化。此外,我们在图5A和B中分别对ssp数据集和非ssp数据集上的每个位置进行了氨基酸统计概率,作为我们分析的参考。

在这里,我们选择一个59-bp的序列作为样本,生成如图5C所示的热图,其中正值表示该序列被某个氨基酸取代后预测得分较高,负值表示预测得分较低。这张热图很容易显示出氨基酸Q(谷氨酰胺)和P(脯氨酸)对预测分数有显著的抑制作用。具体来说,在10 ~ 16位,当氨基酸发生Q或P突变时,预测分数显著降低。这可能是因为Q和P在非ssp中频繁出现,而在ssp中出现的频率较低,如图5A和b所示。因此,当识别序列中的Q和P时,模型倾向于将序列视为非ssp。特别是,C (l -半胱氨酸)经常出现在非ssp的尾部。图5C的观察结果表明,氨基酸C显著降低了尾部区域的预测分数。此外,氨基酸I (L -异亮氨酸)、L(亮氨酸)和F(苯丙氨酸)在序列的大部分位置对预测分数有促进作用。可能的原因是,如图5A所示,I、L、F在ssp序列中出现频率较高,而在非ssp序列中出现频率较低。在识别序列中的I、L和F时,模型倾向于将序列视为ssp。

然后,为了使结果更具统计意义,我们计算了每个氨基酸对整个数据集的贡献。对于ssp和非ssp的每个肽,我们通过累积ISM结果中的每个位置评分来计算氨基酸评分。具体来说,我们可以将图5C中一行的得分相加,得到20个值,每个值代表这个59- bp长度序列中20个氨基酸的贡献得分。根据每个肽的氨基酸贡献得分,我们将它们相加,分别估算出对SSP和非SSP的综合氨基酸贡献得分。

不同氨基酸在ssp数据集和非ssp数据集中的贡献结果如图5D所示。此外,我们利用氨基酸组成(AAC)作为统计分析参考。从图5D可以看出,对于绝大多数氨基酸,每种氨基酸在ssp或非ssp中对预测评分的相对贡献与该氨基酸在ssp或非ssp中的相对AAC是一致的。简而言之,对于特定的氨基酸,如果它在ssp数据集中的AAC高于非ssp,则对预测分数的贡献可能在ssp中高于非ssp。此外,我们可以看到ssp中氨基酸G(甘氨酸)的AAC小于非ssp,但我们的模型认为G在ssp中对预测得分的贡献更大,表明我们的模型可以挖掘传统统计方法无法计算的特征。综上所述,这些实验表明我们的模型可以挖掘出ssp的序列特征。

 功能与序列区域之间的联系

接下来,我们试图了解功能影响与序列区域之间的联系。为此,无论一个位置的积极或消极影响,我们使用从ISM实验中减去的绝对值作为重要性分数来评估上下文区域如何影响植物ssp的功能。为了将所有的序列统一成一个固定的长度,我们将序列分成50个部分。在这里,每个部分被称为一个位置比率。

 在图6A中,我们给出了整个数据集中氨基酸与位置比的完整相关图。颜色越深,重要性得分越高。例如,氨基酸M(蛋氨酸)对中心区域的功能影响更大,而氨基酸C(半胱氨酸)对尾部区域的功能影响更大,这都是肽设计中值得注意的有意义的点。接下来,为了进一步直观地说明哪个区域更重要,我们将数据集中的每个肽分成25个部分,并累积氨基酸得分,得到该位置的综合得分。从图6B中可以明显看出,头部区域的重要分数呈上升趋势,中部区域的重要分数呈缓慢下降趋势。在位置比率1和3之间,重要性得分的中位数是位置比率9后面的中位数的两倍。

 为了更好地验证图6B中的现象,我们进行了一个裁剪实验,分别从正向和反向对序列进行裁剪,并将裁剪后的序列输入到模型中,考察裁剪后的序列是否能保持原有的功能。从图6C可以看出,后向削波性能非常稳健,在削波比增加到0.5之前,精度一直保持在0.9以上。然而,一旦裁剪操作开始,前向裁剪的度量迅速下降,当裁剪比超过0.7时,整个数据集的ACC甚至低于0.5。有趣的是,衡量阴性情况准确性的度量SP在裁剪开始时保持相同的水平,这足以证明阴性序列不依赖于头部区域,而可能与中心区域相关。

 在我们利用重要性分数直观地找到哪个区域对肽函数是重要的之后,从计算的角度来探索这个区域的基序是很自然的。在图6D中,我们根据重要分数发现了一个基本基序,并将其与传统工具streme搜索的基序进行了比较(Bailey 2021)。可以看到,我们学到的母题(用灰色窗口突出显示)与STREME的母题非常相似。然后,我们利用TOMTOM (Bailey et al . 2009)对Pvalue测量的基序相似度进行定量计算。p值越低,基序一致性越高。图6D显示,我们选择的基序与STREME的基序高度相似,表明我们的模型可以发现保守的序列模式。综上所述,这些实验结果表明,我们的模型ExamPle有潜力成为序列模式发现的新工具,并可能为稳定有效的植物ssp设计铺平道路。

结论

在这项研究中,我们提出了一个新的可解释的对比混合视图双暹罗框架例子,用于预测植物ssp和发现ssp的序列模式。实验结果表明,具有二级结构信息的Siamese框架能够学习到判别特征信息,有效地提高了模型对植物ssp预测的性能。此外,通过采用降维方法,潜在空间的可视化清晰地显示了我们的模型具有很强的学习能力,优于传统的手工特征工程。利用ISM解释方法,ExamPle可以发现序列特征,确定各氨基酸的贡献函数,与统计结果基本一致。此外,通过积累变异序列和原始序列之间的功能差异,我们的模型学到的关键新原理是肽中的头部区域和一些特定的序列模式与SSP功能密切相关。因此,我们训练良好的模型ExamPle不仅可以提供植物ssp的预测,而且可以为有效和稳定的植物ssp设计铺平道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/643566.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Seata客户端的启动过程 学习记录

Seata客户端的启动过程 1.自动装配4个配置类 将在SpringBoot启动时往容器中添加4个类 1. 自动配置类 SeataAutoConfiguration SeataAutoConfiguration将会往容器中添加两个bean failureHandler 事务处理失败执行器globalTransactionScanner failureHandler failureHandle…

03 表达关系的术语

文章目录 表达关系的术语关联关联的语义表达(6点) 泛化细化(也称为实现)依赖例题 UML 基本关系的一般用法① 模型化简单依赖②模型化单继承③模型化结构关系例题 表达关系的术语 关联 定义:关联是类目之间的结构关系,描述了一组具有相同结构、相同语义…

【MySQL数据库一】MySQL数据库初体验

MySQL数据库初体验 1.数据库基本概念1.1 数据Data1.2 表1.3 数据库1.4 数据库管理系统1.5 数据库系统 2.数据库的发展3.主流的数据库介绍3.1 SQL Server(微软公司产品)3.2 Oracle (甲骨文公司产品)3.3 DB2(IBM公司产品…

安卓高通机型的基带移植 修改 编译的相关 增加信号 支持5G等【二】

安卓高通机型的基带移植 修改 编译的相关 增加信号 支持5G等【一】 前面分享了这篇帖子,很多友友希望更新下新机型的基带替换方法。今天对其中做一些补充说明。由于安卓机型跨版本幅度较大。有的机型从出厂安卓8有可能官方目前已经更新到安卓12 13等等。所以任何的教…

每天五分钟机器学习:如何确定梯度下降中的学习率?

本文重点 学习率是梯度下降算法中的一个重要参数,它控制着每次迭代中参数的更新幅度,因此学习率的大小直接影响着算法的收敛速度和精度。在实际应用中,如何选择合适的学习率是一个非常重要的问题。 手动调整法 最简单的方法是手动调整学习率。我们可以根据经验或者试错的…

sealos 五年磨一剑——云操作系统正式发布

这是计划的一部分 这是一个宏伟的计划,漫长且有趣。。。 2018 年的一个晚上,我写下了 sealos 第一行代码,当时仓库命名 “kubeinit”,后一想格局太小,我不可能只做一个安装 kubernetes 的事,安装只是计划…

不知道测试什么?这些是你需要知道的软件测试类型和常识

有多少软件测试类型呢? 我们作为测试人员了解很多种不同的软件测试类型,例如功能测试(Functional Test)、非功能测试、自动测试、敏捷测试、以及它们的各种子类型. 尽管在我们的测试过程中会接触很多种测试类型, 或者听说过某些测试类型,但是很少人敢说…

小姐姐们,一起学数据分析

💖 亲爱的女生们,听我说!数据分析,给你的未来注入浪漫与激情!💖 嗨,小姐姐们👭, 我想和你们分享一个令人兴奋的话题——数据分析!或许你们会觉…

Liunx系统重修

Liunx中以“树”结构的形式来管理文件和文件夹的!

ISP下载原理分析

STM32的启动方式,系统存储器启动就是通过ISP下载 ISP简介 ISP下载是指可以通过串行外设,直接将程序下载Flash中,然后自动运行程序的启动方式。 ISP的时候需要用到bootloder(自举程序),bootloader存储在STM32内部的自举ROM存储器…

webpack踩坑

因为电脑重新装了系统 所以很多环境都需要配置 1.首先去node.js官网下载了node,node下载后对应的npm版本也会自动下载好 2.想要成功跑通项目,还需要下载webpack 全局安装webpack npm -i webpack -Dnpm install webpack-cli -g但一直在报错 查看webpac…

基于Java毕业生就业信息统计系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

2023互联网Java高级工程师1080道面试题(附答案)分享

Java 面试八股文有必要背吗? 我的回答是:很有必要。你可以讨厌这种模式,但你一定要去背,因为不背你就进不了大厂。现如今,Java 面试的本质就是八股文,把八股文面试题背好,面试才有可能表现好。…

python字符串格式化控制数值经度

python字符串格式化通过占位符拼接演示了字符串格式化拼接的方法 但是大家应该有注意到 我们的 8.70 就变成了 8.700000 那么 我们就需要对浮点数 做一个经度控制 我们先编写如下代码 dom1 110; dom2 1234.1234567; print(dom1) print(dom2)运行结果如下 我们定义了一个整…

【RuoYi-Cloud-Plus】学习笔记 07 - Sentinel(二)Node ProcessorSlotChain 总览与知识整理

文章目录 前言参考目录版本说明学习笔记1、Sentinel 架构图2、Node2.1、入口节点 EntranceNode2.2、链路节点 DefaultNode2.3、簇点 ClusterNode2.4、统计节点 StatisticNode3、Slot Chain3.1、DefaultSlotChainBuilder3.1.1、Slot 排序的实现3.1.2、SPI 文件读取3.2、NodeSele…

Java并发工具之ThreadLocal

一、ThreadLocal 简介 1. ThreadLocal 是什么? ThreadLocal 字面意思是本地线程,其实更准确来说是线程局部变量,线程类 Thread 有个变量叫做 threadLocals,其类型就是ThreadLocal.ThreadLocalMap 类型,他其实不是一个…

回忆童年游戏,完美利用Python制作飞机大战(爷青回~)

名字:阿玥的小东东 学习:python、C/C 博客链接:阿玥的小东东的博客_CSDN博客-python&&c高级知识,过年必备,C/C知识讲解领域博主 目录 pygame包的安装 添加python环境变量 创建飞机大战窗口 飞机照片 将变量及函数抽取出来 添加多…

LeetCode:31. 下一个排列

31. 下一个排列 1)题目2)思路3)代码4)结果 1)题目 整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。 例如,arr [1,2,3] ,以下这些都可以视作 arr 的排列:[1,2,3]、[1…

Nacos负载均衡策略

文章目录 按权重分配流量负载均衡自定义负载均衡策略 按权重分配流量负载均衡 SpringCloud新版本(2021.x.x)中负载均衡器用LoadBalancer替代了Ribbon,默认只提供了2种负载均衡策略:RandomLoadBalancer 和 RoundRobinLoadBalancer。…

[冷冻电镜]IMOD使用指南

参考教程: Etomo Tuturial for IMOD version 4.11 1. Initial Setup 本教程提供了一个小双轴示例数据集和Etomo的分布指南,更详细的内容参考Tomography Guide。该版本使用1k*1k的图像而不是压缩版本。imodhelp命令可以打开帮助界面,查看各种…