论文解读:DELPHI:用于蛋白质相互作用位点预测的精确深度集成模型

news2024/9/22 19:42:39

期刊:  Briefings in Bioinformatics

出版日期 2022-11-22

websever:https://iasri-sg.icar.gov.in/pldbpred/

网址: PlDBPred: a novel computational model for discovery of DNA binding proteins in plants | Briefings in Bioinformatics | Oxford Academic

摘要

DNA结合蛋白(DBPs)在许多细胞过程中发挥着至关重要的作用,包括核苷酸识别、转录控制和基因表达调控。大多数现有的用于识别DBP的计算技术主要适用于人类和小鼠数据集。尽管一些模型已经在拟南芥上进行了测试,但当应用于其他植物物种时,它们的准确性很差。因此,开发一种有效的计算模型来预测植物DBP是当务之急。在这项研究中,我们开发了一个用于植物特定DBP识别的综合计算模型。五个浅层学习和六个深度学习模型最初用于预测,其中浅层学习方法优于深度学习算法。特别是,支持向量机实现了最高的重复5倍交叉验证准确率,受试者工作特征曲线下面积(AUC-ROC)为94.0%,精密度-召回曲线下面积为93.5%。在独立数据集的情况下,所开发的方法获得了93.8%的AUC-ROC和94.6%的AUC-PR。与现有技术中使用独立数据集的工具相比,所提出的模型实现了更高的精度。总体结果表明,与现有的植物DBP预测模型相比,所开发的计算模型更有效、更可靠。为了方便大多数实验科学家,开发的预测服务器PlDBPred可在https://iasri-sg.icar.gov.in/pldbpred/.The还提供了源代码https://iasri-sg.icar.gov.in/pldbpred/source_code.php用于使用大型数据集进行预测

数据集

       UniProt数据库[29](于21年6月14日访问)用于编译当前研究的植物DBP(阳性数据集)和非DBP(阴性数据集)序列。用GO术语“DNA结合”(GO:00033677)注释的蛋白质序列被视为DBP序列,而没有注释的蛋白质被视为非DBP序列。对于35种不同的植物,共收集了1812个DBP和2284个非DBP序列。去除了具有非标准氨基酸(B、J、O、U、X和Z)和少于50个氨基酸的蛋白质序列。DBP和非DBP数据集都进行了同源性降低,以消除预测准确性上的同源性偏差。使用CD-HIT方法[30]去除每个数据集中与任何其他序列具有>40%序列同一性的序列。849个DBP和1848个非DBP序列在处理后被保留。为了避免对具有更多观测值的非DBP类的预测偏差,考虑了具有相等数量的DBP和非DBP序列的平衡数据集。换句话说,从1848个非DBP序列中随机选择了849个非DBP-序列。

方法

PSSM衍生进化特征的生成

尽管基于序列的特征已被证明在许多预测任务中是有效的,但许多研究表明,从PSSM[31]剖面中获得的进化特征比基于序列的特性[13,24]提供的信息要多得多。基于PSSM的特征描述符已被用于几种生物信息学应用[32-33]。通过在NCBI非冗余(NR)数据库上运行PSI-BLAST[31](ftp://ftp.ncbi.nih.gov/blast/db/nr),在本研究中获得了每个蛋白质序列的PSSM图谱。PSSM轮廓是一个L×20维矩阵,可以写成

 其中L是蛋白质长度,Pi,j表示氨基酸j在蛋白质序列的位置i处的出现概率。在当前的研究中,考虑了10种不同的基于PSSM的特征,包括PSSMBLOCK、AADP-PSSM、PSSM-DWT、EDPEEDP-MEDP、MBMGAC-PSSM、PSSM400、PSSM-AC、RPSM、SOMAPSSM和DFMCA-PSSM。PSSMCOOL[34]R包用于实现所有功能。在补充文件1中,每个基于PSSM的特征集都进行了简短的描述,并有适当的引用。

利用浅层学习和深度学习算法进行预测

我们使用了五种不同类型的浅层学习方法,如SVM[35]、极限梯度提升(XGB)[36]、RF[37]、自适应提升(ADB)[38]和LogitBoost[39]。除了浅层学习方法外,还使用了深度学习模型的六种变体,如1D卷积神经网络(CNN_1D)[40]、基于注意力的CNN(ABCNN)[41]、递归神经网络(RNN)[42]、双向递归神经网(BRNN)[43]、深度残差神经网络(ResNet)[44]和自动编码器(AE)[45]。R包e1071、randomForest、xgboost、adabag和caTools分别用于实现SVM、RF、XGB、ADB和LogitBoost方法。使用python的PyTorch和TensorFlow模块实现了深度学习模型。用于实现学习模型以及参数配置的软件在补充文件1(补充表1)中提供,并有适当的引用。

特征选择

       通过消除重复和噪声特征,特征选择降低了计算复杂度,同时提高了分类精度[46]。在这项工作中,使用SVM递归特征消除(SVM-RFE)方法选择了重要特征[47]。SVM-RFE方法是一种后向特征消除方法,其中信息量最小的特征在第一次迭代中被消除,最显著的特征在最后一次迭代中消除。确定应保留多少特征进行分析是至关重要的。在当前的研究中,实现选择了最佳分类精度。SVM-RFE方法是使用sigFeature R包实现的。

交叉验证和性能指标

      使用重复的5倍交叉验证方法评估分类模型的性能,其中实验重复100次。为了进行五倍交叉验证[49],将每个DBP和非DBP数据集随机分为五个大小相等的亚组。从每个DBP和非DBP类中随机选择的一个子集被用作交叉验证的每个折叠中的测试集,而来自两个类的其余四个子集被组合作为训练集。分类进行了五次,每次折叠都有单独的训练和测试集。通过对所有五个测试集以及100个复制的准确性进行平均来确定性能指标。补充文件1(补充图S1)中提供了描述所提出方法的所有步骤的f低图。准确度、F-评分、受试者工作特征曲线下面积(AUROC)、精密度-召回曲线(AUC-PR)下面积、灵敏度、特异性、精密度和Matthews相关系数(MCC)被考虑来衡量预测模型的性能[50]。表1中提供了性能指标列表

结果

特征集选择分析

针对10个不同特征集中的每一个,分别评估11种算法中的每一种的预测性能,以分析每个特征集的有效性。此外,50%的数据集用于分析。除了几个显著的例外,SVM、RF、XGB和ADB被发现比深度学习模型表现更好,除了LogitBoost(图1)。

在所检查的深度学习模型中,Auto Encoder的精度最高(图1)。对于特征集AADP-PSSM、PSSM-DWT、MEDP-PSSM、MBMGACPSSM、RPSM、SOMA-PSSM和DFMCA-PSSM,SVM、RF、XGB和ADB的AUC-ROC和AUC-PR≥90%(图1),而PSSMBLOCK、PSSM400和PSSM-MAC的AUC-ROC和AUC-PR<90%(图一)。因此,考虑了七个特征集和四个精度更高的浅层学习算法(SVM、RF、XGB、ADB)进行进一步分析。

特征选择的结果

由于合并了选定的七个特征集,总共有1960个特征。每个特征集都是从PSSM导出的,因此组合的特征集可能包含冗余信息,这可能会降低预测精度。因此,为了选择用于DBP和非DBP分类的非冗余判别特征,应用了SVM-RFE特征选择方法。最后,选择了一个由1890个特征组成的特征集,发现这些特征具有更高的AUC-ROC(94.0%)和AUC-PR(93.5%)值(图2)。

模型选择分析

表2中提供了四种浅层学习方法的性能。尽管四种学习算法的准确性没有太大差异,但SVM的表现比其他三种学习算法要好一些(灵敏度:86.9%,特异性:87.5%,准确度:87.2%,精密度:87.4%,F评分:87.1%,AUC-ROC:94.0%,AUC-PR:93.5%和MCC:73.5%)。

就敏感性而言,XGB的表现优于其他三种学习方法,而SVM的特异性得分最高,其次是RF、ADB和XGB。与RF和ADB相比,XGB在其余六个性能矩阵中表现更好。继SVM之后,发现XGB的总体表现优于RF和ADB模型。

独立测试集结果

在与训练数据集完全不同的独立数据集上进一步评估所提出的模型(用选定特征训练的SVM)。我们从UniProt数据库(于21年11月15日访问)中收集了植物DBP序列,以创建阳性独立集。对于35种不同的植物,共获得1403个DBP序列。在去除具有非标准残基和长度小于50个氨基酸的蛋白质序列后,保留497个DBP序列的非冗余数据集进行分析。在1848个序列的整个负集合中,在消除了用于训练集的849个序列之后,899个序列被用于独立负集合。然而,为了进行公平的预测,考虑了899个随机选择的500个非DBP序列。简而言之,将500个非DBP序列和497个DBP序列组合起来形成独立的数据集。除AUC-ROC和AUC-PR外,SVM的性能指标略高于其他三种学习技术(表3)。就AUROC和AUC-PR而言,XGB(94.1%;94.8%)和RF(94.0%;94.8%)均优于SVM(93.8%;94.6%)(表3)。所有四个模型的总体精度各不显著other相应的5倍交叉验证精度,表明预测精度既没有出现高估也没有出现低估。 

与现有技术比较

还使用我们的独立测试数据集评估了七种现有技术的DBP预测方法的性能:DNAbinder[13]、DPP-PseAAC[17]、StackDPPred[24]、iDRBP_MMC[26]、iDRBP-PCT[23]、PDBP融合[28]和DeepDRBP-2 L[27],该数据集包括497个DBP和500个非DBP。所有考虑的现有模型都已在拟南芥上进行了评估,并声称在其他植物物种中也能达到类似的性能。性能指标如表4所示。在考虑的七种现有方法中,PDBP融合具有最高的总体准确度(75.8%),而IDRBP-PCT具有最高的准确度(91.4%)和F评分(75.2%)。此外,DNAbinder在准确度方面表现最差(51.0%),DPP-PseAAC在准确度(49.8%)和F-评分(52.8%)方面表现最糟。在这个测试数据集上,我们的方法(用选定特征训练的SVM)比现有模型实现了更高的准确度(88.0%)、准确度(92.6%)、F-评分(87.3%)和MCC(76.4%)(表4)。使用我们模型的完整训练数据集,还评估了现有工具的性能,并发现与测试集的精度相似(补充文件1的补充表2)。

 与特定模型相比

Motion等人[51]提出的方法是唯一一种基于植物的DBP预测方法。在这种方法中,通过使用拟南芥的129个DBP和129个非DBP(随机取自1767个非DBPs)进行交叉验证分析。由于分区数据集不可访问,我们使用229个DBP和229个非DBP(随机取自1767个拟南芥的非DBP)进行5倍的交叉验证分析。该实验进一步重复100次,每次使用229个非DBP(1767个非DBPs中)的随机集合以及相同的DBPs集合。所提出的方法(PlDBPred)在准确性方面优于现有方法约4%(表5)。还发现,所提出的方法的MCC比Motion等人[51]开发的方法高出约7%(表5)。在另一种设置中,Motion等人[51]在用拟南芥数据训练模型后,使用其他植物物种的数据集(111个DBP和516个非DBP)作为测试集。按照类似的方法,我们还使用我们训练的模型来预测测试集,并比较准确性。我们观察到PlDBPred的准确性比Motion等人[51]的方法高出约8%(表5)。还发现PlDBPred的MCC远高于现有方法(表5)

讨论

       DBPs的预测对未来的蛋白质组学和基因组学研究具有重要的理论和实践意义[3,54]。由于DBP家族数量众多,DNA特征多样,在蛋白质组中鉴定DBP是一项具有挑战性的工作。已经提出了几种寻找DBP的计算方法。然而,他们中的大多数人专注于人类数据,而只有一小部分人专注于拟南芥。到目前为止,只有一种基于SVM的技术,准确率为74.0%[51],植物研究主要忽略了这一领域。

        在这项研究中,开发了一种名为PlDBPred的计算工具,该工具使用浅层学习,利用进化特征信息从蛋白质序列中预测植物特异性DBP。在人类数据集上先前的DBP预测中,基于PSSM的进化特征已成功与其他基于序列的特征相结合[13,24]。因此,在当前的研究中,我们考虑了从PSSM矩阵中获得的进化特征。当存在冗余或不相关的特征时,预测准确性会受到影响。因此,我们使用SVM-RFE[55]来确定DBP和非DBP最准确分类的理想特征集。深度学习和浅层学习算法最初都用于预测模型。浅层学习模型的表现优于深度学习模型。因此,只有浅层学习方法用于最终预测分析,该分析使用重复的5倍交叉验证方法进行。SVM的性能略高于其他浅层学习技术(RF、XGB、ADB)。还使用独立的测试数据集评估了所提出的计算方法(具有选定特征的SVM)用于识别植物特定DBP的性能,以确认其稳健性。研究发现,独立数据集的总体准确性与交叉验证的准确性相似。这表明准确性并没有被高估或低估。为了进一步评估所开发模型的可靠性,我们使用独立测试数据集将PlDBPred的性能与其他七种最先进的方法进行了比较。我们发现,我们的方法在准确性方面优于比较模型。用植物测试数据集对现有模型的评估只是为了强调,尽管对人类和小鼠等其他真核生物物种产生了更高的准确性,但现有工具在预测植物特异性DBP方面并不那么有效。已知DBP对每个王国都具有高度特异性,高达47%的DNA结合转录因子属于谱系特异性家族[56]。然而,现有的模型是基于来自广泛的真核生物和原核物种的蛋白质序列开发的,导致了更通用的模型,该模型未能捕捉谱系特异性DNA结合蛋白的变异。换句话说,现有的DBP预测模型无法捕捉植物的谱系特异性蛋白质家族,导致准确性差。除了AADP-PSSM特征描述符外,本研究中使用的其余六个特征描述符(PSSM-DWT、MEDPPSSM、MBMGAC-PSSM、RPSM、SOMA-PSSM和DFMCA-PSSM)都没有在早期的DBP识别模型中进行过探索,这可能是所提出方法具有更高精度的可能原因之一。

        此外,将所提出的模型的有效性与Motion等人[51]提出的唯一植物特定DBP预测模型进行了比较。除了测试数据集,我们还使用Motion等人[51]提供的训练数据集来比较我们模型的性能。所提出的模型在训练集和测试集方面都优于Motion等人[51]提出的模型,实现了更高的准确性。DBPred的更高准确性可能归因于方法的改进,因为基于训练数据集发现所提出的模型的准确性更高。

        我们使用我们的模型,利用拟南芥(AT)、普通拟南芥(HV)和番茄(SL)的全蛋白质组数据集来预测DBP,以证明对DBP进行可靠的高通量全蛋白质组预测的能力。对于所有三个蛋白质组数据集,发现预测的DBP在DNA结合和相关转录生物学过程中显著富集。此外,细胞成分富集分析显示,相当一部分预测的DBP是在细胞核中发现的。在处理拟南芥、番茄和普通番茄的输入数据集时,共鉴定出87个、28个和7个实验验证的DBP。PlDBPred在拟南芥中准确预测了总共79个(90.80%)实验验证的DBP,在番茄中准确预测24个(85.72%),在普通番茄中全部准确预测7个(100%)。补充文件2包含所有经过实验验证的DBPs。

 结论

        与当前方法相比,所提出的方法PlDBPred对植物中的DBP提供了高得多的广义预测能力。由于令人鼓舞的结果,PlDBPred可以通过仅利用序列信息有效地用于植物特异性蛋白质的大规模注释。为了定位特定于工厂的DBP,我们开发了一个在线预测工具PlDBPred(https://iasri-sg.icar.gov.in/pldbpred/). 预计所提出的方法将补充现有的识别植物中DBP的模型和实验技术。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/511044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

递归到动态规划- X-空间压缩技巧

空间压缩技巧的示例代码代码&#xff0c; LeetCode第64题 验证链接&#xff1a;力扣 package dataStructure.recurrence.practice;/*** https://leetcode.cn/problems/minimum-path-sum/* Leecode第64题* 给定一个包含非负整数的 m x n 网格 grid &#xff0c;请找出一条从左…

C++好难(6):模板初阶

【本节目标】 1. 泛型编程2. 函数模板3. 类模板 目录 【本节目标】 1.泛型编程 2.函数模板 概念&#xff1a; 格式&#xff1a; 原理&#xff1a; 实例化&#xff1a; 1.隐式实例化&#xff1a; 2.显式实例化 原则一&#xff1a; 原则二&#xff1a; 原则三&#…

数组存储与指针学习笔记(三)指针与数组

嵌入式C语言学习进阶系列文章 GUN C编译器拓展语法学习笔记(一&#xff09;GNU C特殊语法部分详解 GUN C编译器拓展语法学习笔记(二&#xff09;属性声明 GUN C编译器拓展语法学习笔记(三&#xff09;内联函数、内建函数与可变参数宏 数组存储与指针学习笔记(一&#xff09;数…

OpenCv更改颜色空间以及图像阈值

本文主要讲解以下几个方面: 如何将图片从一个颜色空间转换到另一个&#xff0c;例如 BGR 到 Gray&#xff0c;BGR 到 HSV 等。简单阈值法另外&#xff0c;我们会创建一个从图片中提取彩色对象的应用。 1.改变颜色空间 cv.cvtColor(img, flag) 参数flag表示颜色空间转换的方…

Hive语言2(大数据的核心:窗口函数)

1、Common Table Expressions&#xff08;CTE&#xff09;> 重点 公用表达式(CTE)是一个临时结果集&#xff0c;该结果集是从WITH子句中指定的简单查询派生而来的&#xff0c;该查询紧接在SELECT或INSERT关键字之前。 2.inner join&#xff08;内连接&#xff09;、left joi…

网页源码加密JavaScript程序,有效压缩和加密JS、Html、Css页面数据

我们知道&#xff0c;基于Des或Aes对称加密时&#xff0c;当明文和密码相同&#xff0c;则密文相同。而我们此次发布是WJLSymmetricEncryption4.js&#xff08;点击链接跳转到下载页面&#xff09;加密程序&#xff0c;当明文和密码相同&#xff0c;每次加密后的密文不相同&…

20230510vmlinux编译过程

1.进入linux内核源码目录下&#xff0c;打开Makefile文件&#xff0c;搜索vmlinux cmd_link-vmlinux \ $(CONFIG_SHELL) $< "$(LD)" "$(KBUILD_LDFLAGS)" "$(LDFLAGS_vmlinux)"; …

第10 CURD操作与RedisCache缓存的强制清理的实现

using System.Net; using Microsoft.Extensions.Caching.Distributed; using Core.Caching; using Core.Configuration; using StackExchange.Redis; namespace Services.Caching { /// <summary> /// 【Redis分布式缓存数据库软件管理器--类】 /// <remarks>…

索引 ---MySQL的总结(五)

索引 在mysql数据库之中&#xff0c;如果数据量过大&#xff0c;直接进行遍历会需要使用许多时间。这里使用空间换时间解决这一个问题。 目前就是从解决问题的这一个角度出发&#xff0c;需要增加搜索的速度&#xff0c;一定是要选择好用的数据结构进行搜索&#xff08;遍历的…

第十五届吉林省赛个人题解【中档题(不过可能对你来说是简单题)】(H、G、C)

文章目录 H. Visit the Park(STL)G. Matrix Repair(思维题)C.Random Number Generator(BSGS算法) H. Visit the Park(STL) 题意&#xff1a;给你一个无向图&#xff0c;每条边上都有一个数码&#xff0c;然后给你一个路径&#xff0c;每次你必须从Ai走到Ai1&#xff08;直接走…

【EHub_tx1_tx2_A200】Ubuntu18.04 + ROS_ Melodic + 锐驰LakiBeam 1L单线激光 雷达评测

大家好&#xff0c;我是虎哥&#xff0c;最近这段时间&#xff0c;又手欠入手了锐驰LakiBeam 1L激光雷达&#xff0c;实在是性价比太优秀&#xff0c;话说&#xff0c;最近激光雷达圈确实有点卷。锐驰官网的资料已经很丰富&#xff0c;我这里总结一下自己的简单测试经验&#x…

挑战14天学完Python---

抛弃了数学思维,引入了计算思维,计算思维是抽象和自动化相结合的结果 抽象:抽象问题的形式化逻辑 自动化:将抽象的结果通过程序自动实现 0.1在计算机内部转二进制 0.1转二进制 二进制的0.1与二进制0.2计算 结果再转十进制 在众多编程语言中 ,只有Python语言提供了复数类型.空间…

OpenCL编程指南-1.2OpenCL基本概念

OpenCL概念基础 面向异构平台的应用都必须完成以下步骤&#xff1a; 1&#xff09;发现构成异构系统的组件。 2&#xff09;探查这些组件的特征&#xff0c;使软件能够适应不同硬件单元的特定特性。 3&#xff09;创建将在平台上运行的指令块&#xff08;内核)。 4&#xff09…

紧跟 AI 步伐, Gitee 已支持 AI 模型托管

AI 时代已经来了&#xff01; 现在&#xff0c;越来越多的企业和个人开始使用 AI 技术来解决各种问题。想要了解 AI&#xff0c;那么就一定要了解 AI 模型&#xff0c;作为 AI 的核心技术之一&#xff0c;AI 模型为各种进阶的人工智能应用奠定了基础&#xff0c;从 ChatGPT 、…

Mysql 存储过程+触发器+存储函数+游标

视图&#xff08;view&#xff09; 虚拟存在的表&#xff0c;不保存查询结构&#xff0c;只保存查询的sql逻辑 语法 存储过程 实现定义并存储在数据库的一段sql语句的集合&#xff0c;可减少网络交互&#xff0c;提高性能&#xff0c;代码复用,内容包括&#xff1a;变量&am…

并发编程进阶

并发编程进阶 文章目录 并发编程进阶一、JMM1. JMM的定义&#xff1a;2. 内存屏障&#xff1a; 三. volatile四. as-if-serial五. happens-before六. 缓存一致性&#xff08;Cache coherence&#xff09;7. Synchronized1. synchronized 的使用2. synchronized底层原理 8. Conc…

Web3.0介绍与产业赛道(去中心化,金融与数字资产,应用与存储,区块链技术)

文章目录 1、web3.0时代——区块链技术2、产业赛道&#xff1a;去中心化金融与数字资产3、产业赛道&#xff1a;去中心化应用与存储4、区块链&#xff1a;基础设施与区块链安全和隐私 1、web3.0时代——区块链技术 Web3.0是什么 Web3.0是指下一代互联网技术&#xff0c;它将在…

最优化理论-线性规划的标准形

目录 一、引言 二、线性规划的标准形 1. 线性规划的定义 2. 线性规划的标准形 3. 线性规划的约束条件 三、线性规划的求解方法 1. 单纯形法 2. 内点法 3. 割平面法 四、线性规划的应用 1. 生产计划 2. 运输问题 3. 投资组合问题 五、总结 一、引言 最优化理论是…

数据链路层及其重要协议——以太网

文章目录 数据链路层前言1. 以太网协议2. MTU&#xff08;传输的限制&#xff09;3. ARP协议 数据链路层 前言 以太网&#xff1a; 不是一种具体的网络&#xff0c;而是一种技术标准。既包含了数据链路层的内容&#xff0c;也包含了一些物理层的内容&#xff0c;例如&#xf…

网络层——IP协议详细解读

文章目录 IP协议1. IP协议的报文格式2. IP协议的地址管理3. IP地址的组成4. IP协议的路由选择 IP协议 之前介绍了传输层的重点协议&#xff0c;TCP和UDP协议&#xff0c;以下将介绍网络层的重点协议IP协议。 1. IP协议的报文格式 IP地址 本质上是一个32位整数&#xff0c;在…