Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽

news2025/1/22 18:51:10

文章标题:sAMP-PFPDeep: Improving accuracy of short antimicrobial peptides prediction using three different sequence encodings and deep neural networks

代码:https://github.com/WaqarHusain/sAMP-PFPDeep

一、问题

短抗菌肽(sAMPs):红色是α-helices,蓝色为随机coil

最著名的生物计算问题之一是在离散模型中描述生物序列,使其关键序列特征不被改变。以载体形式表达生物序列可能导致失去其重要的基于序列的特征。除此之外,各种基于物理化学特征的方法,主要包括氨基酸组成(AAC)、伪氨基酸组成(PseAAC)、归一化氨基酸组成(NAAC)、疏水性、净电荷、等电点、α-螺旋倾向、β-片倾向和转向倾向,已经被提出用于预测amp,这些表征具有很强的预测肽序列性质的能力。

将序列转换为图像时,分别考虑了包含位置、频率和12个理化特征之和信息的三个通道。

二、Materials and methods

预测sAMPs,即具有少于或等于30个氨基酸残基的序列长度的肽。流程:

1、Training and benchmark dataset

本研究使用了先前数据集【Deep-AmPEP30: improve short antimicrobial peptides prediction with deep learning】。数据集由1529个sAMPs和1529个Non-sAMPs组成,表明数据集是平衡的。

数据样本:

最终用于训练的数据集包含1529 + 1529 = 3058个样本。数据集已经经过CDHIT处理,去除冗余的阈值为0.8,即排除相似性超过80%的序列。由于已经执行该预处理,因此在本研究中没有重复该步骤,并且数据集被用作训练目的。188个多肽的基准数据集,包括来自同一研究的94个sAMPs和94个非sAMPs。

2、Sequence to image generation

Sequence to square matrix conversion

将序列转换为方阵。首先,在所有序列中填充假氨基酸,即序列长度小于30的X。这有助于使数据集中的所有样本具有均匀的长度。在下一阶段,将这些序列转换为5 × 6矩阵,例如:

Square matrix to 3-channel image conversion

方阵被转换为3通道图像。为此,对每个通道进行了不同的计算。

第一通道:编码矩阵。每个氨基酸的编码从1到20,X氨基酸被认为是零。

第二通道:各自序列的方阵中的氨基酸被替换为氨基酸频率。例如,如果氨基酸A,即丙氨酸在一个序列中出现3次,则该序列中的每个A都被替换为3。频率矩阵。频率分布:

第三通道:氨基酸的理化特性。PepData从CRASP程序中收集了属性值,除Solvent_Exposed_Area,而Solvent_Exposed_Area的值取自(http://prowl.rockefeller.edu/aainfo/access.htm)。

在将所有三个通道划分为单个图像之前,所有通道都在0-255的范围内归一化。这有助于生成三个实际的均匀通道,并在合并它们后,从每个肽序列生成一个3通道图像。

3、Classification through VGG-16 and RESNET-50

经过20个epoch后,模型收敛。为优化所有参数,使用Grid进行超参数调优。VGG-16和RESNET-50:

两种神经网络的最小输入层尺寸均为32 × 32 × 3,而本研究生成的图像为5 × 6 × 3。因此,为将这些微小的图像传递给模型,对图像执行零填充。

4、Validation study

为验证,采用基于分子对接(AutoDock Tools和AutoDock Vina)。首先,建立从UniProt中检索长度≤30个残基的AMP的数据集。通过关键字抗菌[KW-0929]进行检索,长度设置为∗TO30,检索到728个已审查的肽序列。随后,为去除检索序列中的冗余,应用CD-HIT,相似度阈值为60%,从原始的728个序列中检索到301条肽序列。

除预测标签外,对于阳性样本,还计算以p值(概率)表示的预测分数,因为这些收集的肽实际上都是阳性的。这些肽被归类为阳性sAMPs,进行三级结构预测,并使用SWISSModel建模。通过与八种已知细菌受体的分子对接,评估这些肽的抗菌潜力。

每次对接后计算反应的结合能,并利用这些结合能计算μM中的抑制常数Ki值为:

其中G为结合能,T为温度,为298.15 K, R为气体常数,为1.9872036 kcal/mol。

在进行分子对接时,使用AutoDock Tools为观察到的每个蛋白质的结合位点生成一个Grid box dimensions(size),并记录。

使用AutoDock Vina进行分子对接,并计算所有对接肽的结合亲和力值,以了解它们与感兴趣的蛋白质的相互作用。

在本研究中,采用E = 4、E = 8、E = 16、E = 32、E = 64和E = 128六种不同穷举启发式的对接仿真方法。然而,在穷举E = 8后,结合方面未见改善,因此,报告E = 8的结果。

为更好地描述,预测分数,即p值与所有肽的结合能(γG)和抑制常数(Ki)相关。

5、Evaluation of performance

三、Results and discussion

1、Estimation of training performance

VGG-16的训练效果优于ResNet-50:

基于VGG-16的预测产生了1502个真阳性和1504个真阴性,假阳性和假阴性分别为25个和27个。预测1484个真阳性和1456个真阴性,而假阳性和假阴性分别为73和45。这表明VGG-16的精度与RESNET-50相比有显著差异:

2、Evaluation of predictors based on independent dataset testing

使用了94个samp和94个非samp的未见数据。VGG16在所有评估指标方面都比RESNET-50表现出更好的结果:

另一个独立的数据集,Indp2,包括1032个samp和1032个非samp,仅考虑长度在11 ~ 30个残基之间的序列,用于测试模型:

3、Comparative analysis with state-of-the-art methods

4、Validation through molecular docking

为描述sAMP-PFPDeep预测与对接结果的相关性,绘制结合能(γG)与预测评分(p值)的相关图:

预测结果与图中趋势线所示的结合能密切相关,除了少数被错误预测为阴性的肽(non-sAMPs)。趋势线的起伏对所有287个肽都是同步的。此外,这些肽与8种细菌受体的结合能较高,表明它们具有较强的抗菌活性候选性,而sAMP- pfpdeep对sAMP的预测也证明了这一点。这表明,通过提出的方法预测为sAMP的肽是对细菌受体表现出强结合能的候选肽。此外,该方法主要用途是,实验生物学家可以在进行分子对接模拟或任何体外实验之前,通过所提出的方法预测肽的类别是sAMPs还是non-sAMPs。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/996532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

明牌空投 — 融资1200万美元的 AlienSwap 交互教程

本文仅为资讯分享,不构成任何投资建议,也不推荐您购买、出售或者持有任何加密货币。请读者朋友们 DYOR,理性看待区块链,提高风险意识,谨慎投资! ★ 关于 AlienSwap AlienSwap 是一个基于社区的多链 NFT 聚…

基于Sentinel的微服务保护

前言 Sentinel是Alibaba开源的一款微服务流控组件,用于解决分布式应用场景下服务的稳定性问题。Sentinel具有丰富的应用场景,它基于流量提供一系列的服务保护措施,例如多线程秒杀情况下的系统承载,并发访问下的流量控制&#xff…

MySQL用户密码重设,保姆式教程!

✍前言 我MySQL的root用户密码给忘了,怎么办?MySQL用户如何修改密码?如果你被这类问题所困扰,那么本文将会为你排忧解难!(本文基于Windows10和mysql Ver 8.0.33 for Win64 on x86_64版本而创作) 操作步骤 1️⃣First s…

LeetCode刷题笔记【32】:动态规划专题-4(二维背包问题、一维背包问题、分割等和子集)

文章目录 动态规划前置知识背包问题前置知识什么是背包问题, 背包问题举例背包问题的大致分类01背包完全背包 背包问题的通用解法 二维背包问题题目描述解题思路1 构建dp数组2 初始化dp数组3 遍历更新dp数组 代码 一维背包问题题目描述解题思路代码 416. 分割等和子集题目描述解…

Linux设备树详细学习笔记

参考文献 参考视频 开发板及程序 原子mini 设备树官方文档 设备树的基本概念 DT:Device Tree //设备树 FDT: Flattened Device Tree //开放设备树,起源于OpenFirmware (所以后续会见到很多OF开头函数) dts: device tree source的缩写 //设备树源码 dtsi: device …

Vuex核心 - 模块 module(进阶)创建拆分

文章目录 module分模块一、什么是 模块module二、module的好处三、模块创建-拆分 module分模块 一、什么是 模块module 在Vuex中,模块(module)是用来组织和管理状态(state)、行为(actions)、变…

CIO40--数字化转型之回报效益ROI(含表格)

一﹑对BOSS的好处 随时可以由系统中的资料掌握公司的营运状况。建立公司的管理体系及运作规范﹐由系统管理公司运作。建立公司营运的数据库﹐累积公司的管理经验知识﹐不会因人员异动而流失。由系统信息的整合﹐可以提升公司的反应速度﹐不需由人力统计﹐可减少错误﹐节省人力…

3D视觉测量:形位公差 GDT同轴度(附源码)

文章目录 0. 测试效果1. 基本内容2. 公共轴线法3. 实现代码(待添加)目标:通过3D视觉的方法测量圆柱的同轴度 0. 测试效果 1. 基本内容 "同轴度" 是一个工程学和制造业中常用的术语,用来描述一个对象、零件或装置的各个组成部分是否在一个共同的轴线上对齐…

自动驾驶之高精地图介绍

高精地图 文章目录 高精地图前言一、什么是高精地图 前言 一、什么是高精地图 高精地图(High Definitation Map,HD MAP),和普通导航电子地图的主要区别是精度更高、信息更丰富。精度更高主要体现在高精地图的绝对坐标精度更高(指的是地图上某个目标和外部的真实世…

linux 网络接口的子接口的配置

参考: https://blog.csdn.net/baidu_38803985/article/details/104653205 在 Linux 中,网络接口通常以ethX的形式命名,其中X代表接口的编号,例如eth0代表第一个网络接口,eth1代表第二个,依此类推。虚拟子接…

嵌入式学习笔记(22)汇编实现时钟设置代码详解

4.6.1时钟设置的步骤分析 第1步:先选择不使用PLL。让外部24MHz原始时钟直接过去,绕过APLL那条路。 第2步:设置锁定时间(PLL_LOCK)。默认值是0x0FFF,保险起见我们设置0xFFFF 第3步:设置分频系…

Linux 服务器连接方式

这里服务器使用 Ubuntu 20.04.6 LTS aarch64,这篇文章就不说使用工具连接了,工具直接添加就好了,这里说下终端命令操作 SSH 命令使用密码连接 使用以下命令在终端进行密码连接 ssh usernamehostname如果是第一次连接 SSH 客户端会提示你是否…

盘点一个os.path.join()函数遇到的小问题(文末赠书)

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 连峰去天不盈尺,枯松倒挂倚绝壁。 大家好,我是皮皮。 一、前言 前几天在Python最强王者群【小马哥】问了一个os路径拼接处理的问…

Kafka入门,这一篇就够了(安装,topic,生产者,消费者)

目录 Kafka的安装文件与配置目录binconfig 配置文件server.propertiesproducer.propertiesconsumer.properties 命令行简单使用kafka-topics.sh新增查看列表查看详情修改删除 kafka-console-producer.shkafka-console-consumer.sh 概念集群代理broker主题topic分区partition偏移…

用递归实现字符串逆序(不使用库函数)

文章目录 前言一、题目要求二、解题步骤1.大概框架2.如何反向排列?3.模拟实现strlen4.实现反向排列5.递归实现反向排列 总结 前言 嗨,亲爱的读者们!我是艾老虎尤,今天,我们将探索一个题目,这个题目对新手非…

【计算机基础】揭露办公软件WPS、Offfice好用但又很少去做的便捷操作

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

【memcpy函数的介绍与使用和模拟实现】

memcpy函数的介绍与使用和模拟实现 1.memcpy函数的介绍 资源来源于cplusplus网站 它的作用是: 将数字字节的值从源指向的位置直接复制到目标指向的内存块。 源指针和目标指针指向的对象的基础类型与此函数无关; 结果是数据的二进制副本。 该函数不检查源代码中是否…

uboot顶层Makefile前期所做工作说明四

一. uboot顶层 Makefile文件 uboot 顶层 Makefile,就是 uboot源码工程的根目录下的 Makefile文件。 本文继续对 uboot顶层 Makefile的前期准备工作进行介绍。续上一篇文章内容的学习,如下: uboot顶层Makefile前期所做工作说明三_凌肖战的博…

信息系统项目管理师(第四版)教材精读思维导图-第十二章项目质量管理

请参阅我的另一篇文章,综合介绍软考高项: 信息系统项目管理师(软考高项)备考总结_计算机技术与软件专业技术_铭记北宸的博客-CSDN博客 本章思维导图源文件 ​ 12.1 管理基础 12.2 管理过程 12.3 规划质量管理 12.4 管理质量 12.5…

增强 CAD Exchanger SDK 中 B-rep 表示的渲染性能

增强 CAD Exchanger 中 B-rep 表示的渲染性能 在这篇博文中,我们将深入探讨增强 CAD Exchanger 产品中 B-rep 表示的渲染性能的主题,探讨此过程中面临的挑战,并讨论 CAD Exchanger 所采用的创新技术来优化它。 在 版本 3.20中,我…