Brief. Bioinformatics2023 | 利用深度学习和分子动力学模拟设计抗菌肽

news2025/3/1 21:09:51

文章标题:Designing antimicrobial peptides using deep learning and molecular dynamic simulations

代码:https://github.com/gc-js/Antimicrobial-peptide-generation

一、问题

PandoraGAN使用手动策划的130个高活性肽的训练数据集,其中包括来自已知数据库(如AVPdb)和文献的肽,以生成新的抗病毒肽。PepGAN(一种肽专门化网络)来生成高活性AMP,其强度是氨苄西林的两倍。PepVAE从学习到的潜在空间的不同区域进行采样,并允许以最小的输入参数可控地生成新的AMP序列。这些模型用于生成AMP而不考虑其二级结构的稳定性,尽管这与AMP的抗菌活性高度相关

sAMPpredGAT用于AMP识别的预测器,GAT框架利用结构信息、演化特征和序列特征,从图中提取判别特征。最后,将优化后的特征输入到输出层以识别AMP。为识别sAMP, sAMP-PFPDeep 通过两个DNN,即VGG-16和Resnet-50,利用位置、频率和其他物理化学特征。此外,深度学习模型已经在各种应用中证明了它们的能力。

先前的实验研究表明,AMP的功能与二级结构(如螺旋或β -链成分)的稳定性高度相关;因此,将二级结构的可用性和肽的稳定性作为选择生成肽的重要依据。

二、Materials and methods

1、Data set collection and preprocessing

AMPs

大多数AMP的长度大于10个氨基酸,并且含有大于30个氨基酸的肽不易合成。

为创建AMP数据集,从ADAM、CAMPR4和StarPep三个公共数据集中收集了长度为∈[11,30]的AMP

Non-AMPs

使用AmpGram创建长度为∈[11,30]的序列作为非Non-AMPs数据库。【Proteomic screening for prediction and design of antimicrobial peptides with AmpGram】

Preprocessing

去除含有非天然氨基酸的重复序列和序列

采用CD-HIT去除冗余和同源物。AMPs数据库中的样品采用CD-HIT处理,阈值为0.8。同样,为避免Non-AMPs样本中高度相似序列的过度代表,采用CD-HIT去除阈值为0.4的序列。

所有的负样本都与正样本具有等长的分布。同时为平衡数据集,删除了冗余的负样本。

Data set splitting

预处理后,最终数据集包括8268个样本(4134个AMPs和4134个Non-AMPs)。8:2分成训练集和验证集。构建额外的独立测试数据集,其中包含来自ADP3数据库的2022年新发现的162个amp和来自Sidorczuk等研究的总计111 373个Non-AMPs。测试数据集中的AMPs不包括在训练或验证集中,Non-AMPs也不包括在训练或验证集中。

AMP generation model

利用SeqGAN来生成新的AMP:

由生成器、鉴别器、蒙特卡罗(MC)搜索和策略梯度组成。利用生成器生成假肽,利用鉴别器区分真肽和假肽。我们使用MC搜索和策略梯度来训练生成器。鉴别器由真实肽和生成器生成的假肽数据进行训练。通过迭代训练,生成器产生高质量的候选肽,可以欺骗鉴别器。

AMP classification model

分类器采用ESM-2蛋白语言模型(BERT-based),该模型在Uniref数据集上预训练。特别是,在数百万个序列上学习到的特征比在中小型集合上学习到的特征对AMP的分类效果更好。然后,将BERT生成的特征表示输入到MLP模型中(训练过程中,固定BERT模型的权值,只使用AMP和非AMP数据集更新MLP权值),得到AMP和非AMP分类结果。并使用t-SNE对高维数据进行了可视化:

Implementation details for the AMP classification model

通过进行超参数调优来提高预测器的性能是至关重要的。该方法考虑了学习率、批处理大小和预训练模型等参数。根据AUC-ROC对超参数进行优化

Evaluation metrics for the AMP classification model

Peptide synthesis

肽是通过固相肽合成(solid - phase peptide synthesis, SPPS)方法合成的。Rink酰胺树脂在50%二甲基甲酰胺(DMF)/50%二氯甲烷的混合溶液中反应过夜,然后加入20%哌啶溶液30分钟,去除树脂上的Fmoc保护基团。

以DMF作为氨基酸偶联溶剂,在室温(20-25℃)下,加入O-(1h -6-氯苯并三唑-1-基)-1,1,3,3-四甲基六氟磷酸脲和N,N-二异丙基乙胺,偶联1h。用三氟乙酸:三异丙基硅烷(Tips):水(90:5:5)的混合物在室温下裂解3小时。肽用冰冷的乙醚沉淀,溶解在水:乙腈(1:1)的混合物中并冻干。

粗肽在Phenomenex C18柱上用反相高效液相色谱(RP-HPLC)在214 nm处纯化,并将其放在- 20◦C下冷冻干燥保存。两个半胱氨酸的巯基用Acm保护,在浓度为1mg /mL的碘溶液中反应30min形成二硫键,最后加入抗坏血酸终止氧化反应。所有肽的分子量均采用电喷雾质谱法测定。采用反相高效液相色谱法测定肽的纯度,纯度均大于95%。

Nuclear magnetic resonance (NMR) structure determination for A-222

MD simulations

利用AMBER封装和ff14SB力场进行MD模拟,优化多肽。通过MD模拟确保了肽的结构稳定性。利用AlphaFold2生成肽的三维结构。肽在10 Å TIP3P水盒中溶剂化,用Cl-中和电学性质,并使用Bash命令运行MD模拟。采用2000步最陡下降法和3000步共轭梯度法对系统进行优化。

完成第一次能量优化后,继续进行无约束优化,然后进行MD模拟。

MD模拟包括升温过程和平衡过程。首先,在100 ps内用5 kcal mol−1·Å−2约束溶质从50 K逐渐加热到300 K,然后在100 ps内溶质结合力从5 kcal mol−1·Å−2逐渐降低到0 kcal mol−1·Å−2,然后在300 K恒温、1 atm压力下进行100 ns模拟。所有涉及的氢键均采用SHAKE算法,时间步长为2fs。MD仿真完成后,使用VMD对MD轨迹进行分析,并计算出RMSD值。

对46个多肽进行了如上所述的MD模拟。

Circular dichroism (CD) 圆二色谱,研究分子手性

在氮气气氛下,室温条件下,采用Jasco J-810型偏振光谱仪测量CD光谱,波长在250 ~ 190 nm之间,光程长度为1.0 mm,带宽为1.0 nm,响应时间为2 s,平均扫描3次。a -222溶于乙腈和水的1:1的混合物中,浓度为0.3 mg/mL。光谱用摩尔椭圆率表示。测量后,计算了摩尔椭圆度[θ]值,并根据特征峰对二级结构进行了分析。

Biological activity assay

AMPs的最低抑菌浓度(MIC)采用肉汤微量稀释法测定。检出的细菌包括枯草芽孢杆菌168、嗜麦芽窄养单胞菌w006、铜绿假单胞菌SM45、铜绿假单胞菌PAO1、苏云金芽孢杆菌BNCC 336393、金黄色葡萄球菌SYZX101、大肠杆菌ATCC 8739和产酶溶菌YC36。具体来说,在96孔板上连续加倍稀释AMPs(每孔中只剩下50 μL含有稀释AMPs的培养基)。

然后,将培养至对数相的细菌先稀释至麦克法兰标准液0.5倍,再稀释至100倍。每孔加入50 μL以上菌液后,将样品置于培养箱中16-18 h(除L. enzymatic genes YC36放置于28℃,其余放置于37℃),OD600记录数值。试验组添加顺序稀释的AMPs,对照组为纯培养基(不含菌液)和含菌液培养基,每组3平行。

三、Results and discussion

1、Estimation of training performance

在79个epoch后已过拟合。为避免过拟合,保存了验证精度最高的模型参数。

2、Comparative analysis with state-of-the-art methods

DNN-based(Amplify和AMPScannerV2)、AMP-based,如MACREL和AmPEPpy

Comparison using the validation set

Comparison using independent test set

Screening candidate AMPs

基于AlphaFold2结构预测和MD模拟,共筛选了110个肽段。在这些肽中,四个肽含有一对二硫键,而其余的不含二硫键。利用AlphaFold2预测了110个多肽的三维结构,共有97个多肽具有α-螺旋或β-链成分。通过50或100 ns MD模拟来评价α-螺旋或β链成分完整的肽的稳定性。

大多数肽在MD模拟中表现出高度的不稳定性,在50 ns的MD模拟后,它们的二级结构被破坏,甚至成为随机螺旋。此外,应用ESMFold模型预测肽的结构,并对AlphaFold2预测的结构进行对比分析。

在分类器判定的110个类抗菌肽中,共有97个类抗菌肽被AlphaFold2预测为α-螺旋或β-链成分,而83个肽类抗菌肽被ESMFold预测为二级结构。然后,对AlphaFold2和ESMFold预测的结构进行了比较分析。其中82种均可获得相同的α-螺旋或β-链成分。最终选择六种能够完全或部分维持其二级结构的肽,并显示出相对较小的RMSD作为候选AMP进行湿实验室实验验证

3、Wet laboratory

Synthesis of AMP candidates

用SPPS合成候选AMP,用RPHPLC纯化候选AMP。分别用电喷雾法和反相高效液相色谱法对质量和纯度进行验证。生成AMP物化性质:

Antimicrobial activity

通过MIC测定了这些肽对革兰氏阳性菌株(枯草芽孢杆菌168、金黄色葡萄球菌SYZX101和苏云金芽孢杆菌BNCC 336393)和革兰氏阴性菌株(大肠杆菌ATCC 8739、酵素L. YC36、嗜麦芽葡萄球菌WH 006、铜绿假单胞菌PAO1和铜绿假单胞菌SM45)的抑菌活性。在候选抗菌肽中,A-222 (DTFGRCRRWWAALGACRR-NH2)对枯草芽孢杆菌168和酵素L. YC36的MIC值分别为16 μg/mL,对嗜麦芽葡萄球菌w006和P的MIC值分别为32和64 μg/mL。

4、Structural analyses

核磁共振(NMR)分析多肽和蛋白质三维结构。AlphaFold2预测其结构为带有柔性n端尾部的几圈α-螺旋结构(图6A),而从100 ns MD模拟中提取的10帧显示了该预测结构的稳定性(图6B)。此外,ESMFold预测了其结构。然后,对a -222进行核磁共振结构分析(图6C、D)。次级α质子位移分析显示,相对于随机螺旋化学位移,所有残基都呈负位移。而结构计算证实残基10-13之间存在一个小的α螺旋。根据初步结构和变温酰胺系数,在残基14和残基10的酰胺质子和羰基氧之间分别预测一个单键氢键,这进一步证明在核磁共振结构中只存在一个短螺旋。核磁共振结构与AlphaFold2预测结构的差异可能源于溶液环境的不同。

在pH为5.8的磷酸钠缓冲液中测定了其核磁共振结构,这可能影响肽的折叠。此外,还进行CD光谱分析。α-螺旋的特征峰在222和208 nm处为负,在190 nm处为正,这也证实A-222 α螺旋的存在(图6E)。因此,A-222保持了二级结构,这种稳定的结构可能与抗菌活性有关。

Design of A-222 analogs and biological activity assay

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/998128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第11章_瑞萨MCU零基础入门系列教程之SysTick

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写,需要的同学可以在这里获取: https://item.taobao.com/item.htm?id728461040949 配套资料获取:https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总: ht…

QTabWidget当tab位置在左右时,设置文字方向朝上

QTabWidget当tab位置在左右时,设置文字方向朝上解决方案 方案一:调用setTabButton()方法方案二:重写QTabBar方案三:重写QProxyStyle 当用QTabWidget控件时,默认是下方显示: 如果想左侧或右侧显示tab页&…

upload-labs文件上传漏洞通关

一、环境搭建 upload-labs是一个使用php语言编写的,专门收集渗透测试和CTF中遇到的各种上传漏洞的靶场。 下载地址:https://github.com/c0ny1/upload-labs/releases 在 win 环境下 直接解压到phpstudy下即可 二、通关 (一)16关…

【leetcode 力扣刷题】删除字符串中的子串or字符以满足要求

删除字符串中的子串或者字符以满足题意要求 1234. 替换子串得到平衡字符串680. 验证回文串917. 仅仅反转字母 1234. 替换子串得到平衡字符串 题目链接:1234. 替换子串得到平衡字符串 题目内容: 题目中给出了平衡字符串的定义——只有’Q’,…

【C++】详解std::thread

2023年9月10日,周日下午开始 2023年9月10日,周日晚上23:35完成 虽然这篇博客我今天花了很多时间去写,但是我对std::thread有了一个完整的认识 不过有些内容还没完善,以后有空再更新.... 目录 头文件类的成员类型方法(construc…

GDB用法(三)

预备 测试代码参照GDB用法(二) 命令历史 可以将命令历史保存到文件中 (show history) 展示当前gdb中history的设置信息 设置expansion (set history expansion) 打开历史扩展 能使用历史处理命令对历史数据进行处理, 暂不细究 (show history expansion) 展示历史扩展配置…

《JDK17新特性和代码案例演示》

《JDK17新特性和代码案例演示》 🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全…

sqli --【1--10】

Less-1(联合查询) 1.查看是否有回显 2.查看是否有报错 3.使用联合查询(字符注入) 3.1判断其列数 3.2 判断显示位置 3.3敏感信息查询 Less-2(联合查询) 1.查看是否有回显 2.查看是否有报错 3.使用…

[学习笔记]词向量模型-Word2vec

参考资料: 【word2vec词向量模型】原理详解代码实现 NLP自然语言处理的经典模型Word2vec 论文背景知识 词的表示方法 One-hot Representation:独热表示 简单,但词越多,向量越长。且无法表示词与词之间的关系。 论文储备知识-pr…

Ae 效果:CC Scatterize

模拟/CC Scatterize Simulation/CC Scatterize CC Scatterize(CC 散射)主要用于模拟将对象散射为颗粒状的效果。 CC Scatterize 的工作原理是:对源图像的 Alpha 通道先进行融解 Dissolve,从而产生随机颗粒,因此改变了源…

安卓系列机型 另类体验第三方系统 DSU操作步骤解析 不影响主系统开启第二系统

dsu loader即 动态系统更新,可以在使用动态分区的安卓设备上,不影响原来系统的同时安装一个副系统,用于体验最新的原生安卓系统。可以不影响主系统的基础上体验其他gsi第三方。DSU 依赖于 Android 动态分区功能,并要求 GSI 作为可…

博客系统(升级(Spring))(二)获取当前用户信息、对密码进行加密、设置统一数据格式、设置未登录拦截、线程池

博客系统(二) 博客系统获取当前用户的信息对密码进行加密和解密的操作设置统一的数据返回格式设置未登录拦截设置线程池 博客系统 博客系统是干什么的? CSDN就是一个典型的博客系统。而我在这里就是通过模拟实现一个博客系统,这是…

精品基于SpringCloud实现的高校招生信息管理系统-微服务-分布式

《[含文档PPT源码等]精品基于SpringCloud实现的高校招生信息管理系统-微服务-分布式》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程等 软件开发环境及开发工具: 开发语言:Java 框架:springcloud JDK版本&#x…

【环境配置】基于Docker配置Chisel-Bootcamp环境

文章目录 Chisel是什么Chisel-Bootcamp是什么基于Docker配置Chisel-Bootcamp官网下载Docker安装包Docker换源启动Bootcamp镜像常用docker命令 可能产生的问题 Chisel是什么 Chisel是Scala语言的一个库,可以由Scala语言通过import引入。 Chisel编程可以生成Verilog代…

C高级day3(shell指令)

一、Xmind整理: 二、上课笔记整理: 1.定义一个变量,把第11个外部参数的值,赋值给该变量并输出,再输出外部参数的个数 var3${11} echo $var3 echo $# 2.定义一个变量num,使用num获取root用户,…

腾讯事务处理技术验证系统3TS-Coo模板安装文档说明文档(小白向,简单轻松就能上手)

本篇文章将详细说明3TS-Coo模板的安装和使用,帮助您快速上手项目 第一部分是简单的基础Docker相关概念,精炼的几句小白话快速理解即可; 第二部分是快速安装项目环境的安装文档,简单几行命令搞定,小白也能轻松上手&…

12. Xaml Calendar控价 时间控件-->像挂历

1.运行图片 2.运行源码 a.xaml 源码 <Grid Name="Grid1"><!--DisplayMode="Month" 按照什么模式显示DisplayDateStart="2023-2-10" 显示时间的起始时间DisplayDateEnd="2023-8-30" 显示时间的结束时间IsTodayH

MyBatis-Plus-入门操作(1)

MyBatis-Plus-入门操作 2.1常见注解 约定大于配置 mp扫描实体类基于反射的方式作为数据库表的信息。 默认的约定 类名驼峰转下划线名字为id的是主键属性名进行驼峰转换成下划线 要是不遵循约定的话就需要对应的注解进行修改。 表的名字和 实际的表的名字是不一致的 Table…

Scrum看板工具-敏捷看板?

​ 敏捷看板 看板是一个团队共享的工作区&#xff0c;在看板上团队可以进行实时的工作任务协同&#xff0c;团队的工作以卡片的形式体现。通过泳道和任务列表组织管理。需求、任务、问题、缺陷 都作为卡片放在看板上&#xff0c;通过看板实现可视化和透明化的 管理&#xff0…

PHP8中获取并删除数组中第一个元素-PHP8知识详解

我在上一节关于数组的教程&#xff0c;讲的是在php8中获取并删除数组中最后一个元素&#xff0c;今天分享的是相反的&#xff1a;PHP8中获取并删除数组中第一个元素。 回顾一下昨天的知识&#xff0c;array_pop()函数将返回数组的最后一个元素&#xff0c;今天学习的是使用arr…