生信步骤|EffectorP批量预测病原物效应子

news2024/11/30 8:50:39

EffectorP软件利用机器学习原理,通过事先收集已知的效应子制备训练集,从而实现病原真菌和卵菌的效应子预测[1]

EffectorP发展史[2]
1.0版本最初在16年发表于NEW PHYTOLOGIST,实现了机器学习初步预测效应子。
2.0版本在18年发表于MPP,采用了更大的训练集和模型集成的方法,准确度更高。
3.0版本在22年发表于MPMI,是目前最新的版本。其实现了效应子的空间定位预测,同时新增了对卵菌效应子的预测。

在这里插入图片描述

EffectorP3.0正训练集采用64个质外体效应子(50个真菌效应子,14个卵菌效应子)和112个胞质效应子(77真菌,35卵菌)构成。负训练集采用五种不太可能成为effectors的蛋白作为指标。正负训练集中的同源重复蛋白皆被去除。EffectorP3.0通过构建已有效应子数据库,训练机器学习模型,实现效应子预测。同时推断效应子的定位信息。 EffectorP也有在线网站:https://effectorp.csiro.au/ 对代码不感冒的小伙伴可以参考此网页。

在这里插入图片描述


0.下载并安装EffectorP

我们首先进入EffectorP官网下载最新版本软件:

$ git clone https://github.com/JanaSperschneider/EffectorP-3.0.git

EffectorP的运行需要Python3环境和WEKA软件3.8.4版本。需要我们提前在服务器上配置好。新建python3环境可以用conda实现。

#新建python3环境
$ conda create -y -n effector python=3
$ conda activate effector

#配置WEKA3.8.4,简单解压即可。
$ cd EffectorP-3.0-main && unzip weka-3-8-4.zip

通过软件自带的蛋白序列测试数据Effectors.fasta,测试是否运行顺利:

$ python EffectorP.py -i Effectors.fasta
#若成功运行则会在屏幕输出预测结果

我们可以参考官网给出的结果示例:

python EffectorP.py -i Effectors.fasta
-----------------

EffectorP 3.0 is running for 9 proteins given in FASTA file Effectors.fasta

Ensemble classification
25 percent done...
50 percent done...
75 percent done...
All done.

# Identifier                                    Cytoplasmic effector    Apoplastic effector     Non-effector            Prediction
AvrM Melampsora lini                            Y (1.0)                 -                       -                       Cytoplasmic effector
Avr1-CO39 Magnaporthe oryzae                    Y (0.945)               Y (0.667)               -                       Cytoplasmic/apoplastic effector
ToxA Parastagonospora nodorum                   Y (0.551)               Y (0.767)               -                       Apoplastic/cytoplasmic effector
AVR3a Phytophthora infestans                    Y (0.985)               -                       -                       Cytoplasmic effector
Pit2 Ustilago maydis                            Y (0.779)               -                       -                       Cytoplasmic effector
Zt6 Zymoseptoria tritici                        -                       Y (0.944)               -                       Apoplastic effector
INF1 Phytophthora infestans                     -                       Y (0.837)               -                       Apoplastic effector
Zinc transporter 3 Arabidopsis thaliana         -                       -                       Y (0.737)               Non-effector
GPI-anchored protein 13 Candida albicans        -                       -                       Y (0.708)               Non-effector

-----------------
9 proteins were provided as input in the following file: Effectors.fasta
-----------------
Number of predicted effectors: 7
Number of predicted cytoplasmic effectors: 4
Number of predicted apoplastic effectors: 3
-----------------
77.8 percent are predicted effectors.
44.4 percent are predicted cytoplasmic effectors.
33.3 percent are predicted apoplastic effectors.
-----------------

可见,EffectorP非常直观地给出了各个蛋白的预测类型(是/否为效应子)以及这些蛋白可能存在的细胞位置!

下面我们将采用发表于NCBI的稻瘟菌RNA-seq作为示例数据,执行批量预测效应子的操作。稻瘟菌RNA-seq的sra编号分别为SRR081552,SRR081553,SRR081554,SRR081555,SRR081556

1.批量下载及解压sra示例数据

首先将示例数据的sra序号存放到新的文本文件sra.txt中,执行下载和批量解压操作。

$ vim sra.txt
-----
SRR081552
SRR081553
SRR081554
SRR081555
SRR081556
-----
#批量下载sra.txt中的数据
$ prefetch --option-file sra.txt

下载后的SRR文件需要进一步解压才能得到fastq文件:

#构建批量解压脚本
$ vim step1_fastdump.sh
----------
#!/bin/sh
for i in `tail -n+1 sra.txt|cut -f1`;do
fastq-dump ${i} --split-3 --gzip -O ./
done
---------

#执行批量解压处理
$ sh step1_fastdump.sh

2.批量进行RNAseq数据的回比

将得到的双端测序数据/单端测序数据回比到参考基因组上,通过stringtie提取转录本cds序列。示例数据为双端测序数据,故采用双端测序数据的回比流程,此处串联成了批量执行脚本。
针对双端测序的批量执行脚本。

#构建批量处理脚本
$ vim step2_hisat2_pair.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        hisat2 -p 8 --dta --no-mixed --no-discordant  -x 70-15.BAC.fa -1 ${i}_1.fastq.cleandata.gz -2 ${i}_2.fastq.cleandata.gz --no-unal -S ${i}.sam 2>${i}.summary.txt
        samtools view -bS ${i}.sam -o ${i}.bam
        samtools sort ${i}.bam ${i}.sorted.bam #注意产生的是SRR081556.sorted.bam.bam
        stringtie ${i}.sorted.bam.bam -p 20 -o ${i}.gtf
        gffread -w ${i}.fa -g 70-15.BAC.fa ${i}.gtf
  }
done
---------

#批量处理
$ sh step2_hisat2_pair.sh

针对单端测序的批量执行脚本。

#构建批量处理脚本
$ vim step2_hisat2_single.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        hisat2 -p 8 --dta --no-mixed --no-discordant  -x 70-15.BAC.fa -U ${i}.fastq.cleandata.gz --no-unal -S ${i}.sam 2>${i}.summary.txt
        samtools view -bS ${i}.sam -o ${i}.bam
        samtools sort ${i}.bam -o ${i}.sorted.bam #注意产生的是SRR081556.sorted.bam.bam
        stringtie ${i}.sorted.bam -p 20 -o ${i}.gtf
        gffread -w ${i}.fa -g 70-15.BAC.fa ${i}.gtf
  }
done
----------

#执行批量处理
$ sh step2_hisat2_single.sh

3.蛋白质翻译和过滤

对回比上的cds序列进行翻译,并筛选100个AA以上的氨基酸作为候选目标。

#构建批量处理脚本
$ vim step3_translate.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        seqkit translate ${i}.fa --trim > ${i}.pro.fa
        seqkit seq -m 100 -g ${i}.pro.fa > ${i}.pro.filter.fa
  }
done
----------

#批量处理
$ sh step3_translate.sh

4.效应子预测

最后一步,对所有候选的目标蛋白进行效应子预测。

#构建批量处理脚本
$ vim step4_effectorP.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        python /mnt/zhou/hangyuan/biosoft/EffectorP-3.0-main/EffectorP.py -i ${i}.pro.filter.fa > ${i}.predict_effector.txt
  }
done
----------

#批量处理
$ sh step4_effectorP.sh

执行后完上述所有代码后,得到的预测结果文件会分别保存在以.predict_effector.txt为结尾的文本文件中。打开即可查看各个RNAseq数据的预测结果。


参考信息:

  1. EffectorP Github:https://github.com/JanaSperschneider/EffectorP-3.0
  2. Sperschneider J, Dodds P. EffectorP 3.0: prediction of apoplastic and cytoplasmic effectors in fungi and oomycetes. Mol Plant Microbe Interact. 2021.doi: 10.1094/MPMI-08-21-0201-R

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/527881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OPPO官宣:哲库解散,哲库是 OPPO 旗下的芯片厂,类似华为海思的角色,有近 3000 名员工

大家好,我是二哥呀。 这两天,互联网最大的声音之一就是,OPPO 将终止芯片业务,相信大多数小伙伴和二哥一样,第一眼看到这则消息的时候,震惊的同时并惋惜! ZEKU 是 OPPO 旗下的芯片厂&#xff0…

Java面试知识点(全)-JVM面试知识点

Java面试知识点(全) 导航: https://nanxiang.blog.csdn.net/article/details/130640392 注:随时更新 JVM内存结构 内存结构 Java虚拟机在运行程序时会把其自动管理的内存划分为以上几个区域,每个区域都有的用途以及创建销毁的时机&#xf…

【JavaScript】手写Promise

🐱 个人主页:不叫猫先生 🙋‍♂️ 作者简介:2022年度博客之星前端领域TOP 2,前端领域优质作者、阿里云专家博主,专注于前端各领域技术,共同学习共同进步,一起加油呀! &am…

五. AMS实践,Hook启动未注册的Activity

Activity任务栈解析 正常情况下我们的app中的所有Activity都是运行在同一个任务栈(ActivityStack)里面的,也就是我们app的build.gradle文件中的applicationId那个任务栈. 如何实现Activity运行在不同的任务栈呢? 需要在Intent启动这个Activity的时候,给这个intent赋值,设置代…

【KVM虚拟化】· 存储池、存储卷

目录 🍁虚拟磁盘文件 🍂基于文件系统的KVM存储 🍂基于设备的KVM存储 🍁使用KVM存储池 🍂存储池概念 🍁virsh中存储池命令 🍁virsh中存储卷命令 🍁命令实例 🍂创建存储池 …

一个开源的即时通讯应用 Tailchat

今天给大家介绍一款即时通讯应用,这个开源项目是:Tailchat,它是一个基于 React Typescript 的现代开源 noIM 应用程序。 简单介绍 相信大家都或多或少了解过 Discord / Slack 这样大火的即时通讯应用。两者分别在各自的领域有很大的成就。…

http强缓存和协商缓存的介绍和应用案例,简介明了

http强缓存和协商缓存的介绍和应用案例,简介明了 http缓存方式简介缓存机制案例1. Expires老版本的方式:2. cache-control新版本的方式:3.Etag和If-None-Match http缓存方式简介 强缓存:强缓存使用Expires(老版本&…

el-table实现可编辑表格的思路;el-table删除不正确:表格中的el-select下拉数据项有值,但输入框中value值不显示

目录 一、问题 二、原因及解决方法 三、总结 tips:如嫌繁琐,直接看总结即可! 一、问题 el-table实现可编辑表格的思路: 1.要写一个可编辑的表格:表格中的一列是下拉框。实现方法很简单:在el-table-column(elemen提…

PMP课堂模拟题目及解析(第9期)

81. 一位经验丰富的项目经理在到达一个重大开发里程碑之前识别到一个问题,项目经理采取相应的行动,并能够按时解决问题。两周后,发起人通知项目经理,客户发出了处罚费。若要避免这个问题,项目经理应该事先做什么&…

FGX Native 1.4.1.1 For Delphi Crack

FGX Native 1.4.1.1 For Delphi Crack FGX Native Network Frame是制造跨平台和现代移动设备的强大工具。FG开发团队的主要目标是简化移动应用程序的开发,使大多数人都能以各种技能开发应用程序。此外,这种形式的网络最重要的功能可以在100%的用户界面中…

CorelDRAW2020工作室版下载及新增功能介绍

CorelDRAW Graphics Suite 2020将基于人工智能的图形设计提升到一个全新水平。CorelDRAW 中增强了“查找和替换”\“对齐和分布”、阴影效果等功能。您喜欢的 Corel PHOTO-PAINT 功能 — 从遮罩、效果和透镜到“替换颜色”— 均已优化! 针对操作系统的功能优化 Core…

微信之小程序授权登录

首先我要怒骂微信的后台开发 真的还是乱七八糟。 首先我们登录微信开发平台 选择要开发的类型 然后小程序登录:选择 微信小程序实现微信登录详解(JAVA后台)官方文档:https://developers.weixin.qq.com/miniprogram/dev/framework…

玩转ChatGPT:魔改文章成果格式

一、写在前面 首先,我让小Chat替我吐槽一下: 科研人员天天都在填各种表格,简直成了我们的“表格王子”和“表格公主”。从申请项目、提交论文到汇报成果,表格无处不在。我们填表格的时候总是期待着它能让我们的工作更高效、更顺…

Redis 内存消耗及回收

Redis 是一个开源、高性能的 Key-Value 数据库,被广泛应用在服务器各种场景中。Redis 是一种内存数据库,将数据保存在内存中,读写效率要比传统的将数据保存在磁盘上的数据库要快很多。所以,监控 Redis 的内存消耗并了解 Redis 内存…

tinyWebServer 学习笔记——四、日志系统

文章目录 一、基础知识1. 概念2. API 二、代码解析1. 单例模式2. 阻塞队列3. 日志类定义4. 生成日志文件并判断写入方式5. 日志分级与分文件 参考文献 一、基础知识 1. 概念 流程图 [2] 日志:由服务器自动创建,用于记录运行状态和错误信息;同…

C++系列六:运算符

C运算符 1. 算术运算符2. 关系运算符3. 逻辑运算符4. 按位运算符5. 取地址运算符6. 取内容运算符7. 成员选择符8. 作用域运算符9. 总结 1. 算术运算符 算术运算符用于执行基本数学运算,例如加减乘除和取模等操作。下表列出了C中支持的算术运算符: 运算…

JSON+AJAX+ThreadLocal+文件上传下载

文章目录 JSON和AJAX文档介绍1. JSON介绍1.1 JSON快速入门1.2 JSON和字符串转换1.2.1 JSON转字符串1.2.2 字符串转JSON1.2.3 JSON和字符串转换细节 1.3 JSON在java中使用1.3.1 Java对象和JSON字符串转换1.3.2 List对象和JSON字符串转换1.3.3 Map对象和JSON字符串转换 2. Ajax介…

DAY 58 数据库的存储引擎

存储引擎的概念 什么是存储引擎 MySQL中的数据用各种不下同的技术存储在文件中,每一种技术都使用不同的存储机制、索引技巧、锁定水平并最终提供不同的功能和能力,这些不同的技术以及配套的功能在MySQL中称为存储引擎。 存储引擎是MySQL将数据存储在文…

JUC之volatile

作用:volatile是Java提供的一种轻量级的同步机制 保证内存可见性 不保证原子性 防止指令重排序 public class VolatileDemo {private static int num0;public static void main(String[] args) {new Thread(()->{while (num0){}},"A").start();try {…

Spark大数据处理讲课笔记4.6 Spark SQL数据源 - JDBC

文章目录 零、本讲学习目标一、Spark SQL读取关系数据库二、Spark SQL JDBC连接属性三、创建数据库与表(一)创建数据库(二)创建学生表(二)创建成绩表 四、读取和写入数据库表(一)利用…