真核微生物基因序列鉴定工具EukRep工具的安装和详细使用方法

news2024/9/22 21:13:59

介绍

EukRep是一种用于鉴定并分析环境中的真核微生物的工具。它基于16S rRNA基因序列,可以帮助研究人员确定和分类环境样品中存在的真核微生物群落。

EukRep 从宏基因组数据集中分类真核和原核序列

安装

要求Python3 推荐使用conda安装

$ conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep

通过pip安装(需要scikit-learn v 0.19.2版本):

$ pip install EukRep

示例用法 从fasta文件中识别并输出预测为真核起源的序列:

$ EukRep -i <fasta格式的序列> -o <真核序列输出文件>

从fasta文件中识别并同时输出真核和原核起源的序列:

$ EukRep -i <fasta格式的序列> -o <真核序列输出文件> --prokarya <原核序列输出文件>

获取真核生物bins EukRep旨在作为大型分析流程的一部分使用。为了实现对已鉴定出的真核连续体进行高质量基因预测和分箱,如“从复杂自然微生物群落中重构真核生物基因组”(West等人,在审稿中)所述,请参阅方法部分:Genome-reconstruction for eukaryotes from complex natural microbial communities | bioRxiv

或者

查看提供的示例工作流程(正在进行中):GitHub - patrickwest/EukRep_Pipeline

调整识别严格度 通过-m参数可以调整识别真核连续体的严格度。以下展示了严格、平衡和宽松模式下的假阳性率(FPR)和假阴性率(FNR)。默认设置为平衡模式。在0.6.5版本之前,默认为宽松模式。

序列长度严格模式平衡模式宽松模式
20kbFPR, FNRFPR, FNRFPR, FNR
5kbFPR, FNRFPR, FNRFPR, FNR

注:以上数据是通过将EukRep应用于来自模拟新门类基因组的20kb和5kb片段化支架上获得的。

重要注意事项 根据我们的经验,大多数宏基因组样本中并未包含真核生物基因组;然而,由于EukRep存在假阳性率,即使在这种情况下,您仍可能得到输出结果。

使用流程

 

以下是一个名为euk_pipeline.sh的示例Bash脚本,其中包含了以下所有步骤。

要求:

  1. 具有每个序列的覆盖信息的预组装Shotgun元基因组样本。
  2. EukRep
  3. CONCOCT或metabat
  4. genemark-ES
  5. MAKER2
  6. BUSCO 可选(但建议):
  7. pyenv

使用EukRep分类 运行EukRep来对预组装的Shotgun元基因组样本进行处理: EukRep -i metagenome.fa -o euk_contigs.fa 如果你有一个非常复杂或碎片化的元基因组样本,建议降低最小contig大小:

 EukRep -i metagenome.fa -o euk_contigs.fa --min 1000

自动分bin 这一步对于分离样本中的多个真核基因组非常重要。 在基因预测之前,分离基因组是非常重要的,以获取尽可能高质量的基因预测结果。 需要每个序列的覆盖信息。 使用CONCOCT执行:

concoct --coverage_file euk_contig_cov.txt --composition_file euk_contigs.fa 
mkdir clusters 
python /path/to/CONCOCT/scripts/extract_fasta_bins.py --output_path ./clusters/ euk_contigs.fa clustering_gt1000.csv 

使用metabat执行:

metabat -a euk_contig_cov.txt -i euk_contigs.fa -o bin -t 6

通过bin大小进行筛选 在这个阶段,我们发现将小于2.5 Mbp的任何bin过滤掉非常有用。这种过滤可以消除大多数假阳性。特别是如果使用CONCOCT,因为CONCOCT会将每个序列分bin,通常会生成许多非常小的bin。

训练GeneMark-ES

perl gmes_petap.pl --ES -min_contig 10000 --sequence bin_1.fa -min_contig

选项指定用于训练bin的基因预测模型的contig的最小长度。您不需要使用bin的每个contig,但是如果您的contig少于阈值,训练可能会失败。许多来自元基因组的bin可能会非常碎片化,因此可能需要调整此选项。

使用训练后的GeneMark-ES模型和MAKER2预测基因 MAKER使用控制文件。至少建议按以下方式修改它们以使用RepeatMasker和GeneMark-ES来预测基因: 在'maker_opts.ctl'文件中:

keep_preds=1 
gmhmm=/path/to/output/gmhmm.mod

然后,使用以下命令以6个核心运行MAKER:

maker -g bin_1.fa -c 6 
cd *.maker.output 
fasta_merge -d *_master_datastore_index.log -o bin_1 

为了进一步改善基因预测结果,MAKER能够整合相关生物体的同源蛋白质、转录组证据以及其他诸如AUGUSTUS等从头预测的基因预测器。为获取高质量的基因预测结果,通常最好利用尽可能多的这些证据线索。

对于许多元基因组样本,执行从头预测基因可能是唯一的可用选项。

运行BUSCO

python3 BUSCO.py -i *.maker.proteins.fasta -l eukaryota_odb9 -o bin_1 -m prot

BUSCO将在您的bin中查找单拷贝正交基因(SCGs),给出完整性的估计(以及具有重复单拷贝基因的污染的粗略估计)。 -l指定要使用的SCGs的谱系集。通常我们使用eukaryota_odb9,因为它是最通用的,但是如果您对您的bin属于什么类型的生物有更好的了解,可以使用更具体的谱系集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1360853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HUAWEI华为荣耀MagicBook X 15酷睿i5-10210U处理器集显(BBR-WAH9)笔记本电脑原装出厂Windows10系统

链接&#xff1a;https://pan.baidu.com/s/1YVcnOP5YKfFOoLt0z706rg?pwdfwp0 提取码&#xff1a;fwp0 MagicBook荣耀原厂Win10系统自带所有驱动、出厂主题壁纸、系统属性专属LOGO标志、Office办公软件、华为/荣耀电脑管家等预装程序 文件格式&#xff1a;esd/wim/swm 安装…

【项目实战】分布式计算和通信框架(AKKA)入门介绍

一、AKKA是什么&#xff1f; Akka是一个用于构建高并发、分布式、可容错、事件驱动的应用程序的工具包和运行时。它基于Actor模型&#xff0c;提供了一种高效的并发编程模型&#xff0c;可以轻松地编写出高并发、分布式、可容错的应用程序。Akka还提供了一些常用的组件&#xf…

DMX512输出协议详解

目录 ​编辑 1、DMX512协议简介 2、DMX512协议分析 DMX512指令帧介绍 DMX512信息包 3、DMX512接口电路 4、参考代码 1、DMX512协议简介 DMX512是一种用于舞台灯光控制的数字传输协议。它是由美国舞台灯光协会&#xff08;USITT&#xff09;于1990年发布的工业标准&…

利用小红书笔记详情API:为内容运营提供强大的支持

利用小红书笔记详情API&#xff0c;内容运营者可以获得对小红书平台上的笔记内容的深入洞察&#xff0c;从而为其运营工作提供强大的支持。以下是该API如何支持内容运营的几个关键方面&#xff1a; 获取笔记内容与数据&#xff1a; API允许内容运营者直接获取小红书平台上的笔记…

Python轴承故障诊断 (九)基于VMD+CNN-BiLSTM的故障分类

往期精彩内容&#xff1a; Python-凯斯西储大学&#xff08;CWRU&#xff09;轴承数据解读与分类处理 Python轴承故障诊断 (一)短时傅里叶变换STFT Python轴承故障诊断 (二)连续小波变换CWT_pyts 小波变换 故障-CSDN博客 Python轴承故障诊断 (三)经验模态分解EMD_轴承诊断 …

57.6K star!一个免费开源的 API 开发生态系统

&#xff01;&#xff01;&#xff01;文末有链接&#xff01;&#xff01;&#xff01; 小伙伴们&#xff0c;你们有没有遇到这样的问题呢&#xff1f;当你作为前端开发者和后端开发者一起协同工作时&#xff0c;联调接口成了必须要做的工作。 而为了验证接口的稳定性和安全…

Python武器库开发-武器库篇之子域名扫描器开发(四十一)

Python武器库开发-武器库篇之子域名扫描器开发(四十一) 在我们做红队攻防或者渗透测试的过程中&#xff0c;信息收集往往都是第一步的&#xff0c;有人说&#xff1a;渗透的本质就是信息收集&#xff0c;前期好的信息收集很大程度上决定了渗透的质量和攻击面&#xff0c;本文将…

LabVIEW在高级结构监测中的创新应用

LabVIEW在高级结构监测中的创新应用 LabVIEW作为一个强大的系统设计平台&#xff0c;其在基于BOTDA&#xff08;光时域反射分析&#xff09;技术的结构监测中发挥着核心作用。利用LabVIEW的高效数据处理能力和友好的用户界面&#xff0c;开发了一个先进的监测系统。该系统专门…

ThreadPoolExecutor中的keepAliveTime详解

一.keepAliveTime的概念&#xff1a; keepAliveTime的单位是纳秒&#xff0c;即1s1000000000ns&#xff0c;1秒等于10亿纳秒。 keepAliveTime是线程池中空闲线程等待工作的超时时间。 当线程池中线程数量大于corePoolSize&#xff08;核心线程数量&#xff09;或设置了allowCor…

反诈宣传进社区 安全防护零距离

反诈宣传进社区 安全防护零距离 广州党建引领城中村治理志愿服务项目之“我爱我家”助建幸福网格项目&#xff0c;由中共广州市委政法委员会、广州市精神文明建设委员会办公室、广州市民政局广州市文化电旅游局、广州市来穗人员服务管理局、广州市消防救援支队、共青团广州市委…

STM32CubeMX之GPIO中断

参考文章《【STM32】HAL库 STM32CubeMX教程三----外部中断(HAL库GPIO讲解》 1 STM32CubeMX参数配置及其说明 配置好之后&#xff0c;生成代码 2 工程中的代码 用户在此函数中实现中断代码即可 /*** brief EXTI line detection callbacks.* param GPIO_Pin: Specifies the …

【计算机毕业设计】SSM停车场管理系统

项目介绍 本项目为后台管理系统&#xff0c;分为管理员、用户、工作人员三种角色&#xff1b; 管理员角色包含以下功能&#xff1a; 登陆页面,收入查看,停车卡开卡等功能。 用户角色包含以下功能&#xff1a; 用户登录,停车卡管理,优惠券管理,发送站内信,查看停车记录等功能…

wordpress个人博客/杂志主题Pin Premium

Pin Premium WordPress主题是针对博主的时尚且自适应的Pinterest风格主题。使用HTML5和CSS3技术创建&#xff0c;带有有效代码(两个演示)&#xff0c;完全响应&#xff0c;在所有移动设备上看起来完美&#xff0c;可在任何设备和 PC 上轻松使用。 响应式设计针对平板电脑和智能…

基于 Python+Django 技术栈,我开发了一款视频管理系统

学习过程中&#xff0c;遇到问题可以咨询作者 大家好&#xff0c;作为一名开发人员&#xff0c;平时比较愿意动手尝试各种有意思工具&#xff0c;因为笔者非常喜欢观看视频&#xff0c;尤其是YouTube、bilibili都是笔者非常喜欢的视频网站&#xff0c;所以想自己实现一个视频点…

astadmin安装querylist插件Puppeteer

我本来是想在linux服务器上安装&#xff0c;折腾了一天也没安装成功&#xff0c;由于急着用&#xff0c;就先做window10上安装了&#xff0c;以后有时间再研究centos7上安装 一 首先需要安装fastadmin 框架和querylist插件 这个大家可以自行安装&#xff0c;querylist安装地址…

ChatGPT大升级,文档图像识别领域迎来技术革新

​写在前面ChatGPT迎来重大升级冲击与机遇并存​大模型时代的思考与探索■ 像素级OCR统一模型- UPOCR■ OCR大一统模型- SPTS v3■ 文档识别分析LLM应用 写在最后问卷抽奖 ​写在前面 2023 年 12 月 31 日第十九届中国图象图形学学会青年科学家会议在广州召开&#xff0c;该会…

Linux ssh 实现远程免密登录

一、背景 我搭建了一个 zookeeper 集群&#xff0c;写了一个 shell 脚本来控制集群的启动和关闭&#xff0c;但是我发现每次我执行 shell 脚本的时候&#xff0c;都需要我输入各个服务器的密码才可以运行&#xff0c;感觉很麻烦。shell 脚本里面连接其他服务器用的就是 ssh 的方…

Oracle文件自动“减肥”记

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是【IT邦德】&#xff0c;江湖人称jeames007&#xff0c;10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】&#xff01;&#x1f61c;&am…

案例分析——如何优化跨境直播网络

跨境直播 风口已至 这些年越来越多商家加入直播带货行列&#xff0c;各种玩法日渐成熟。而TikTok作为当前国外最火爆的直播平台&#xff0c;不少卖家都会定期做TikTok直播引流&#xff0c;但时常会面临着远程访问导致直播画面模糊、卡顿掉线、延迟高&#xff0c;甚至可能限流黑…

目标检测-One Stage-YOLOv2

文章目录 前言一、YOLOv2的网络结构和流程二、YOLOv2的创新点预处理网络结构训练 总结 前言 根据前文目标检测-One Stage-YOLOv1可以看出YOLOv1的主要缺点是&#xff1a; 和Fast-CNN相比&#xff0c;速度快&#xff0c;但精度下降。&#xff08;边框回归不加限制&#xff09;…