宏基因组序列分析工具EukRep

news2024/9/23 13:28:13

文章:Genome-reconstruction for eukaryotes from complex natural microbial communities | bioRxiv

仓库:patrickwest/EukRep: Classification of Eukaryotic and Prokaryotic sequences from metagenomic datasets (github.com)

推荐使用conda进行安装:

conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep

或者通过pip安装(需预先安装scikit-learn版本0.19.2):

pip install EukRep

示例用法

  • 从fasta文件中识别并输出预测为真核起源的序列:

    EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>

  • 同时识别并分别从fasta文件中输出真核和原核起源的序列:

    EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file> --prokarya <Prokaryote sequence output file>

获取真核生物bins EukRep设计用于作为更大规模分析流程的一部分。如需根据“从复杂自然微生物群落中重建真核生物基因组”(West等人,待审阅)一文中所述的方法获得高质量的基因预测及对已识别的真核contigs进行分箱,请参阅以下方法部分: Genome-reconstruction for eukaryotes from complex natural microbial communities | bioRxiv

  • 或者

查看提供的示例工作流程(正在进行中): https://github.com/patrickwest/EukRep_Pipeline

调整筛选严格度 可以通过-m参数调整识别真核contig的严格度。以下是严格、平衡和宽松模式下的假阳性率(FPR)和假阴性率(FNR)。默认设置为平衡模式。在0.6.5版本之前,默认设置为宽松模式。

在对模拟新型门类基因组生成的20kb和5kb片段化支架运行EukRep后,获得了如下所示的数据:

20kb

5kb

此处未给出具体的数据内容,但可根据上述描述理解,在不同长度的支架上应用EukRep,可以得到不同筛选严格度下对应的假阳性和假阴性结果。

典型使用流程:官方推荐

patrickwest/EukRep_Pipeline (github.com)

 

EukRep_Pipeline 这是一个结合EukRep从元基因组中分箱真核生物基因组的示例工作流程。其中包含了一个示例bash脚本euk_pipeline.sh,整合了以下所有步骤。

要求:

  • 预先组装完成的shotgun元基因组样本及其每条scaffold覆盖度信息
  • EukRep工具
  • CONCOCT或metabat工具
  • genemark-ES
  • MAKER2
  • BUSCO
  • 可选但推荐:pyenv

使用EukRep分类 在预先组装的shotgun元基因组样本上运行EukRep:

EukRep -i metagenome.fa -o euk_contigs.fa

如果你处理的是高度复杂或片段化的元基因组,建议降低最小contig长度阈值:


EukRep -i metagenome.fa -o euk_contigs.fa --min 1000

自动分箱 此步骤对于分离样本中的多个真核生物基因组至关重要。 为了获得尽可能高质量的基因预测结果,在进行基因预测前必须将基因组分开。 需要每条scaffold的覆盖度信息 使用CONCOCT执行:

concoct --coverage_file euk_contig_cov.txt --composition_file euk_contigs.fa
mkdir clusters
python /path/to/CONCOCT/scripts/extract_fasta_bins.py --output_path ./clusters/ euk_contigs.fa clustering_gt1000.csv

使用metabat执行:

metabat -a euk_contig_cov.txt -i euk_contigs.fa -o bin -t 6

按bin大小过滤 我们发现在此阶段过滤掉小于2.5 Mbp的bin非常有用。这种过滤可以去除大部分假阳性结果,尤其是当使用CONCOCT时,因为CONCOCT会对每一条scaffold进行分箱,往往会产生许多非常小的bin。训练GeneMark-ES

perl gmes_petap.pl --ES -min_contig 10000 --sequence bin_1.fa

-min_contig选项指定了用于训练指定bin基因预测模型的最小contig长度。并非需要该bin中的每个contig都被用于训练,但如果超过阈值的contig过少,训练可能失败。由于许多来自元基因组的bin通常十分碎片化,所以可能需要调整这个选项。

使用训练好的GeneMark-ES模型和MAKER2预测基因 MAKER使用控制文件。至少建议以以下方式修改它们,以便使用RepeatMasker和GeneMark-ES进行基因预测: 在'maker_opts.ctl'文件中:

keep_preds=1
gmhmm=/path/to/output/gmhmm.mod

然后使用6个核心运行MAKER:

maker -g bin_1.fa -c 6 cd *.maker.output fasta_merge -d *_master_datastore_index.log -o bin_1

为了进一步提高基因预测质量,MAKER能够整合来自相关物种参考基因组的同源蛋白质、转录组证据以及其他如AUGUSTUS等的ab initio基因预测器。为了获取高质量的基因预测,通常最好利用所有可用的这些证据来源。

对许多元基因组样本而言,进行ab initio基因预测可能是唯一可选择的方法。运行BUSCO

python3 BUSCO.py -i *.maker.proteins.fasta -l eukaryota_odb9 -o bin_1 -m prot

BUSCO将在你的bin内寻找单拷贝直系同源基因(SCGs),提供一个完整性估计(以及粗略的重复单拷贝基因污染评估)。 -l参数指定了要使用的SCG谱系集。我们通常使用eukaryota_odb9因为它最通用,然而当你对你的bin所属的生物类型有了更清晰的认识后,也可以选择使用更具体的谱系集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1360603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机械配件移动商城课程概述

项目介绍 开发准备 任务 开源库介绍 框架搭建 工具类

C++-异常处理

1、概念 异常时程序在执行期间产生的问题。C异常是指在程序运行时发生的特殊情况。比如string::at函数下标越界等。 异常提供了一种转移程序控制权的方式。 一旦程序出现异常没有经过处理&#xff0c;就会造成程序运行崩溃。 处理异常的方式有&#xff1a;抛出异常&#xff08;…

算法每日一题:队列中可以看到的人数 | 单调栈

大家好&#xff0c;我是星恒 今天是一道困难题&#xff0c;他的题解比较好理解&#xff0c;但是不好想出来&#xff0c;接下来就让我带大家来捋一捋这道题的思路&#xff0c;以及他有什么特征 题目&#xff1a;leetcode 1944有 n 个人排成一个队列&#xff0c;从左到右 编号为 …

【面试高频算法解析】算法练习6 广度优先搜索

前言 本专栏旨在通过分类学习算法&#xff0c;使您能够牢固掌握不同算法的理论要点。通过策略性地练习精选的经典题目&#xff0c;帮助您深度理解每种算法&#xff0c;避免出现刷了很多算法题&#xff0c;还是一知半解的状态 专栏导航 二分查找回溯&#xff08;Backtracking&…

使用Python给图片加水印(通过OpenCV和Pillow实现,内含完整代码链接)

from PIL import Image, ImageFont, ImageDraw, ImageEnhance, ImageChops import cv2 import math import numpy as npdef crop_image(im):"""裁剪图片边缘空白"""bg Image.new(mode"RGBA", sizeim.size)bbox ImageChops.differenc…

vite + vue3引入ant design vue 报错

npm install ant-design-vue --save下载插件并在main.ts 全局引入 报错 解决办法一&#xff1a; main.ts注释掉全局引入 模块按需引入 解决办法二 将package.json中的ant-design-vue的版本^4.0.0-rc.4改为 ^3.2.15版本 同时将将package-lock.json中的ant-design-vue的版本…

打造私域流量的知识付费小程序saas租户平台

当今信息爆炸的时代&#xff0c;知识管理已经成为了每个人必须面对的问题。然而&#xff0c;市面上的知识付费平台大多数都是通用的&#xff0c;无法满足个性化需求。 因此&#xff0c;明理信息科技提供了一款专属定制的适合个人的知识付费平台。核心产品能力如下&#xff1a;…

Huggy Lingo: 利用机器学习改进 Hugging Face Hub 上的语言元数据

太长不看版: Hub 上有不少数据集没有语言元数据&#xff0c;我们用机器学习来检测其语言&#xff0c;并使用 librarian-bots 自动向这些数据集提 PR 以添加其语言元数据。 Hugging Face Hub 已成为社区共享机器学习模型、数据集以及应用的存储库。随着 Hub 上的数据集越来越多&…

git打tag以及拉取tag

场景&#xff1a;某次git代码发布后定版记录&#xff0c;将发版所在的commit时候代码打上tag记录&#xff0c;方便后期切换到对应tag代码位置。 查看所有tag名 git tag// 1.1.0 // 1.0.0查看tag和描述 git tag -l -n//1.0.0 云监管一期项目完结 //1.1.0 …

tcl 基础

exec catch file mkdir

使用爬虫爬取热门电影

文章目录 网站存储视频的原理M3U8文件解读网站分析代码实现 网站存储视频的原理 首先我们来了解一下网站存储视频的原理。 一般情况下&#xff0c;一个网页里想要显示出一个视频资源&#xff0c;必须有一个<video>标签&#xff0c; <video src"xxx.mp4"&…

第8课 将推流端与播放端合并为一对一音视频聊天功能

在第二章的第7课&#xff0c;我们实现了一个推流端&#xff0c;可以把音视频推送到rtmp服务器&#xff1b;在第一章的第4课&#xff0c;我们实现了一个播放器&#xff0c;可以正常播放rtmp音视频流。聪明的你应该可以想到了&#xff1a;把推流端和播放端合并在一起&#xff0c;…

求实创新 不断探索 浙江移动基于亚信科技AntDB数据库率先完成CRM系统全域改造

12日20日&#xff0c;中国信息通信研究院&#xff08;简称&#xff1a;信通院&#xff09;和中国通信标准化协会大数据库技术推进委员会&#xff08;CCSA TC601&#xff09;共同组织的2023年大数据库“星河&#xff08;Galaxy&#xff09;”案例评选结果发布。中国移动通信集团…

2024年天津体育学院专升本专业考试考生入场及考前须知

天津体育学院2024年高职升本科招生专业考试考生考前须知 一、考生入场及考试要求 1.考生于1月6日笔试考试当天&#xff0c;根据考试时间提前30分钟到达天津体育学院新校区东门&#xff0c;凭专业考试准考证、有效身份证原件&#xff0c;经查验合格后方可允许进入学校。 2.笔…

Java反射篇----第二篇

系列文章目录 文章目录 系列文章目录前言一、实现Java反射的类:二、反射机制的优缺点:三、Java 反射 API前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 一、实现…

Centos服务器安装Certbot以webroot的方式定时申请SSL免费证书

最近发现原先免费一年的SSL证书都改为3个月的有效期了&#xff0c;原先一年操作一次还能接受&#xff0c;现在3个月就要手动续期整的太慢烦了&#xff0c;还是让程序自动给处理下吧&#xff0c; 安装 Certbot yum install epel-release -y yum install certbot -yEPEL是由 Fe…

海盗传说^^

欢迎来到程序小院 海盗传说 玩法&#xff1a;海盗版俄罗斯方块&#xff0c;上键 ↑变换、 左键 ← 左移、右键 → 右移、下键 ↓ 加速, 快去玩海盗版俄罗斯方块吧^^。开始游戏https://www.ormcc.com/play/gameStart/240 html <canvas id"canvas" moz-opaque>&…

Scrum的工件

我们采用了Scrum进行开发方面的管理&#xff0c;那么所有的计划和工作都应该是透明的&#xff0c;这给了我们检查这些东西的机会&#xff0c;以便能够即时做出调整来适应即将发生的变化。 那么Scrum为我们设计了一些工件帮助我们检查我们的工作和计划&#xff0c;每个工件都有…

Chinese-llama-2部署踩坑记录

Chinese-llama-2部署踩坑记录 1. Chinese-LLaMA-Alpaca-2A. 部署a. inference_with_transformers_zhb. text generation webui_zhc. api_calls_zhd. llamacpp_zhe. privategpt_zhf. langchain_zh Tool Github 1. Chinese-LLaMA-Alpaca-2 A. 部署 a. inference_with_transform…

L1-085:试试手气

我们知道一个骰子有 6 个面&#xff0c;分别刻了 1 到 6 个点。下面给你 6 个骰子的初始状态&#xff0c;即它们朝上一面的点数&#xff0c;让你一把抓起摇出另一套结果。假设你摇骰子的手段特别精妙&#xff0c;每次摇出的结果都满足以下两个条件&#xff1a; 1、每个骰子摇出…