8.windows ubuntu 子系统:karken2,bracken微生物物种注释

news2024/11/20 13:44:17

上次,我们对测序数据去了人源序列。接下来我们就要对去人源的reads进行微生物物种注释。

我们选择karken2和bracken。

首先是建立karken2的数据库,有多种方法。

方法一:kraken2-build --standard    --threads 4 --db ./standardDB #时间太慢

方法二:直接下载官方提供的数据库(包括kraken2及bracken),解压即可
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_8gb_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20210517.tar.gz  #时间太慢

# 方法3:手动构建数据库  #时间太慢
## step1 从 NCBI 下载分类文件
kraken2-build --download-taxonomy --db  ./K2db
## step2 下载序列数据
kraken2-build  --download-library UniVec_Core  --threads 15  --db  ./K2db
kraken2-build  --download-library UniVec  --threads 4  --15  ./K2db
## step3 构建数据库
kraken2-build  --build --threads 4  --db  ./K2db

前三种时间都比较慢,所以我不用。

第四种方法为 在windows环境下登录官网https://benlangmead.github.io/aws-indexes/k2下载自己想要的数据库,官网中有诸多类型的数据库。

官网里面有很多已经做好的数据库。我们可以选择合适的使用。
我这里先下载 standard-8 数据库
#解压缩,kracken和bracken的数据就都好了。
tar -zxvf k2_standard_08gb_20231009.tar.gz

解压缩出来的是这些文件。

接下来就可以跑数据了。

 kraken2 --threads 15 --paired --db /mnt/h/db/kraken2.db --report A1.kreport --output A1.kraken read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz 

  1. kraken2: 运行 Kraken 2 软件。

  2. --threads 15: 指定使用的线程数为 15,即并行处理的线程数。

  3. --paired: 表示输入的是 paired-end 测序数据。

  4. --db /mnt/h/db/kraken2.db: 指定 Kraken 2 数据库的路径,即要用于比对和分类的数据库。

  5. --report A1.kreport: 指定输出报告文件的名称为 A1.kreport,该报告包含了分类和注释的结果信息。

  6. --output A1.kraken: 指定输出文件的名称为 A1.kraken,该文件包含了每个 reads 的分类结果。

  7. read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz: 输入的 paired-end 测序数据文件,分别是第一端和第二端的 fastq 文件。

接下来就是bracken.

 bracken -d /mnt/h/db/kraken2.db -i A1.kreport -o A1.bracken.S -w A1.bracken.S.kreport -l S -t 15

  1. bracken: 运行 Bracken 软件。

  2. -d /mnt/h/db/kraken2.db: 指定 Kraken 2 数据库的路径,即要用于物种丰度估计的数据库。

  3. -i A1.kreport: 指定输入的 Kraken 2 分类报告文件,即 A1.kreport。

  4. -o A1.bracken.S: 指定输出文件的名称为 A1.bracken.S,该文件包含了物种丰度的估计结果。

  5. -w A1.bracken.S.kreport: 指定输出详细报告文件的名称为 A1.bracken.S.kreport,该文件包含了对每个分类水平的物种丰度估计结果。

  6. -l S: 指定要进行物种丰度估计的分类水平为 species level(物种水平)。

  7. -t 15: 指定使用的线程数为 15,即并行处理的线程数。

这就是karken2和bracken最基础的应用了,想要结果更好,还需向深处探索。

我推荐文章《Metagenome analysis using the Kraken software suite》

Kraken: ultrafast metagenomic sequence classification using exact alignments》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1547397.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云国际DDoS高防的定制场景策略

DDoS高防的定制场景策略允许您在特定的业务突增时段(例如新业务上线、双11大促销等)选择应用独立于通用防护策略的定制防护策略模板,保证适应业务需求的防护效果。您可以根据需要设置定制场景策略。 背景信息 定制场景策略提供基于业务场景…

白话模电:4.耦合、差分、无源滤波、反馈(考研面试常问问题)

一、介绍一下三极管多级放大电路的三种耦合方式及其特点?耦合的目的是什么? 多级放大电路中各放大级之间的连接方式称为耦合方式。常见的耦合方式有三种:阻容耦合(RC耦合)、直接耦合和变压器耦合。 耦合的目的是将信号…

GIMP - GNU 图像处理程序 - 工具栏窗口 (Toolbox) 显示

GIMP - GNU 图像处理程序 - 工具栏窗口 [Toolbox] 显示 1. File -> Open2. GIMP 主面板里,右击弹出菜单 -> Tools -> New Toolbox3. Windows -> Dockable Dialogs -> Tool Options4. 工具选项拖动到工具箱里面5. Always On TopReferences GIMP 是跨平…

【面试题】ES文档写入和读取流程详解

前言:在回答这个问题之前我们先要搞清楚一个问题那就是什么是文档,避免不知所云! 一、什么是文档? 在Elasticsearch中,文档(Document)是最基本的信息单元,用于表示和存储数据。文…

[CSS]中块级格式化上下文(BFC)

块级格式化上下文 (BFC) 1. 什么是BFC BFC(Block Formatting Context)是一个独立的渲染区域,在这个区域内的布局不会影响到这个区域之外的元素。换句话说,它就像一个隔离的空间,里面的元素布局…

Django(二)-搭建第一个应用(1)

一、项目环境和结构 1、项目环境 2、项目结构 二、编写项目 1、创建模型 代码示例: import datetimefrom django.db import models from django.utils import timezone# Create your models here.class Question(models.Model):question_text models.CharField(max_length2…

Jmeter脚本优化——随机函数

线程组下有 2 个请求的参数中均使用到相同的参数,在进行参数化时,想 要每个请求使用不同的取值。 ( 1 ) 线程组设置如下 ( 2 ) 线程组下添加加购物车请求,请求传参包含商品 id (…

app自动化-Appium学习笔记

使用Appium,优点: 1、支持语言比较多,例如:Java、Python、Javascript、PHP、C#等语言 2、支持跨应用(windows、mac、linux) 3、适用平台Android、iOS 4、支持Native App(原生app)、Web App、Hybird App…

Go语言学习Day2:注释与变量

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、注释①为什么要写注释?②单行注释…

Android卡顿掉帧问题分析之工具篇

“工欲善其事,必先利其器”,在开始着手分析卡顿问题之前,我们还必须要掌握一些分析性能问题的工具与手段,也就是掌握分析问题所使用的“器”,才能帮助我们更好的观测系统运行的状态,找到性能问题的原因。Sy…

AI助力智慧农田作物病虫害监测,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建花田作物种植场景下棉花作物常见病虫害检测识别系统

智慧农业是一个很大的应用市场,将当下如火如荼的AI模型技术与现实的农业生产场景相结合能够有效提升生产效率,农作物在整个种植周期中有很多工作需要进行,如:浇水、施肥、除草除虫等等,本文的主要目的是想要以棉花作物…

基于SpringBoot和Vue的车辆管理系统的设计与实现

今天要和大家聊的是一款基于SpringBoot和Vue的车辆管理系统的设计与实现 !!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!! 💕💕作者:李同学 💕&#x1f…

吴恩达深度学习笔记:浅层神经网络(Shallow neural networks)3.6-3.8

目录 第一门课:神经网络和深度学习 (Neural Networks and Deep Learning)第三周:浅层神经网络(Shallow neural networks)3.6 激活函数(Activation functions)3.7 为什么需要非线性激活函数?(why need a non…

Databend 开源周报第 137 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。 支持查询匹配倒…

区块链安全之DDoS防护的重要性及其实施策略

随着区块链技术的不断发展和广泛应用,其安全问题也日益凸显。其中,分布式拒绝服务(DDoS)攻击是对区块链网络稳定性和效率构成潜在威胁的重要因素之一。本文旨在深入探讨区块链为何需要采取DDoS高防措施,并提出相应的防护策略。 一、区块链面…

Spark RDD、DataFrame和DataSet的区别

Spark RDD、DataFrame和DataSet的区别 在比较这三者的区别之前,先看看他们各自的定义是什么。 Spark RDD RDD是一种弹性分布式数据集,是一种只读分区数据。它是spark的基础数据结构,具有内存计算能力、数据容错性以及数据不可修改特性。 S…

教程3_图像的轮廓

目录 目标 1. 特征矩 2、轮廓质心 3. 轮廓面积 4. 轮廓周长 5. 轮廓近似 6. 轮廓凸包 7. 边界矩形 7.1.直角矩形 7.2. 旋转矩形 8. 最小闭合圈 9. 拟合一个椭圆 10. 拟合直线 目标 在本文中,我们将学习 - 如何找到轮廓的不同特征,例如面积&…

API网关-Apisix路由配置教程(数据编辑器方式)

文章目录 前言一、端口修改1. apisix 端口修改2. dashboard 端口修改3. 登录密码修改 二、常用插件介绍1. 常用转换插件1.1 proxy-rewrite插件1.1.1 属性字段1.1.2 配置示例 2. 常用认证插件2.1 key-auth插件2.1.1 消费者端字段2.1.2 路由端字段2.1.3 配置示例 2.2 basic-auth插…

工作多年,如何从 CRUD Boy 转型为分布式系统架构师?解锁分布式系统的艺术:从零开始理解分布式系统架构与设计原理!...

编程是一门艺术,它的魅力在于创造。 65 哥已经工作5年了,一直做着简单重复的编程工作,活活熬成了一个只会 CRUD 的打工 boy。 65 哥:总是听大佬讲分布式分布式,什么才是分布式系统呢? 分布式系统是一个硬件…

PyCharm Pro 2023 for Mac/Win:打造极致Python开发体验

在数字化浪潮席卷全球的今天,Python已成为众多开发者手中的利器。无论是数据分析、机器学习还是Web开发,Python都以其简洁易懂的语法和强大的功能库赢得了广泛好评。而在这个高效编程的时代,一款出色的Python开发工具,无疑能让开发…