基于BWA,Bowtie2,samtools、checkm等工具计算宏基因组学序列分析中Contigs与Genes在样品中的丰度,多种计算方式和脚本对比

news2024/11/16 23:47:54

计算contigs和genes相对丰度可以提供有关微生物群落结构和功能的信息。以下是计算这两个指标的意义:

1. Contigs的相对丰度:contigs是利用基因组测序技术获得的碎片序列,通过计算contigs的相对丰度可以了解微生物群落中不同菌种的相对丰度。这可以帮助研究者理解微生物群落的物种组成和群落结构。

2. Genes的相对丰度:基因是生物体内功能的基本单位,通过计算基因的相对丰度可以了解不同菌群的功能特征。这可以帮助研究者了解微生物群落的代谢能力、生物合成能力和环境适应性等。

通过同时计算contigs和genes的相对丰度,可以提供全面的微生物群落信息。这些信息对于研究者了解微生物群落的组成和功能、揭示微生物与宿主相互作用等方面具有重要的意义。

第一种方式 基于Bowtie2、samtools、checkm

计算contigs的丰度一般使用assembly的结果,计算基因风度时一般用prodigal的结果,prodigal结果中建议同时输出蛋白序列和核酸序列文件,基因注释是一般使用diamond需要使用蛋白序列,而这里计算丰度需要与原始核酸序列进行比对,所以这里要用核酸序列,prodigal输出的核酸序列和蛋白序列id一样,所以只需要最后以序列id进行mapping就可以了。

首先根据拼接的contigs构建新的Index,如下所示:

bowtie2-build --threads 20 sample1/final_assembly.fasta sample1.contig

# 或 prodigal结果
bowtie2-build --threads 20 sample1.nucle_seq.fa sample1.gene

接下来将宏基因组测序的全部reads映射到拼接得到的Contigs上,每个reads至多只能分配到一条Contigs上:

#注意前面步骤的输出文件名,与这里的-x参数对应
# 如果是使用assembly的
bowtie2 -p 20 \
    -x sample1.contig \
    -1 sample1_clean_reads_1.fq \
    -2 sample1_clean_reads_2.fq \
    -S sample1.contig.sam \
    --fast

# 或 prodigal结果
bowtie2 -p 20 \
    -x sample1.gene \
    -1 sample1_clean_reads_1.fq \
    -2 sample1_clean_reads_2.fq \
    -S sample1.gene.sam \
    --fast

以下为第二种方式共用

使用samtools工具将sam文件转化为bam文件:

samtools view -bS --threads 20 sample1.contig.sam > sample1.contig.bam

# prodigal
samtools view -bS --threads 20 sample1.gene.sam > sample1.gene.bam

对bam文件按照比对的位置坐标对reads进行排序:

samtools sort sample1.contig.bam -o sample1.contig.reads.sorted.bam --threads 20

# prodigal结果
samtools sort sample1.gene.bam -o sample1.gene.reads.sorted.bam --threads 20

此bam文件中便储存了reads的mapping结果,接下来一般是自己写脚本来解析。这里我们也可以借助CheckM来实现。要计算coverage首先需要准备bam的index文件,如下所示:

samtools index sample1.contig.reads.sorted.bam

#prodigal 结果
samtools index sample1.gene.reads.sorted.bam

运行结束后生成会生成伴随的index文件contig.reads.sorted.bam.bai,其与对应的sorted bam放在同一路径。CheckM是一个宏基因组bins评估工具,这时候我们可以把所有的contigs序列文件当作一个“bin”放到bins文件夹中。接下来使用CheckM计算coverage:

#每个样品一个文件夹,作为一个bin
mkdir sample1
cp sample1.contig.fasta sample1
checkm coverage \
    -x fasta \
    -m 20 \
    -t 20 \
    sample1 \
    sample1.contigs_coverage.out \
    sample1.contig.reads.sorted.bam

### prodigal
cp sample1.nucle_seq.fa sample1
checkm coverage \
    -x fasta \
    -m 20 \
    -t 20 \
    sample1 \
    sample1.gene_coverage.out \
    sample1.gene.reads.sorted.bam

结果包含contig序列ID、所在的bin的ID、coverage等信息,如下所示,用excel对齐了看吧:

  • Sequence Id: 序列的唯一标识符。
  • Bin Id: 该序列所属的Bin(即被分组到哪个类别)。在宏基因组学中,Bin通常指的是组装后相似特征或物种的组集合。
  • Sequence length (bp): 序列的长度,以碱基对(bp)计算。
  • Bam Id: 对应该序列的测序数据文件。
  • Coverage: 覆盖度,指的是这个contig在样品中出现的平均次数。它通常由测序reads的比对情况得出。
  • Mapped reads: 映射的reads数量,指的是能够成功比对到这个contig上的测序reads数量。

相对丰度计算公式:

要计算基因在样品中的相对丰度,您可以使用覆盖度和Mapped reads。通常情况下,丰度可以用覆盖度和测序reads的总数来估算。例如,可以使用以下公式计算相对丰度:

其中:

  • Mapped reads 是该contig的映射reads数量。
  • Average read length 是测序reads的平均长度。
  • Total reads 是所有测序reads的总数。

Total reads统计:

 python脚本:

def count_reads_fastq(fastq_file):
    with open(fastq_file, 'r') as f:
        count = sum(1 for line in f) // 4  # 每4行代表一个read,因此除以4得到reads数量
    return count

# 替换为您的FASTQ文件路径
file_path = 'path/to/your/fastq_file.fastq'

# 调用函数计算reads数量
reads_count = count_reads_fastq(file_path)
print(f"FASTQ文件中的reads数量为: {reads_count}")

bash脚本:

# 统计FASTQ文件中reads的数量
grep -c "^@" your_fastq_file.fastq

这里需要注意第一列的sequence id,后续需要mapping到基因注释结果中对应的seq id,除此外,我们只需要reads的mapping信息即可。接下来可以根据map的reads数计算相对丰度,也即除以contig长度和总得reads数,类似于RNA-seq中的RPKM标准化方法。假如是多样品混合拼接,只需要将每一个样品的reads数据重复上面操作,最后根据contig id进行整合。

第二种方式:BWA(推荐)、samtools、CheckM

#首先对参考序列构建index:
bwa index -p sample1_gene sample1.nucle_seq.fa
#使用BWA-MEM进行比对:
bwa mem \
    -t 20 \
    sample1_gene \
    sample1_clean_1.fastq \
    sample1_clean_2.fastq \
    >sample1_gene.sam

从这里开始与第一种方式samtools步骤开始相同

第三种方式: bedtools计算

# 步骤1:比对测序reads到参考基因组
# 假设使用Bowtie2进行比对
bowtie2-build your_genome.fa your_genome_index  # 如果尚未构建索引
bowtie2 -x your_genome_index -U your_reads.fastq -S aligned.sam

# 步骤2:将比对结果转换为BAM格式
samtools view -S -b aligned.sam > aligned.bam

# 步骤3:提取覆盖度信息
# 假设使用bedtools进行提取覆盖度信息
bedtools genomecov -ibam aligned.bam -g your_genome.fa.fai > coverage.bed

# 步骤4:计算基因长度
# 假设已经有基因长度信息的文件,如genes_lengths.txt

# 步骤5:计算相对丰度
awk 'BEGIN {OFS="\t"} NR==FNR {len[$1]=$2; next} {print $1, $2/len[$1]}' genes_coverage.txt genes_lengths.txt > relative_abundance.txt

全流程计算脚本

多样品请自己做for循环操作

自动分析脚本1

用于计算基于 bwa-memsamtoolsCheckM 的Contigs相对丰度。该脚本假设你已经有参考基因组和测序数据,并安装了相应的软件。

#!/bin/bash

# 定义文件路径
reference_genome="your_reference_genome.fa"
reads="your_reads.fastq"

# 步骤1:用bwa-mem比对测序reads到参考基因组
bwa index $reference_genome  # 如果尚未构建索引
bwa mem -t 4 $reference_genome $reads > aligned.sam

# 步骤2:将比对结果转换为BAM格式
samtools view -bS aligned.sam > aligned.bam
samtools sort -o aligned_sorted.bam aligned.bam
samtools index aligned_sorted.bam

# 步骤3:使用CheckM估算Contigs的丰度
checkm lineage_wf -f checkm_output.txt -x fa $reference_genome contigs_dir/ checkm_results/

# 步骤4:提取覆盖度信息
checkm qa -o 2 -f checkm_coverage.txt checkm_results/lineage.ms contigs_dir/ coverage.txt

自动分析脚本2

基于bowtie2samtoolsbedtools计算Contigs或Genes在样品中相对丰度的流程自动分析脚本。请注意,这个脚本仅供参考,并不能直接运行,因为其中的文件路径、参数和具体数据可能需要根据实际情况进行调整。

#!/bin/bash

# 假设有参考基因组文件your_genome.fa,测序reads文件your_reads.fastq和基因注释文件genes_annotation.gff

# 步骤1:构建参考基因组索引
bowtie2-build your_genome.fa your_genome_index

# 步骤2:将测序reads比对到参考基因组
bowtie2 -x your_genome_index -U your_reads.fastq -S aligned.sam

# 步骤3:将比对结果转换为BAM格式
samtools view -S -b aligned.sam > aligned.bam

# 步骤4:生成基因覆盖度文件
bedtools genomecov -ibam aligned.bam -g your_genome.fa.fai > coverage.txt

# 步骤5:根据基因注释文件提取基因长度信息
awk '{if($3=="gene") print $0}' genes_annotation.gff | cut -f 1,4,5 > genes_lengths.txt

# 步骤6:根据覆盖度和基因长度信息计算相对丰度
awk 'BEGIN {OFS="\t"} NR==FNR {len[$1]=$3-$2; next} {print $1, $2/len[$1]}' coverage.txt genes_lengths.txt > relative_abundance.txt

# 输出结果
echo "相对丰度计算完成。结果保存在 relative_abundance.txt 文件中。"

自动分析脚本3 

# python
import subprocess
import os

# 定义文件路径
ref_genome = 'path/to/your_reference_genome.fasta'
sample_reads = 'path/to/your_sample_reads.fastq'
gene_lengths = 'path/to/your_gene_lengths.txt'

# 步骤1:比对测序reads到参考基因组
# 使用Bowtie2进行比对
bowtie_index = 'your_genome_index'
subprocess.run(['bowtie2-build', ref_genome, bowtie_index])
subprocess.run(['bowtie2', '-x', bowtie_index, '-U', sample_reads, '-S', 'aligned.sam'])

# 步骤2:将比对结果转换为BAM格式
subprocess.run(['samtools', 'view', '-S', '-b', 'aligned.sam', '-o', 'aligned.bam'])

# 步骤3:提取覆盖度信息
subprocess.run(['bedtools', 'genomecov', '-ibam', 'aligned.bam', '-g', ref_genome + '.fai', '>', 'coverage.bed'])

# 步骤4:计算基因长度
# 假设已经有基因长度信息的文件

# 步骤5:计算相对丰度
with open('genes_coverage.txt', 'r') as cov_file, open(gene_lengths, 'r') as len_file, open('relative_abundance.txt', 'w') as output:
    for cov_line, len_line in zip(cov_file, len_file):
        contig_id, coverage = cov_line.strip().split('\t')
        gene_id, length = len_line.strip().split('\t')
        rel_abundance = float(coverage) / float(length)
        output.write(f"{gene_id}\t{rel_abundance}\n")

# 清理临时文件(可选)
os.remove('aligned.sam')
os.remove('aligned.bam')
os.remove('coverage.bed')

自动分析脚本4

NGless 是一个用于分析宏基因组数据的领域特定语言(DSL)。

安装和使用参考:生物信息学分析领域领先的特制语言环境NGLess(Next Generation Less)介绍、安装配置和详细使用方法-CSDN博客

以下是一个使用 NGless 的示例脚本,用于计算 contigs 或 genes 在样品中的相对丰度。请注意,这只是一个简化的示例,实际的分析脚本可能需要根据具体的数据和需求进行调整。

# 加载所需模块
ngless "0.11"
import "mapped"

# 定义输入文件
input = paired('sample_R1.fastq.gz', 'sample_R2.fastq.gz') using |read|:
    read = read.subsample(percent=10)  # 使用10%的数据进行演示

# 比对reads到Contigs或Genes
mapped = map(input, reference='contigs.fasta.gz', fafile=True) using |read|:
    read = read.subsample(percent=10)  # 使用10%的数据进行演示

# 计算覆盖度
cov = coverage(mapped)

# 计算Contigs或Genes的相对丰度
geneabundance = abundance(cov)

# 输出结果
write(geneabundance, ofile='gene_relative_abundance.txt', format="tsv")

NGless 脚本说明:

  1. 模块导入和输入定义: 使用 ngless 版本 0.11,并导入 mapped 模块。定义输入文件为样品的 paired-end 测序 reads。

  2. 比对 reads 到 Contigs 或 Genes: 使用 map 函数将测序 reads 比对到 Contigs 或 Genes 的参考序列文件(这里是示意性的文件名 contigs.fasta.gz,实际需根据具体文件名修改)。

  3. 计算覆盖度: 使用 coverage 函数从比对结果中计算覆盖度信息。

  4. 计算相对丰度: 使用 abundance 函数从覆盖度信息中计算Contigs或Genes的相对丰度。

  5. 输出结果: 使用 write 函数将相对丰度结果写入文件 gene_relative_abundance.txt,并以制表符分隔的文本格式保存。

自动分析脚本5

# R
# 加载所需的R包
library("GenomicRanges")

## ######################获取contigs或者genes覆盖度数据
# 假设你有参考基因组文件为 genome.fa,测序 reads 文件为 reads.fastq

# 步骤1:比对测序 reads 到参考基因组
# 这里假设使用Bowtie2进行比对,需要Bowtie2已安装
system("bowtie2-build genome.fa genome_index")  # 构建索引

system("bowtie2 -x genome_index -U reads.fastq -S aligned.sam")  # 进行比对

# 步骤2:将比对结果转换为BAM格式
# 需要安装samtools
system("samtools view -S -b aligned.sam > aligned.bam")

# 步骤3:使用GenomicRanges包计算覆盖度
# 安装GenomicRanges包:install.packages("GenomicRanges")
library(GenomicRanges)

# 读取 BAM 文件
bam <- readGAlignments("aligned.bam", use.names=TRUE, param=ScanBamParam(what="pos"))

# 计算覆盖度
coverage <- coverage(bam)

# 将覆盖度信息写入文件
write.table(coverage, file="coverage_data.txt", sep="\t", quote=FALSE, col.names=TRUE, row.names=TRUE)

##############获取 contigs和genes 的长度数据
# 加载所需的R包
library("data.table")

# 步骤1:从组装结果文件中获取Contigs的长度
# 假设有一个示意的组装结果文件(示意数据)
assembly_data <- fread("assembly_results.csv")  # 读取组装结果文件

# 计算Contigs的长度
contigs_lengths <- nchar(assembly_data$Contig_Sequence)  # 假设Contig_Sequence列包含Contig序列
contigs_data <- data.frame(Contig = assembly_data$Contig_ID, Length = contigs_lengths)

# 步骤2:从基因预测结果文件中获取Genes的长度
# 假设有一个示意的基因预测结果文件(示意数据)
gene_prediction_data <- fread("gene_prediction_results.csv")  # 读取基因预测结果文件

# 计算Genes的长度
genes_lengths <- gene_prediction_data$Gene_End - gene_prediction_data$Gene_Start + 1
genes_data <- data.frame(Gene = gene_prediction_data$Gene_ID, Length = genes_lengths)

# 显示Contigs和Genes的长度信息
print("Contigs长度信息:")
print(contigs_data)

print("Genes长度信息:")
print(genes_data)


############# 计算丰度
# 步骤1:读取数据
# 假设有Contigs或Genes的覆盖度数据和长度数据文件(示意)
coverage_data <- read.table("coverage_data.txt", header=TRUE)  # Contigs或Genes的覆盖度数据文件
gene_lengths <- read.table("gene_lengths.txt", header=TRUE)  # Contigs或Genes的长度数据文件

# 步骤2:计算相对丰度
# 合并覆盖度数据和基因长度数据
merged_data <- merge(coverage_data, gene_lengths, by="Gene")

# 计算相对丰度(示意:使用简单的覆盖度除以长度)
merged_data$Relative_Abundance <- merged_data$Coverage / merged_data$Length

# 显示计算结果
print(merged_data)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1314413.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023.12.14每日一题

2023.12.14 题目来源我的题解二维前缀和二维差分 题目来源 力扣每日一题&#xff1b;题序&#xff1a;2132 我的题解 哈哈哈哈&#xff01;&#xff01;&#xff01;我不会&#xff0c;借鉴一下官方题解 二维前缀和二维差分 求二维前缀和&#xff0c;用于判断快速判断右下角…

GPT-4V被超越?SEED-Bench多模态大模型测评基准更新

&#x1f4d6; 技术报告 SEED-Bench-1&#xff1a;https://arxiv.org/abs/2307.16125 SEED-Bench-2&#xff1a;https://arxiv.org/abs/2311.17092 &#x1f917; 测评数据 SEED-Bench-1&#xff1a;https://huggingface.co/datasets/AILab-CVC/SEED-Bench SEED-Bench-2&…

Tomcat-安装部署(源码包安装)

一、简介 Tomcat 是由 Apache 开发的一个 Servlet 容器&#xff0c;实现了对 Servlet 和 JSP 的支持&#xff0c;并提供了作为Web服务器的一些特有功能&#xff0c;如Tomcat管理和控制平台、安全域管理和Tomcat阀等。 简单来说&#xff0c;Tomcat是一个WEB应用程序的托管平台…

【期末复习向】长江后浪推前浪之ChatGPT概述

参考文章&#xff1a;GPT系列模型技术路径演进-CSDN博客 这篇文章讲了之前称霸NLP领域的预训练模型bert&#xff0c;它是基于预训练理念&#xff0c;采用完形填空和下一句预测任务2个预训练任务完成特征的提取。当时很多的特定领域的NLP任务&#xff08;如情感分类&#xff0c…

jenkins-Generic Webhook Trigger指定分支构建

文章目录 1 需求分析1.1 关键词 : 2、webhooks 是什么&#xff1f;3、配置步骤3.1 github 里需要的仓库配置&#xff1a;3.2 jenkins 的主要配置3.3 option filter配置用于匹配目标分支 实现指定分支构建 1 需求分析 一个项目一般会开多个分支进行开发&#xff0c;测试&#x…

Redis设计与实现之跳跃表

目录 一、跳跃表 1、跳跃表的实现 2、跳跃表的应用 3、跳跃表的时间复杂度是什么&#xff1f; 二、跳跃表有哪些应用场景&#xff1f; 三、跳跃表和其他数据结构&#xff08;如数组、链表等&#xff09;相比有什么优点和缺点&#xff1f; 四、Redis的跳跃表支持并发操作吗…

使用React实现随机颜色选择器,JS如何生成随机颜色

背景 在标签功能中&#xff0c;由于有「背景色」属性&#xff0c;每次新增标签时都为选择哪种颜色犯难。因此&#xff0c;我们思考如何通过JS代码生成随机颜色&#xff0c;提取一个通用的随机颜色生成工具&#xff0c;并基于React框架封装随机颜色选择器组件。 实际效果 原理…

智能插座是什么

智能插座 电工电气百科 文章目录 智能插座前言一、智能插座是什么二、智能插座的类别三、智能插座的原理总结 前言 智能插座的应用广泛&#xff0c;可以用于智能家居系统中的电器控制&#xff0c;也可以应用在办公室、商业场所和工业控制中&#xff0c;方便快捷地实现电器的远…

Python:如何将MCD12Q1\MOD11A2\MOD13A2原始数据集批量输出为TIFF文件(镶嵌/重投影/)?

博客已同步微信公众号&#xff1a;GIS茄子&#xff1b;若博客出现纰漏或有更多问题交流欢迎关注GIS茄子&#xff0c;或者邮箱联系(推荐-见主页). 00 前言 之前一段时间一直使用ENVI IDL处理遥感数据&#xff0c;但是确实对于一些比较新鲜的东西IDL并没有python那么好的及时性&…

【STM32独立看门狗(IWDG) 】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、看门狗是什么&#xff1f;1.简介2. 主要功能3.独立看门狗如何工作4.寄存器写保护5.看门狗 看门时间 二、使用步骤1.开启时钟2.初始化看门狗3.开启看门狗4.喂…

Knife4j 接口文档如何设置 Authorization 鉴权参数?

&#x1f680; 作者主页&#xff1a; 有来技术 &#x1f525; 开源项目&#xff1a; youlai-mall &#x1f343; vue3-element-admin &#x1f343; youlai-boot &#x1f33a; 仓库主页&#xff1a; Gitee &#x1f4ab; Github &#x1f4ab; GitCode &#x1f496; 欢迎点赞…

用23种设计模式打造一个cocos creator的游戏框架----(十一)桥接模式

1、模式标准 模式名称&#xff1a;桥接模式 模式分类&#xff1a;结构型 模式意图&#xff1a;将抽象部分与其实现部分分离&#xff0c;使它们都可以独立地变化。 结构图&#xff1a; 适用于&#xff1a; 1、不希望在抽象和它的实现部分之间有一个固定的绑定关系。例如&am…

高并发如何实现单用户信息查询接口

高并发如何实现单用户信息查询接口 故事情节 产品&#xff1a;小李&#xff0c;有个单用户信息查询的功能&#xff0c;需要你实现一下小李&#xff1a;这还不简单&#xff0c;两分钟我给你实现两分钟过去…小李&#xff1a;欧克了&#xff0c;部署上线了运维&#xff1a;哪个…

Nessus漏洞扫描报错:42873 - SSL Medium Strength Cipher Suites Supported (SWEET32)

个人搭建的windows server 2019服务器,被Nessus工具扫描出现三个漏洞,修复比较过程比较坎坷,特记录下 首先:报错信息: 42873 - SSL Medium Strength Cipher Suites Supported (SWEET32) 104743 - TLS Version 1.0 Protocol Detection 157288 - TLS Version 1.1 Protocol …

网络互通--三层交换机配置

目录 一、三层交换机的原理 1、概念 2、PC A与不同网段的PC B第一次数据转发过程 3、一次路由&#xff0c;多次转发的概念 4、 三层交换机和路由器的比较 二、利用实验理解交换机 1、建立以下拓扑图​编辑 2、分别配置主机的IP地址&#xff0c;子网掩码、网关等信息 3、…

自然语言处理阅读第一弹

Transformer架构 encoder和decoder区别 Embeddings from Language Model (ELMO) 一种基于上下文的预训练模型,用于生成具有语境的词向量。原理讲解ELMO中的几个问题 Bidirectional Encoder Representations from Transformers (BERT) BERT就是原生transformer中的Encoder两…

用23种设计模式打造一个cocos creator的游戏框架----(十七)命令模式

1、模式标准 模式名称&#xff1a;命令模式 模式分类&#xff1a;行为型 模式意图&#xff1a;将一个请求封装为一个对象&#xff0c;从而使得可以用不同的请求对客户进行参数化:对请求排队或记录请求日志&#xff0c;以及支持可撤销的操作。 结构图&#xff1a; 适用于&am…

2024年20多个最有创意的AI人工智能点子

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版&#xff0c;欢迎购买。点击进入详情 探索 2024 年将打造的 20 个基于人工智能产品的盈利创意 &#x1f525;&#x1f525;&#x1f525; 直到最近&#xff0c;企业对人工智能还不感兴趣&#xff0c;但…

基于C/C++的libcurl多协议文件传输库dll二次封装开发使用

libcurl 可能是最便携、最强大和最常用的 这个星球上的网络传输库。官方提供的示例&#xff0c;需要在项目中引用到libcurl-imp.lib才能使用。 这里我改造了下工程&#xff0c;将常用的接口导出到了libcurl.dll中方便直接在后续的工程代码中应用&#xff0c;下面可以看到dll常用…

使用广播星历进行 GPS 卫星位置的计算

目录 1.计算卫星运动的平均角速度 n 2.计算观测瞬间卫星的近地点角 3.计算偏近点角 4.计算真近点角 f 5.计算升交角距 6.计算摄动改正项 7.进行摄动改正 8.计算卫星在轨道面坐标系中的位置 9.计算观测瞬间升交点的经度 L 10.计算卫星在瞬时地球坐标系中的位置 11.…