sambamba — samtools 的高效平替工具

news2024/10/7 18:23:00

sambamba — samtools 的高效平替工具

sambamba 是一个 BAM 文件处理工具。

sambamba
sambamba

它使用了 D 语言的多线程和异步 IO 特性,实现了高效的并行化处理。sambamba 可以在多核 CPU 上同时运行多个任务,利用硬盘和内存的带宽,提高了处理速度。sambamba 还使用了一些优化算法和数据结构,比如快速排序,哈希表,位图等,减少了内存占用和磁盘读写。

sambamba 支持 samtools 和 picard 的大部分功能,而且速度更快,内存占用更少,操作更简单。sambamba 不仅可以对 BAM 文件进行排序、索引、过滤、统计、标记重复等常见的操作,还可以进行一些特殊的功能,比如区域过滤,标记重复序列,检测结构变异等。sambamba 还支持多种输入和输出格式,比如 CRAM、SAM、BED、VCF 等,让我们可以灵活地处理各种数据类型。

此外,sambamba 还弥补了 samtools 无法对超过 512Mb 长度的染色体建立 bam 文件索引的缺陷,例如:

$ samtools index -b test.sort.bam test.sort.bam.bai
[E::hts_idx_check_range] Region 536870922..536871063 cannot be stored in a bai index. Try using a csi index[E::sam_index] Read 'E00548:269:HV7NVCCXY:3:2117:26494:57301' with ref_name='chr1H', ref_length=558535432, flags=81, pos=536870923 cannot be indexed
samtools index: failed to create index for "Atlas.sort.bam": Numerical result out of range

错误信息表明区域 536870922..536871063 无法存储在 .bai 索引中,并建议尝试使用 .csi 索引。但是 GATK 等一些生信工具不支持 .csi 格式的索引文件。sambamba 能够给最大参考序列长度的 bam 文件构建 bai 索引。

https://lomereiter.github.io/sambamba/docs/sambamba-markdup.html

安装方式

使用 conda 安装

conda install -c bioconda sambamba
/opt/miniconda3/bin/sambamba

安装日期:23/12/25

安装版本:1.0.0

源码安装

从 https://github.com/biod/sambamba/releases/tag/v1.0.1 下载安装包。

wget -c https://github.com/biod/sambamba/archive/refs/tags/v1.0.1.tar.gz
tar -zxvf sambamba-1.0.1.tar.gz
cd sambamba-1.0.1
make

这个时候可能会报错

which: no ldmd2 in (/opt/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin)
python3 ./gen_ldc_version_info.py  > utils/ldc_version_info_.d
make: *** [utils/ldc_version_info_.d] Error 1

系统无法在给定的路径中找到 ldmd2 命令。ldmd2 是 D 语言编译器 LDC 的一部分。这个错误通常表明 LDC 没有被正确安装,或者其安装位置没有被加入到系统的环境变量 PATH 中。

LDC 编译器的 Github 存储库提供二进制版本。Sambamba 当前首选的版本是 LDC - LLVM D 编译器(>= 1.6.1)。从 https://github.com/ldc-developers/ldc/releases/ 安装 LDC:

wget https://github.com/ldc-developers/ldc/releases/download/v1.35.0/ldc2-1.6.1-linux-x86_64.tar.xz
tar xvJf ldc2-1.35.0-linux-x86_64.tar.xz
export PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/bin:$PATH
export LIBRARY_PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/lib

再安装 sambamba

make
cd bin
echo "export PATH=`pwd`:$PATH" >>~/.bashrc
source ~/.bashrc

或者直接使用预编译版本

wget https://github.com/biod/sambamba/releases/download/v1.0.1/sambamba-1.0.1-linux-amd64-static.gz
gzip -d sambamba-1.0.1-linux-amd64-static.gz
chmod 755 sambamba-1.0.1-linux-amd64-static
mkdir sambamba-1.0.1
mv sambamba-1.0.1-linux-amd64-static sambamba-1.0.1/
ln -s /app/sambamba-1.0.1/sambamba-1.0.1-linux-amd64-static /usr/local/bin/sambamba

使用方式

安装完成后直接运行看一下 sambamba 功能:

$ /opt/miniconda3/bin/sambamba
                                                                                                                                                    
sambamba 1.0.0                                                                                                                                      
 by Artem Tarasov and Pjotr Prins (C) 2012-2022                                                                                                     
    LDC 1.28.1 / DMD v2.098.1 / LLVM12.0.0 / bootstrap LDC - the LLVM D compiler (1.28.1)                                                           
                                                                                                                                                    
                                                                                                                                                    
Usage: sambamba [command] [args...]                                                                                                                 
                                                                                                                                                    
  Available commands:                                                                                                                               
                                                                                                                                                    
    view        view contents and convert from one format                                                                                           
                to another (SAM/BAM/JSON/UNPACK)                                                                                                    
    index       build index (BAI)                                                                                                                   
    merge       merge files (BAM)                                                                                                                   
    sort        sort file (BAM)
    slice       slice file (BAM using BED)
    markdup     mark or remove duplicates (BAM)
    subsample   subsample (BAM)
    flagstat    output statistics (BAM)
    depth       output statistics (BAM)
    validate    simple validator (BAM)

  No longer recommended:

    mpileup     parallel execution of samtools (BAM)

To get help on a particular command, call it without args.

Global options

    -q          quiet mode (do not show banner)

For bug reports and feature requests see

       https://github.com/biod/

sambamba 的主要功能如下:

  • sort: 对 SAM/BAM 文件进行排序,可以按照位置或者名称排序,支持多线程和压缩。
  • index: 对 BAM 文件建立索引,可以加速后续的查看和切片操作。
  • view: 查看 SAM/BAM 文件的内容,可以指定输出格式和过滤条件,也可以查看参考序列的信息。
  • merge: 合并多个 BAM 文件,可以自动处理 header 和压缩级别。
  • flagstat: 统计 BAM 文件中的 reads 的标志位,可以显示 QC 通过和失败的 reads 数目,以及各种配对情况和重复情况。
  • markdup: 标记或者移除 BAM 文件中的重复 reads,可以设置临时文件目录和压缩级别,使用 Picard 算法。
  • slice: 提取 BAM 文件中的某个区域,可以指定输出格式和过滤条件。
  • subsample: 对 BAM 文件进行子采样。子采样是指从原始数据中随机选择一部分数据,以便在保留原始数据特征的同时减少数据量,可以提高计算效率。
  • depth: 输出统计信息(BAM)
  • validate: 简单验证器(BAM)
  • mpileup 变异检测(不推荐)

flagstat — 统计

从 read flags 中提取和输出统计信息

统计信息第一行是过质量控制(QC-passed)和未通过质量控制(QC-failed)的 read 数量,然后分别对通过和未通过的 read 进行统计

index — 建索引

sambamba index test.sort.bam test.sort.bam.bai

depth — 覆盖度统计

用于计算 BAM 文件中指定区域覆盖深度,这个工具在玩法上显著优于 samtools。

 sambamba depth region|window|base [options] input.bam [input2.bam [...]]

优势在于该工具有三种模式:baseregionwindow,每种模式的名称表示以其作为单位输出统计数据:

公共选项

  • -F, --filter=FILTER: 设置对比对的自定义过滤条件。默认值是 'mapping_quality > 0 and not duplicate and not failed_quality_control',这意味着只计算那些映射质量大于0、非重复、质量控制通过的read
  • -o: 指定输出文件名,默认输出到标准输出
  • -t: 设定线程
  • -c, --min-coverage=MINCOVERAGE: 设置输出的最小平均覆盖深度,默认为0(region/window模式)或1(base模式)。只有平均覆盖度达到这个阈值的区域才会被报告
  • -C, --max-coverage=MAXCOVERAGE: 设置输出的最大平均覆盖深度。这有助于识别和排除异常高覆盖的区域
  • -q, --min-base-quality=QUAL: 不计算低于此质量值的碱基。这有助于提高覆盖深度计算的准确性
  • --combined: 输出所有样本的组合统计。通常用于比较多个样本的覆盖深度
  • -a, --annotate: 添加额外的列来标记是否满足给定的标准,而不是跳过不满足条件的记录
  • -m, --fix-mate-overlaps: 检测配对读取的重叠部分,并在每个碱基的基础上处理它们;这有助于更准确地计算覆盖度

base 模式特定选项

  • -L, --regions=FILENAME|REGION

    (可选)指定感兴趣区域的列表或单个区域的形式(例如 chr:beg-end)。通常用于分析特定基因或区域的覆盖深度。

region 模式特定选项

  • -L, --regions=FILENAME|REGION

    (必要)与上面的 base 模式选项相同,但必需。

  • -T, --cov-threshold=COVTHRESHOLD

    提供一个或多个覆盖度阈值,对于每个阈值,会添加一个额外的列,显示区域中覆盖度超过此值的碱基的百分比。

这个模式是最有用的,结合它我们可以输出染色体上的碱基覆盖深度及占比。

window 模式特定选项

  • -w, --window-size=WINDOWSIZE: 窗口的宽度,以碱基对(bp)为单位(必需);这定义了计算覆盖度的窗口大小
  • --overlap=OVERLAP: 连续窗口之间的重叠,以碱基对(bp)为单位(默认是0);这可以帮助平滑覆盖度的变化
  • -T, --cov-threshold=COVTHRESHOLD: 与 'region' 子命令中的含义相同,表示覆盖度的阈值

结果会生成一个文本文件,列出了每个染色体上每个碱基位置的覆盖度。

slice 拆分 bam 文件

sambamba slice input.bam chr1H:10000-20000 > output.bam

markdup — 去重

sambamba markdup OPTIONS <input.bam> <output.bam>
sambamba markdup -t 4 --tmpdir=./tmp/ ./test.bam  ./test.markdup.bam 2>>log/sambamba_markdup_log.txt

-t:线程数

-r:表示删除重复,默认仅标记不删除

--tmpdir=TMPDIR:指定临时文件的目录

--overflow-list-size=OVERFLOW_LIST_SIZE:增加大小会减少创建的临时文件的数量。

如果出现 Too many open files 报错,需要通过使用 ulimit -n 8000 或添加 --overflow-list-size=600000 来解决

扫码关注微信公众号【生信F3】获取文章完整内容,分享生物信息学最新知识。 ShengXinF3_QRcode

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1466258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java 面向对象-上

1.构造器&#xff08;或构造方法&#xff09;&#xff1a; Constructor 构造器的作用&#xff1a; 1.创建对象 2.初始化对象的信息 2.使用说明&#xff1a; * 1.如果没显式的定义类的构造器的话&#xff0c;则系统默认提供一个空参的构造器 * 2.定义构造器的格式&#xff1a…

最简单方式把jar打包成Windows服务

废话 &#x1f622; 将JAR文件转化为Windows服务是一种高效且常见的Java应用部署策略。这种转变赋予了Java应用程序在Windows操作系统上以无界面后台服务模式运行的能力&#xff0c;从而实现了持续、稳定且可靠的功能提供。这种部署方式不仅提升了应用的可用性&#xff0c…

Pyvisa 测试不同占空比下的电流线性度

情况说明&#xff0c;现在有一个电流采样放大器&#xff0c;输入信号是一个占空比信号&#xff0c;我要去看电流采样放大器的线性度怎么样&#xff0c;所以就做了个这么一个小东西。 接线框图如下图所示&#xff1a; 图1&#xff1a;接线框图 表1&#xff1a;使用的仪器仪表 …

【前端素材】推荐优质后台管理系统Modernize平台模板(附源码)

一、需求分析 后台管理系统是一种用于管理和控制网站、应用程序或系统后台操作的软件工具&#xff0c;通常由授权用户&#xff08;如管理员、编辑人员等&#xff09;使用。它提供了一种用户友好的方式来管理网站或应用程序的内容、用户、数据等方面的操作&#xff0c;并且通常…

节假日效应prophet预测模型和节假日识别错误

节假日效应是指在特定的节假日或纪念日期间&#xff0c;人们的行为和活动发生变化&#xff0c;从而影响到相应的时间序列数据&#xff08;股票或者其他&#xff09;。这种效应可能在多个领域产生影响&#xff0c;包括销售、交通、能源消耗等。 完整代码和数据可关注gzh’financ…

文件上传---->生僻字解析漏洞

现在的现实生活中&#xff0c;存在文件上传的点&#xff0c;基本上都是白名单判断&#xff08;很少黑名单了&#xff09; 对于白名单&#xff0c;我们有截断&#xff0c;图片马&#xff0c;二次渲染&#xff0c;服务器解析漏洞这些&#xff0c;于是今天我就来补充一种在upload…

AI智能制作ER图技术革新:itBuilder引领数据库设计新篇章

随着AI技术在各领域的深度渗透&#xff0c;itBuilder已成功引入了一项划时代的功能——运用AI能力直接创作实体关系&#xff08;ER&#xff09;图。这一创新应用标志着AI制作ER图的时代已经到来&#xff0c;用户现在可以通过与AI的互动交流&#xff0c;将自身的数据管理需求精准…

大公司跨域文件交换,如何兼顾安全效率和经济性?

现如今&#xff0c;随着我国经济的不断发展向前&#xff0c;许许多多的企业其规模也在不断的壮大&#xff0c;大型企业在全国、甚至全球范围的重要地区都设有自己的分支机构&#xff0c;总部与分支机构间&#xff0c;各分支机构间均存在数据交换需求&#xff0c;同时&#xff0…

day09-MongoDB

文章目录 day09-MongoDB一、回顾1.1. 行为实战核心要点说明 二、评论系统2.1 MongoDB2.1.1 MongoDB简介①简介②体系结构与术语 2.1.2 安装与连接2.1.3 Springboot整合MongoDB①引入依赖②添加服务端配置③准备实体类④测试-新增⑤测试-查询⑥测试-更新测试-删除 2.2 app端评论…

选择排序的简单介绍

选择排序是一种简单直观的排序算法&#xff0c;其原理如下&#xff1a; 1. 遍历数组&#xff0c;找到最小&#xff08;或最大&#xff09;的元素&#xff0c;并将其与数组的第一个元素交换位置。 2. 接着在剩下的元素中找到最小&#xff08;或最大&#xff09;的元素&#xff…

Mysql深入学习 基础篇 Ss.01 相关概念及初识SQL语法

事情永远不会变得容易&#xff0c;但我会变得更好 ——24.2.20 一、数据库相关概念 1.数据库 存储数据的仓库&#xff0c;数据是有组织的进行存储 DB 2.数据库管理系统 操纵和管理数据库的大型软件 DBMS 3.SQL 操作关系型数据库的编程语言&#xff0c;定义了一套操作关系型数据…

三、MQTT的基本原理

1、概述 在MQTT协议通讯中&#xff0c;有两个最为重要的角色。它们分别是服务端和客户端&#xff0c;客户端之间通过发布和订阅通信。 1.1、形象的理解MQTT MQTT通信模型示意图如下&#xff1a; 使用电视台、记者、观众三个角色来类比更容易理解&#xff1a; 电视台&#xf…

图文说明Linux云服务器如何更改实例镜像

一、应用场景举例 在学习Linux的vim时&#xff0c;我们难免要对vim进行一些配置&#xff0c;这里我们提供一个vim插件的安装包&#xff1a; curl -sLf https://gitee.com/HGtz2222/VimForCpp/raw/master/install.sh -o./install.sh && bash ./install.sh 但是此安装包…

Jmeter基础(1) Mac下载安装启动

目录 Jmeter下载安装启动下载启动 Jmeter下载安装启动 注意⚠️&#xff1a;使用jmeter需要有java环境 下载 官网下载地址&#xff1a;https://jmeter.apache.org/ 会看到这里有两个版本&#xff0c;那么有什么区别么&#xff1f; Binaries是可执行版&#xff0c;直接下载解…

Gemma模型论文详解(附源码)

原文链接&#xff1a;Gemma模型论文详解&#xff08;附源码&#xff09; 1. 背景介绍 Gemma模型是在2023.2.21号Google新发布的大语言模型, Gemma复用了Gemini相同的技术(Gemini也是Google发布的多模态模型)&#xff0c;Gemma这次发布了了2B和7B两个版本的参数&#xff0c;不…

文件上传漏洞--Upload-labs--Pass10--双写绕过

一、什么是双写绕过 顾名思义&#xff0c;双写绕过就是双写文件后缀名来进行绕过&#xff0c;如&#xff1a;test.php 双写后为 test.pphphp。通常情况下双写绕过用于绕过源代码中的 str_ireplace()函数。 二、双写绕过原理 1、首先进行代码审计&#xff0c;源代码中有黑名单…

linux---防火墙拓展

目录 一、iptables 1.基本语法 2.四表五链——重点记忆 2.1四表 2.2五链 2.3总结 3.iptables选项示例 3.1 -Z 清空流量计数 3.2 -P 修改默认规则 3.3 -D 删除规则 3.4 -R 指定编号替换规则 4.白名单 5.通用匹配 6.示例 6.1添加回环网卡 6.2可以访问端口 6.3 主…

ERROR: No matching distribution found for json

问题描述 安装 json库 的时候&#xff0c;一直报错&#xff1a; 解决方案&#xff1a; 大多数博文分享是&#xff1a;①网络问题&#xff0c;换国内镜像&#xff1b;②更新pip. 少有人提及在Python 3.10.1中&#xff0c;它叫 simplejson 了 pip install simplejson 参考&am…

力扣日记2.21-【回溯算法篇】46. 全排列

力扣日记&#xff1a;【回溯算法篇】46. 全排列 日期&#xff1a;2023.2.21 参考&#xff1a;代码随想录、力扣 46. 全排列 题目描述 难度&#xff1a;中等 给定一个不含重复数字的数组 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1&…

分布式应用:kylin 部署 zabbix 监控平台

目录 一、实验 1.环境 2. kylin 修改mysql数据库 3. kylin 部署 zabbix 监控平台 4. kylin 修改 zabbix 配置 5. kylin 修改zabbix web 二、问题 1. zabbix_server 查看版本报错 2.zabbix_server 文件如何去掉注释"#"和空行 3. zabbix图表显示异常 4.zabbi…