hisat2安装与使用(v2.2.1)bioinfomatics tools 33

news2024/9/22 1:08:31
01 背景

概述

HISAT2 是一种快速且灵敏的比对程序,可用于将下一代测序读段(全基因组、转录组和外显子组测序数据)比对到人类基因组群体(也可比对到单一参考基因组)。基于对图的 BWT 扩展[1],我们设计并实现了图 FM 索引(GFM),这是一种原创方法,并据我们所知首次实现。除了使用一个代表总体的全局 GFM 索引外,HISAT2 还使用了一大组覆盖整个基因组的小 GFM 索引(每个索引代表一个 56 Kbp 的基因组区域,共需 55,000 个索引来覆盖人类群体)。这些小索引(称为局部索引)结合多种比对策略,可以有效地进行测序读段的比对。这种新的索引方案被称为分层图 FM 索引(HGFM)。我们基于 HISAT [2] 和 Bowtie 2 [3] 的实现开发了 HISAT2。更多信息请参见 HISAT2 网站。

同样的软件

minimap2安装与使用(v 2.28)生物信息学工具26

LASTZ v1.04.22安装与使用-Bioinformatics工具-028

bwa安装及使用(生物信息学工具-018)

Bowtie2安装与使用-bowtie2-2.5.2(bioinfomatics tools-011)

Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)

02 参考
https://daehwankimlab.github.io/hisat2/download/    #官网 #version-hisat2-221

https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download   #win直接下载
03 安装
git clone https://github.com/DaehwanKimLab/hisat2.git
cd hisat2
make

wget -c https://github.com/DaehwanKimLab/hisat2/archive/refs/tags/v2.2.1.tar.gz
#conda install bioconda::hisat2
04 使用
HISAT2 版本 2.2.1 由 Daehwan Kim 开发 (infphilo@gmail.com, www.ccb.jhu.edu/people/infphilo)**

**使用方法:**  

hisat2 [选项]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA 访问编号>} [-S <sam>]


- `<ht2-idx>`: 索引文件名前缀(不包括 .X.ht2 后缀)。
- `<m1>`: 与 `<m2>` 中文件配对的 #1 mates 文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<m2>`: 与 `<m1>` 中文件配对的 #2 mates 文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<r>`: 未配对的读段文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<SRA accession number>`: SRA 访问编号的逗号分隔列表,例如 `--sra-acc SRR353653,SRR353654`。
- `<sam>`: SAM 输出文件(默认:标准输出)。

`<m1>`、`<m2>`、`<r>` 可以是无空格的逗号分隔列表,且可以多次指定,例如 `-U file1.fq,file2.fq -U file3.fq`。

**选项(默认值在括号中):**

**输入:**
- `-q`                输入文件为 FASTQ 格式 .fq/.fastq(默认)
- `--qseq`            输入文件为 Illumina 的 qseq 格式
- `-f`                输入文件为(多重)FASTA 格式 .fa/.mfa
- `-r`                输入文件为原始单序列每行的格式
- `-c`                `<m1>`、`<m2>`、`<r>` 为序列本身,而不是文件
- `-s/--skip <int>`   跳过输入中的前 `<int>` 个读段/配对(无)
- `-u/--upto <int>`   处理前 `<int>` 个读段/配对后停止(无上限)
- `-5/--trim5 <int>`  从读段的 5'/左端修剪 `<int>` 个碱基(0)
- `-3/--trim3 <int>`  从读段的 3'/右端修剪 `<int>` 个碱基(0)
- `--phred33`         质量值为 Phred+33(默认)
- `--phred64`         质量值为 Phred+64
- `--int-quals`       质量值为空格分隔的整数
- `--sra-acc`         SRA 访问 ID

**预设:** 与以下选项相同:
- `--fast`            `--no-repeat-index`
- `--sensitive`       `--bowtie2-dp 1 -k 30 --score-min L,0,-0.5`
- `--very-sensitive`  `--bowtie2-dp 2 -k 50 --score-min L,0,-1`

**比对:**
- `--bowtie2-dp <int>` 使用 Bowtie2 的动态规划比对算法 (0) - 0: 无动态规划, 1: 有条件动态规划, 2: 无条件动态规划(最慢)
- `--n-ceil <func>`    函数用于限制比对中允许的非 A/C/G/T 数量 (L,0,0.15)
- `--ignore-quals`     将所有质量值视为 Phred 量表上的 30(关闭)
- `--nofw`             不比对读段的正向(原始)版本(关闭)
- `--norc`             不比对读段的反向互补版本(关闭)
- `--no-repeat-index`  不使用重复索引

**拼接比对:**
- `--pen-cansplice <int>`              规范剪接位点的惩罚 (0)
- `--pen-noncansplice <int>`           非规范剪接位点的惩罚 (12)
- `--pen-canintronlen <func>`          对具有规范剪接位点的长内含子的惩罚 (G,-8,1)
- `--pen-noncanintronlen <func>`       对具有非规范剪接位点的长内含子的惩罚 (G,-8,1)
- `--min-intronlen <int>`              最小内含子长度 (20)
- `--max-intronlen <int>`              最大内含子长度 (500000)
- `--known-splicesite-infile <path>`   提供已知剪接位点列表
- `--novel-splicesite-outfile <path>`  报告剪接位点列表
- `--novel-splicesite-infile <path>`   提供新发现的剪接位点列表
- `--no-temp-splicesite`               禁用发现的剪接位点
- `--no-spliced-alignment`             禁用拼接比对
- `--rna-strandness <string>`          指定链特异性信息(无特异性)
- `--tmo`                              仅报告已知转录组内的比对
- `--dta`                              报告适合转录组装配程序的比对
- `--dta-cufflinks`                    报告特别适合 cufflinks 的比对
- `--avoid-pseudogene`                 尝试避免将读段比对到假基因(实验选项)
- `--no-templatelen-adjustment`        禁用 RNA-seq 读段的模板长度调整

**得分:**
- `--mp <int>,<int>`   错配的最大和最小惩罚;质量越低,惩罚越低 <6,2>
- `--sp <int>,<int>`   软剪切的最大和最小惩罚;质量越低,惩罚越低 <2,1>
- `--no-softclip`      禁用软剪切
- `--np <int>`         读段/参考中的非 A/C/G/T 惩罚 (1)
- `--rdg <int>,<int>`  读段间隙的开启和延伸惩罚 (5,3)
- `--rfg <int>,<int>`  参考间隙的开启和延伸惩罚 (5,3)
- `--score-min <func>` 最小可接受的比对得分与读段长度有关 (L,0.0,-0.2)

**报告:**
- `-k <int>`            搜索每个读段的最多 `<int>` 个不同的主要比对。主要比对指得分等于或高于其他比对的比对。
- `--max-seeds <int>`   控制将延伸的最大种子数量。
- `-a/--all`            报告所有可以找到的比对。
- `--repeat`            直接报告与重复序列的比对。

**双端:**
- `-I/--minins <int>`   最小片段长度 (0),仅在 `--no-spliced-alignment` 时有效
- `-X/--maxins <int>`   最大片段长度 (500),仅在 `--no-spliced-alignment` 时有效
- `--fr/--rf/--ff`      -1, -2 mates 分别比对于正/反,反/正,正/正(默认 `--fr`)
- `--no-mixed`          抑制成对读段的非配对比对
- `--no-discordant`     抑制成对读段的不同步比对

**输出:**
- `-t/--time`            打印搜索阶段所花费的时间
- `--un <path>`          将未比对的单端读段写入 `<path>`
- `--al <path>`          将至少比对一次的单端读段写入 `<path>`
- `--un-conc <path>`     将未协调比对的双端读段写入 `<path>`
- `--al-conc <path>`     将至少协调比对一次的双端读段写入 `<path>`
- `--summary-file <path>` 打印比对总结到该文件。
- `--quiet`              除严重错误外,不打印任何内容到 stderr
- `--new-summary`        以新格式打印比对总结,格式更易于机器读取。

**性能:**
- `-o/--offrate <int>`  覆盖索引的 offrate,必须 >= 索引的 offrate
- `-p/--threads <int>`  启动

的比对线程数量 (1)
- `--reorder`           强制 SAM 输出顺序与输入读段顺序匹配
- `--mm`                为索引使用内存映射 I/O,多次 'hisat2' 可共享

**其他:**
- `--qc-filter`        过滤掉根据 QSEQ 过滤器为不良的读段
- `--seed <int>`       随机数生成器的种子 (0)
- `--non-deterministic` 任意种子随机生成器,而不是使用读段属性
- `--remove-chrname`   在比对中删除参考名称中的 'chr'
- `--add-chrname`      在比对中将 'chr' 添加到参考名称中
- `--version`          打印版本信息并退出
- `-h/--help`          打印此使用说明

他遇到fq.gz文件会报错,解压即可

解压zip、tar、gz文件--linux003

05 常用命令行
构建索引

`hisat2-build` 用于从一组 DNA 序列中构建 HISAT2 索引。`hisat2-build` 会输出一组具有后缀 `.1.ht2`、`.2.ht2`、`.3.ht2`、`.4.ht2`、`.5.ht2`、`.6.ht2`、`.7.ht2` 和 `.8.ht2` 的文件。在大索引的情况下,这些后缀会以 `ht2l` 结尾。这些文件共同构成索引,是将读段比对到参考序列所需的全部内容。一旦索引建立,HISAT2 不再使用原始的序列 FASTA 文件。

ISAT2 索引构建示例:


hisat2-build genome.fa genome


使用 HISAT2 进行比对

HISAT2 比对的示例:

1. **单端 FASTA 读段 DNA 比对:**

   ```bash
   hisat2 -f -x genome -U reads.fa -S output.sam --no-spliced-alignment
   ```

2. **双端 FASTQ 读段比对:**

   ```bash
   hisat2 -x genome -1 reads_1.fq -2 reads_2.fq -S output.sam
   ```
06 参考文献

[1] Sirén J, Välimäki N, Mäkinen V (2014) Indexing graphs for path queries with applications in genome research. IEEE/ACM Transactions on Computational Biology and Bioinformatics 11: 375–388. doi: 10.1109/tcbb.2013.2297101

[2] Kim D, Langmead B, and Salzberg SL HISAT: a fast spliced aligner with low memory requirements, Nature methods, 2015

[3] Langmead B, Salzberg SL: Fast gapped-read alignment with Bowtie 2. Nat Methods 2012, 9:357-359

Kim, D., Paggi, J.M., Park, C. et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37, 907–915 (2019). Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype | Nature Biotechnology

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2153798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vision Transformer (ViT)、Swin Transformer 和 Focal Transformer

1. Vision Transformer (ViT) Vision Transformer详解-CSDN博客https://blog.csdn.net/qq_37541097/article/details/118242600?ops_request_misc%257B%2522request%255Fid%2522%253A%2522F8BBAFBF-A4A1-4D38-9C0F-9A43B56AF6DB%2522%252C%2522scm%2522%253A%252220140713.13…

互联网全景消息(5)之RocketMq快速入门(下)

一、RocketMQ的存储设计 1.1 Domain Model 1.1.1 Message Message是RocketMQ消息引擎中的主体。messageId是全局唯一的。MessageKey是业务系统(生产者)生成的,所以如果要结合业务,可以使用MessageKey作为业务系统的唯一索引。 1.1.2 Topic subTopics==Message Queue,其实…

机器学习——Stacking

Stacking&#xff1a; 方法&#xff1a;训练多个模型(可以是强模型)&#xff0c;然后将这些模型的预测结果作为新的特征&#xff0c;输入到下一层新的模型&#xff08;可以是多个&#xff09;中进行训练&#xff0c;从而得到最终的预测结果。 代表&#xff1a;Stacking本身并没…

跨游戏引擎的H5渲染解决方案(腾讯)

本文是腾讯的一篇H5 跨引擎解决方案的精炼。 介绍 本文通过实现基于精简版的HTML5&#xff08;HyperText Mark Language 5&#xff09;来屏蔽不同引擎&#xff0c;平台底层的差异。 好处&#xff1a; 采用H5的开发方式&#xff0c;可以将开发和运营分离&#xff0c;运营部门自…

新峰商城之订单(一):确认页面开发

新峰商城订单从生成到处理结束&#xff0c;主要以下几个流程&#xff1a; &#xff08;1&#xff09;提交订单&#xff08;商城用户发起&#xff09; &#xff08;2&#xff09;订单入库&#xff08;后台逻辑&#xff09; &#xff08;3&#xff09;支付订单&#xff08;商城…

人生小满胜万全

大家好,这里是大话硬件。 最近大家都在讨论房贷利率的问题,昨天晚上看到很多群里在发要降息的小道消息,但是今天早上看到央行发了通告不降息。 下午又在群里看到这个买房对比的截图。对于没买房的人来说,肯定在想,还好当时没有买啊。对于买了房的人来说,可能有些人也在想…

「漏洞复现」灵当CRM marketing/index.php SQL注入漏洞

0x01 免责声明 请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;作者不为此承担任何责任。工具来自网络&#xff0c;安全性自测&#xff0c;如有侵权请联系删…

Isaac Sim 跑Slam学习过程2024.9.20

# 本文随着时间逐渐增加内容&#xff0c;是学习笔记 # 诶怎么今天Isaac Sim 4.2.0 突然出现了&#xff0c;这哪来的时间再去试试新的.... 没有大佬带...自己学吧 希望使用仿真环境跑定位Slam&#xff0c;现在IMU在Isaac Sim中有现成的传感器模块&#xff0c;GPS则没有&am…

电商ISV 电商SaaS 是什么

Independent Software Vendors的英文缩写&#xff0c;意为“独立软件开发商” 软件即服务(SaaS) 指一种基于云技术的软件交付模式 订阅收费 这些公司叫做ISV软件供应商&#xff0c;通过SaaS服务交付收费 为什么会有电商ISV 从商家角度划分&#xff1a;有独立品牌商家、大商…

MySQL篇(SQL优化)(持续更新迭代)

目录 一、插入数据&#xff1a;Insert 1. 优化方案一&#xff1a;批量插入数据 2. 优化方案二&#xff1a;手动控制事务 3. 优化方案三&#xff1a;主键顺序插入&#xff0c;性能要高于乱序插入 4. 大批量插入数据 5. 案例 5.1. 创建表结构 5.2. 设置参数 5.3. load加载…

计算机毕业设计 基于Python的校园个人闲置物品换购平台 闲置物品交易平台 Python+Django+Vue 前后端分离 附源码 讲解 文档

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

Wireshark学习使用记录

wireshark 是一个非常好用的抓包工具&#xff0c;使用 wireshark 工具抓包分析&#xff0c;是学习网络编程必不可少的一项技能。 原理 Wireshark使用的环境大致分为两种:一种是电脑直连互联网的单机环境&#xff0c;另外一种就是应用比较多的互联网环境&#xff0c;也就是连接…

macOS 中搭建 Flutter 开发环境

如果你的 Mac 是 Apple silicon 处理器&#xff0c;那么有些 Flutter 组件就需要通过 Rosetta 2 来转换适配&#xff08;详情&#xff09;。要在 Apple silicon 处理器上运行所有 Flutter 组件&#xff0c;请运行以下指令来安装 Rosetta 2。 sudo softwareupdate --install-ro…

低代码可视化工具-uniapp页面跳转传参-代码生成器

uniapp页面跳转传参 在uni-app中&#xff0c;页面间的跳转和传参是一个常见的需求。uni-app提供了多种页面跳转方式&#xff0c;如uni.navigateTo、uni.redirectTo、uni.reLaunch、uni.switchTab、uni.navigateBack等&#xff0c;每种方式适用于不同的场景。以 页面跳转并传参…

【笔记】第三节 组织与性能

3.1 基本成分 3.2 微观组织特征 0.6-0.8C%碳素钢的组织为珠光体和少量的铁素体。 如何把组织和性能联系起来&#xff1f;德国克虏伯公司的研究——珠光体片间距与渗碳体片层厚度成比例&#xff1a; t s 0 ( ρ 15 ( C % ) − 1 ) ts_0(\frac{\rho}{15(C\%)}-1) ts0​(15(C%)…

【EtherCAT】CiA402简介

目录 1、CiA402是CANopen协议的子协议 2、CiA402是 用于驱动和运动控制的CANopen设备配置文件 3、 CiA402主要由三部分组成 4、CiA介绍 4.1、操作模式 4.2、对象字典 5、一般对象字定义 6、详细对象字定义 7、Profile position mode 8、Homing mode 9、 Position co…

【Unity踩坑】UI Image的fillAmount不起作用

在游戏场景中&#xff0c;我们经常在界面上展示进度条&#xff0c;当然有各种形状的&#xff0c;线性的&#xff0c;长方形的&#xff0c;圆形&#xff0c;环形等等。 Unity中实现这种效果的话&#xff0c;最基本的方法说是改变Image的fillAmout属性。 如果你是初次使用UI Ima…

如何安装1Panel面板并架设一个静态网站

我们通常要架设网站在vps上&#xff0c;就要用到面板&#xff0c;一般是宝塔&#xff0c;但这个面板收费项目较多&#xff0c;用着不太方便。相比宝塔面板&#xff0c;1panel面板是国内功能强大、操作简单、免费易学的Linux服务器管理面板。我们还可以使用一键代码来安装这个面…

新手教学系列——基于统一页面的管理后台设计(二)集成篇

在现代企业级应用中,后台管理系统不仅是业务运营的核心,还承担着数据管理、用户权限控制等重要功能。随着业务规模的不断扩大,系统架构逐渐向微服务转变,多个后端服务模块协同工作,如何高效地集成这些模块,确保系统的稳定性和可维护性,成为开发者亟需解决的问题。在《新…

网络丢包定位记录(一)

数据在Internet上是以数据包为单位传输的&#xff0c;单位为字节&#xff0c;数据在网络上传输&#xff0c;受网络设备&#xff0c;网络质量等原因的影响&#xff0c;使得接收到的数据少于发送出去的数据&#xff0c;造成丢包。 数据包接收、发送原理 发送数据包&#xff1a; …