Linux服务器丨重测序数据分析常用软件安装指南

news2025/1/13 10:01:17

重测序分析软件安装指南

重测序(resequencing)是指对已知基因组进行高通量测序,以检测个体或种群的遗传变异,从而研究基因组的结构和功能。与全基因组测序不同,重测序通常只对一部分基因组进行测序,例如外显子、基因区域、SNP位点等。


今天分享如何在服务器上部署安装重测序数据分析环境, Linux 服务器下进行重测序分析的常用软件包主要包括:

1. BWA:

用于将测序数据比对到参考基因组上,可以通过 conda 安装:

conda install -c bioconda bwa
alt

2. Samtools:

用于处理 BAM/SAM 格式的测序数据,包括排序、去重、索引等操作,可以通过 conda 安装:

conda install -c bioconda samtools
alt

3. Picard:

用于处理 BAM/SAM 格式的测序数据,包括去重、插入大小估计、重命名等操作,可以通过 conda 安装:

conda install -c bioconda picard
alt

4. GATK:

用于进行变异检测和拼接等操作,可以通过 conda 安装:

conda install -c bioconda gatk

5. FastQC:

用于检查测序数据的质量,可以通过 conda 安装:

conda install -c bioconda fastqc

6. Trimmomatic:

用于对测序数据进行质量控制和去除低质量序列,可以通过 conda 安装:

conda install -c bioconda trimmomatic

7. HISAT2:

用于将 RNA-seq 数据比对到基因组上,可以通过 conda 安装:

conda install -c bioconda hisat2

8. StringTie:

用于进行转录本组装和定量分析,可以通过 conda 安装:

conda install -c bioconda stringtie

Linux环境部署结果测试

BWA

(WGS) [root@cloud WGS]# bwa
Program: bwa (alignment via Burrows-Wheeler transformation)
Version: 0.7.17-r1188
Contact: Heng Li <lh3@sanger.ac.uk>

Usage:   bwa <command> [options]

Command: index         index sequences in the FASTA format
         mem           BWA-MEM algorithm
         fastmap       identify super-maximal exact matches
         pemerge       merge overlapping paired ends (EXPERIMENTAL)
         aln           gapped/ungapped alignment
         samse         generate alignment (single ended)
         sampe         generate alignment (paired ended)
         bwasw         BWA-SW for long queries

         shm           manage indices in shared memory
         fa2pac        convert FASTA to PAC format
         pac2bwt       generate BWT from PAC
         pac2bwtgen    alternative algorithm for generating BWT
         bwtupdate     update .bwt to the new format
         bwt2sa        generate SA from BWT and Occ

samtools

(WGS) [root@cloud WGS]# samtools
Program: samtools (Tools for alignments in the SAM format)
Version: 1.6 (using htslib 1.6)

Usage:   samtools <command> [options]

Commands:
  -- Indexing
     dict           create a sequence dictionary file
     faidx          index/extract FASTA
     index          index alignment

  -- Editing
     calmd          recalculate MD/NM tags and '=' bases
     fixmate        fix mate information
     reheader       replace BAM header
     rmdup          remove PCR duplicates
     targetcut      cut fosmid regions (for fosmid pool only)
     addreplacerg   adds or replaces RG tags
     markdup        mark duplicates

通过新建一个conda虚拟环境,然后在环境中安装重测序分析所用的软件,能够避免软件的冲突造成的问题,而且方便再不同的机器之间灵活的切换环境。

重测序可以应用于许多生物学研究领域,如人类疾病研究、植物遗传改良、动物育种等。通过对不同个体或种群的重测序数据进行比较和分析,可以找到与性状相关的遗传变异,揭示基因组的遗传多样性和进化历史,推动生物学研究的发展。

彩蛋

推荐一个重测序分析shell脚本,来自github上某大佬(https://github.com/biomarble/onekeyReseq/blob/main/onekeyReseq),通过这个脚本,能够快捷方便的调用各项软件,自动进行分析,解放双手,提高效率。

echo "$GATKCOMMAND SelectVariants -V $PWD/2.SNP/2.cohort/cohort.vcf -select-type SNP -O $PWD/2.SNP/3.filt/raw.snps.vcf.gz" >commands/2.SNP/s5.Select.sh
echo "$GATKCOMMAND SelectVariants -V $PWD/2.SNP/2.cohort/cohort.vcf -select-type INDEL -O $PWD/2.SNP/3.filt/raw.indel.vcf.gz " >>commands/2.SNP/s5.Select.sh
echo "$GATKCOMMAND VariantFiltration -V $PWD/2.SNP/3.filt/raw.snps.vcf.gz -O $PWD/2.SNP/3.filt/snps.vcf.gz -filter \"QD < 2.0\" --filter-name \"QD2\" -filter \"QUAL < 30.0\" --filter-name \"QUAL30\" -filter \"SOR > 3.0\" --filter-name \"SOR3\" -filter \"FS > 60.0\" --filter-name \"FS60\" -filter \"MQ < 40.0\" --filter-name \"MQ40\" -filter \"MQRankSum < -12.5\" --filter-name \"MQRankSum-12.5\" -filter \"ReadPosRankSum < -8.0\" --filter-name \"ReadPosRankSum-8\" " >commands/2.SNP/s6.Filter.sh
echo "$GATKCOMMAND VariantFiltration -V $PWD/2.SNP/3.filt/raw.indel.vcf.gz -O $PWD/2.SNP/3.filt/indel.vcf.gz -filter \"QD < 2.0\" --filter-name \"QD2\" -filter \"QUAL < 30.0\" --filter-name \"QUAL30\" -filter \"FS > 200.0\" --filter-name \"FS200\" -filter \"ReadPosRankSum < -20.0\" --filter-name \"ReadPosRankSum-20\" " >>commands/2.SNP/s6.Filter.sh
echo "vcftools --gzvcf $PWD/2.SNP/3.filt/snps.vcf.gz --out $PWD/2.SNP/3.filt/final.snp --recode --remove-filtered-all " >commands/2.SNP/s7.extract.sh
echo "vcftools --gzvcf $PWD/2.SNP/3.filt/indel.vcf.gz --out $PWD/2.SNP/3.filt/final.indel --recode --remove-filtered-all " >>commands/2.SNP/s7.extract.sh
echo "snpEff eff -dataDir $PWD -configOption genome.genome=\"genome\" genome $PWD/2.SNP/3.filt/final.snp.recode.vcf -ud 0 -noLog -noStats -geneId -o gatk >$PWD/2.SNP/snp.anno.vcf ">commands/2.SNP/s8.anno.sh
echo "snpEff eff -dataDir $PWD -configOption genome.genome=\"genome\" genome $PWD/2.SNP/3.filt/final.indel.recode.vcf -ud 0 -noLog -noStats -geneId -o gatk >$PWD/2.SNP/indel.anno.vcf" >>commands/2.SNP/s8.anno.sh
echo "$GATKCOMMAND MergeVcfs -I $PWD/2.SNP/indel.anno.vcf -I $PWD/2.SNP/snp.anno.vcf -O $PWD/2.SNP/snp.indel.anno.vcf && bcftools annotate --set-id +'%CHROM\_%POS' $PWD/2.SNP/snp.indel.anno.vcf >$PWD/2.SNP/snp.indel.anno.addid.vcf " >commands/2.SNP/s9.merge.sh
parallelrun "commands/1.mapping/s3.MarkDup.sh"
parallelrun "commands/2.SNP/s1.HC.sh"
parallelrun "commands/2.SNP/s2.CombineGVCFs.sh"
parallelrun "commands/2.SNP/s3.GenotypeGVCF.sh"
parallelrun "commands/2.SNP/s4.CombineVCFs.sh"
parallelrun "commands/2.SNP/s5.Select.sh"
parallelrun "commands/2.SNP/s6.Filter.sh"
parallelrun "commands/2.SNP/s7.extract.sh"
parallelrun "commands/2.SNP/s8.anno.sh"

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/551569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【2023 雷泽杯 · Misc】我是签到题

一道图片隐写题 目录 一、题目 二、思路 1.010editor查看源码 2.检索头部关键字段 3.图片隐写——高度隐写 一、题目 看不到这个图片对吧&#xff0c;这就是题目原本的样子。 二、思路 1.010editor查看源码 很明显的rar特征&#xff0c;尝试将后缀改成rar后打开。 发…

《Java就业班体系结构.pdf》:从入门到精通,掌握Java开发的终极指南,成为熟练高级开发者!

Java开发的终极指南 第1阶段&#xff1a;JAVA开篇第2阶段&#xff1a;JAVA语言语法第3阶段&#xff1a;集成开发工具的使用第4阶段&#xff1a;面向对象第5阶段&#xff1a;JavaSE进阶学习第6阶段&#xff1a;数据库JDBC第7阶段&#xff1a;前端精讲第8阶段&#xff1a;JavaEE第…

RocketMQ的学习历程(4)----消息处理 (2)

1.消费者的两种消费模式 顺序消费模式&#xff08;Sequential Consumer Mode&#xff09;&#xff1a; 在顺序消费模式下&#xff0c;消息队列中的消息按照发送的顺序被消费者顺序消费。每个消息队列只会被一个消费者线程消费&#xff0c;确保消息的顺序性。这种模式适用于需要…

【Hadoop】三、数据仓库基础与Apache Hive入门

文章目录 三、数据仓库基础与Apache Hive入门1、数据仓库基本概念1.1、数据仓库概念1.2、场景案例&#xff1a;数据仓库为何而来1.3、数据仓库主要特征1.4、数据仓库主流开发语言--SQL 2、Apache Hive入门2.1、Apache Hive概述2.2、场景设计&#xff1a;如何模拟实现Hive功能2.…

深度学习用于医学预后-第二课第四周16-17节-比较两个患者的风险

我们怎样比较两个患者的风险&#xff1f; 让我们谈谈如何比较两名患者的风险。假设我们有两个病人&#xff0c;一个50岁&#xff0c;血压162&#xff0c;另一个61岁&#xff0c;血压140。 我们可以使用生存树首先找出他们所属的组。所以我们看到第一个病人的年龄小于60&#…

【CSS 选择器应用在QSS】第二天

CSS 选择器应用在QSS 【1】元素选择器&#xff08;元素通用性&#xff09;【2】id 选择器&#xff08;唯一性&#xff09;【2.1】CSS【2.2】QSS 【3】类选择器【3.1】CSS【3.2】QSS 【4】类选择器&#xff08;只针对指定元素&#xff09;【4.1】CSS【4.2】QSS 【5】通用选择器【…

iptables 防火墙二

目录 SNAT 原理与应用SNAT原理&#xff1a;修改数据包的源地址。 SNAT 实验DNAT原理与应用DNAT原理&#xff1a;修改数据包的目的地址。DNAT转换前提条件&#xff1a; DNAT 示例 SNAT 原理与应用 SNAT 应用环境&#xff1a;局域网主机共享单个公网IP地址接入Internet&#xff…

MyBatis技术练习

一、模仿教程练习增删改查&#xff0c;自己完成一个新表相关操作 1、配置fkxml文件 我们这里的增删改查sql语句必须对应我们自己创建的表 <?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.…

实测有效:由于找不到MSVCP140.dll,无法继续执行代码

从解决实际问题的角度上&#xff0c;推荐两种实测有效的方法。 先来说一下msvcp140.dll是什么&#xff1f; msvcp140.dll 是 Microsoft Visual C Redistributable for Visual Studio 2015 库文件的一部分。这个文件是一些需要 Visual Studio 2015 支持的程序所必需的。 如果…

(C语言版)力扣(LeetCode)题库1-5题解析

力扣&#xff08;LeetCode&#xff09;题库1-5题解析 1.两数之和题目解析 2.两数相加题目解法 3.无重复字符的最长字串题目解法 4. 寻找两个正序数组的中位数题目解法 5. 最长回文子串题目解法 结语 1.两数之和 题目 给定一个整数数组 nums 和一个整数目标值 target&#xff…

Java基础--->并发部分(3)【JUC、AQS】

文章目录 AQS&#xff08;AbstractQueuedSynchronizer&#xff09;AQS实现原理AQS操作重点方法 Java并发容器JUC&#xff08;java.util.concurrent&#xff09;ConcurrentHashMapCopyOnWriteArrayList AQS&#xff08;AbstractQueuedSynchronizer&#xff09; AbstractQueuedSy…

如何从其他ETL工具迁移到ETLCloud上?

ETL数据集成工具主要用于将来自不同数据源的数据整合到一个单一的、一致的数据存储库或将数据分发到不同的数据源中&#xff0c;同时也可以把数仓中的数据通过ETL反向输出给业务系统使用。它可以帮助企业解决数据共享问题&#xff0c;同时有效地管理和利用海量数据&#xff0c;…

DAY 61 MySQL高级SQL语句

高级SQL语句&#xff08;进阶查询&#xff09; 先准备2个表 一个location表 use market;create table location(Region char(20),Store_Name char(20));insert into location values(East,Boston);insert into location values(East,New York);insert into location values(W…

python数据可视化显示(附代码)

Python是一种非常流行的编程语言&#xff0c;具有广泛的应用领域&#xff0c;包括数据可视化。在数据可视化中&#xff0c;Python提供了多种工具来帮助用户创建各种类型的图表、图形和可视化效果。本文将介绍Python数据可视化的基本概念、工具和技术&#xff0c;并提供代码示例…

CustomTkinter:【二】颜色和主题、外观模式、缩放、包装

GitHub地址: https://github.com/TomSchimansky/CustomTkinter 官网&#xff1a; https://customtkinter.tomschimansky.com/ 官方教程文档&#xff1a;https://customtkinter.tomschimansky.com/documentation/ 目录 1、颜色和主题2 、外观模式3 、缩放4、包装 1、颜色和主题 …

2023/5/21周报

目录 摘要 论文阅读 1、标题和现存问题 2、各个结构 3、基于GNN-LSTM-CNN 网络轨迹预测模型 4、实验准备 5、实验结果 深度学习 1、费舍尔判别 2、步骤具体化 3、GCN 总结 摘要 本周在论文阅读上&#xff0c;阅读了一篇基于GNN-LSTM-CNN网络的6G车辆轨迹预测算法的…

git pull报没有足够内存 not enough memory for initialization

git clone 或 git pull 批量同步远程 git仓库代码时&#xff0c;报 没有足够内存用于初始化 not enough memory for initialization。经过观察 资源管理器 的内存使用情况&#xff0c;发现为 剩余可用内存不足造成的。加物理内存麻烦&#xff0c;可通过适当调整 分页文件&…

chatgpt赋能Python-pythoncom安装

Pythoncom安装指南 如果你是一位Python编程的爱好者或专业工程师&#xff0c;那么你可能会需要使用Pythoncom库。Pythoncom是Python与COM技术相互操作的重要组件&#xff0c;它可以帮助你实现各种Windows应用程序与Python之间的无缝集成。 什么是Pythoncom Pythoncom是Pytho…

电商项目9:新增商品

电商项目9&#xff1a;新增商品 1、前端1.1、修复前端组件通信问题1.2、引入其他前端代码1.3、会员等级列表1.4、当前分类关联的所有品牌 2、后端2.1、会员系统搭建&#xff08;注册与发现&#xff09;2.2、当前分类关联的所有品牌2.3、获取分类下所有分组&关联属性 1、前端…

网上书店管理系统

系列文章 任务46 网上书店管理系统 文章目录 系列文章一、实践目的与要求1、目的2、要求 二、课题任务三、总体设计1.存储结构及数据类型定义2.程序结构3.所实现的功能函数4、程序流程图 四、小组成员及分工五、 测试添加新的图书购买信息显示所有图书购买信息按购买编号查找图…