01.GATK肿瘤基因变异最佳实践SnakeMake流程:WorkFlow简介

news2024/9/17 7:36:04

<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>

代码地址

https://jihulab.com/BioQuest/smkhss
https://github.com/BioQuestX/smkhss

GATK best practices workflow Pipeline summary

SnakeMake workflow for Human Somatic short variants (SNP+INDEL)

Expected fastq inputs

Matched normal and tumor samples.

Reference

  1. Reference genome related files and GTAK budnle files (GATK)
  2. VEP Variarition annotation files (VEP)

Prepare

  1. Adapter trimming (Fastp)
  2. Aligner (BWA mem2)
  3. Mark duplicates (samblaster)
  4. Generates recalibration table for Base Quality Score Recalibration (BaseRecalibrator)
  5. Apply base quality score recalibration (ApplyBQSR)
  6. Merge CRAMs of every sample, repesectly (Picard)
  7. Create CRAM index (samtools)

Quality control report

  1. Fastp report (MultiQC)
  2. Alignment report (MultiQC)

Call

  1. Call somatic SNVs and indels via local assembly of haplotypes (Mutect2)
  2. Tabulates pileup metrics for inferring contamination (GetPileupSummaries)
  3. Calculate the fraction of reads coming from cross-sample contamination (CalculateContamination)
  4. Get the maximum likelihood estimates of artifact prior probabilities in the orientation bias mixture model filter (LearnReadOrientationModel)
  5. Filter somatic SNVs and indels called by Mutect2 (FilterMutectCalls)
  6. Merge all the VCF files (Picard)

Annotation

Annotate variant calls with VEP (VEP)

SnakeMake Report

alt

Outputs

├── config
│  ├── captured_regions.bed
│  ├── config.yaml
│  └── samples.tsv
├── dag.svg
├── logs
│  ├── annotate
│  ├── call
│  ├── prepare
│  ├── qc
│  ├── ref
│  └── trim
├── raw
│  ├── P1.N.fastq.gz
│  └── P1.T.fastq.gz
├── report
│  ├── fastp_multiqc_data
│  ├── fastp_multiqc.html
│  ├── P1.N.fastp.html
│  ├── P1.N.fastp.json
│  ├── P1.T.fastp.html
│  ├── P1.T.fastp.json
│  ├── prepare_multiqc_data
│  ├── prepare_multiqc.html
│  └── vep_report.html
├── results
│  ├── annotated
│  ├── called
│  ├── prepared
│  └── trimmed
└── workflow
    ├── envs
    ├── report
    ├── rules
    ├── schemas
    ├── scripts
    └── Snakefile

Directed Acyclic Graph

alt

Refrence

https://gatk.broadinstitute.org/hc/en-us/articles/360035894731-Somatic-short-variant-discovery-SNVs-Indels-

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/584345.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA开发(小程序商城价值画像)

小程序商城是一种流行的电子商务形式&#xff0c;允许用户通过微信或其他应用程序直接购买商品。随着消费者对在线购物的需求和期望不断增加&#xff0c;小程序商城已经成为一个不可或缺的销售渠道。本文将探讨小程序商城的价值画像&#xff0c;包括其优点、挑战和未来发展趋势…

接口测试|Fiddler弱网测试

Fiddler进行弱网测试 弱网测试 概念&#xff1a;弱网看字面意思就是网络比较弱&#xff0c;我们通称为信号差&#xff0c;网速慢。 意义&#xff1a;模拟在地铁、隧道、电梯和车库等场景下使用APP &#xff0c;网络会出现延时、中断和超时等情况。 在这里插入图片描述 Fidd…

子域名接管劫持

什么是域名劫持&#xff1f; 域名劫持也被称为DNS劫持&#xff0c;它通过攻击域名解析服务器、伪造域名解析服务器的方法&#xff0c;拦截目标的域名解析请求&#xff0c;将目标网站域名解析到错误的地址上&#xff0c;让攻击目前无法回应访问。 子域名接管漏洞通常被滥用于以…

大数据简介

大数据简介 什么是大数据 ​ 最近几年&#xff0c;IT行业最火的名词中&#xff0c;少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词&#xff0c;现在更是全国老…

嵌入式软件测试笔记2 |TEmb方法概述

2 |TEmb方法概述 1 TEmb简介2 TEmb工作原理3 系统特性4 TEmb通用元素4.1 生命周期4.2 技术4.3 基础设施4.3.1 测试环境4.3.2 工具和测试自动化4.3.3 办公环境 4.4 组织 5 组合专用测试方法的机制5.1 常用系统特性5.2 特定方法5.3 LITO矩阵 1 TEmb简介 TEmb是一种方法&#xff…

如何加快和自动化企业的招标过程?

材料和劳动力成本已经上升到了过去40年的比较高水平&#xff0c;而建筑业是竞争较激烈、较复杂的行业之一&#xff0c;分析供应链报价的需求也在增加。数字平台如何支持这个行业&#xff1f; 市场上有各种各样的管理系统&#xff0c;如何才能选择尤为适合企业的需求呢&#xf…

安卓应用实现自动升级

应用发布后&#xff0c;要实现灰度升级控制&#xff0c;如果只依赖各家应用市场是不够的&#xff0c;需要自己在应用中控制升级逻辑。并且每家应用市场上架审核也是一件很麻烦的事情&#xff0c;尤其像至简网格这样的应用&#xff0c;没在应用市场上架&#xff0c;更不可能依赖…

Unity WebGl和前端(Angular)相互调用(含跨域问题)

在Unity官方文档中就已经介绍了Unity和JS相互调用的问题&#xff0c;但是我们实际的应用中往往是使用iframe来展示WebGL。这样不但是webgl和js相互调用的问题&#xff0c;还包含了iframe跨域的问题。 我们的项目中前端使用的是angular框架&#xff0c;就以angular为基础来说一…

关于谷歌云计算进行Python yolov5的使用操作(简略版)

关于谷歌云计算的使用操作&#xff08;简略版&#xff09; 谷歌云盘&#xff1a;https://drive.google.com/ 翻墙订阅&#xff1a;链接 谷歌云盘创建操作&#xff1a; 1 2 3.添加Colaboratory关联 设置免费的GPU 它是很容易更换默认的硬件&#xff08;None,GPU,TPU&#xff…

群智能算法-粒子群1

一.基本理念 粒子群算法(PSO),最早由两位外国科学家在1995年提出&#xff0c;该算法源自对鸟类捕食问题的研究。 我们将鸟类补食性原则分为一下三个基数&#xff0c;每组基数对应一个粒子&#xff0c;而每组粒子我们将其称之为种群。所以我们将其在细分具体&#xff0c;基数一&…

C++核心编程—类和对象,类的三大特性——封装、继承、多态

纵有疾风起&#xff0c;人生不言弃。本文篇幅较长&#xff0c;如有错误请不吝赐教&#xff0c;感谢支持。 &#x1f4ac;文章目录 一.类和对象的概念①什么是对象&#xff1f;②抽象和类1.类的基本概念2.类的声明与定义&#xff1a;3.对象的创建与使用 二.类的封装①为什么有封…

阿里云国际站代理商:阿里云支持哪些大数据方案和应用?如何使用和操作?

阿里云国际站代理商&#xff1a;阿里云支持哪些大数据方案和应用&#xff1f;如何使用和操作&#xff1f; [本文由阿里云代理商聚搜云撰写] 大数据时代已经来临&#xff0c;如何处理并分析这些海量的数据成了企业迫切需要解决的问题。作为一家国内领先的云计算提供商&#xff0…

传地址给组件并让该组件用到地址在背景图片中的方法

问题 这是我在开发中遇到的问题。在网站的分页面中&#xff0c;背景图片的格式几乎一模一样。只是上面的文字和图片不一样而已。 所以我希望写一个组件&#xff0c;然后页面只需要传入背景图片地址和标题就可以显示出相关内容。 于是我动手写了&#xff0c;大致思路是一个盒…

Win11的两个实用技巧系列之读取硬盘很卡的解决办法、添加防火墙信任项方法

win11读取机械硬盘速度慢? win11读取硬盘很卡的解决办法 win11读取机械硬盘速度慢&#xff1f;win11系统硬盘读取速度太慢了&#xff0c;该怎么解决呢&#xff1f;下面我们就来看看win11读取硬盘很卡的解决办法 不少win11用户都遇到了读取硬盘很卡的情况&#xff0c;导致等待…

2023年铜川宜宾半程马拉松赛-人生首次半马比赛

1、赛事背景 2023年5月21日&#xff0c;我参加了2023年铜川宜宾半程马拉松赛&#xff0c;也是人生首次半马比赛。。很久之前的天气预报就是说要下雨&#xff0c;有的时候更是预报中大雨&#xff0c;所以很担心半马会不会延期举办&#xff0c;还好如期举行了。 2023宜君“药谷飘…

盐城北大青鸟东台基地IT精英挑战赛作品展示

北大青鸟IT精英挑战赛作品展示 ——《波比》 这是我们21级老生们的作品&#xff0c;主要的创作灵感来自于&#xff0c;可爱的小青蛙和王子小时候结合而成的IP形象&#xff0c;同时也是漫展的追随者。 设计团队21级计算机2班&#xff1a;王丽娜 陈美玲 陆梅莹

深度学习实战——模型推理优化(模型压缩与加速)

忆如完整项目/代码详见github&#xff1a;https://github.com/yiru1225&#xff08;转载标明出处 勿白嫖 star for projects thanks&#xff09; 目录 系列文章目录 一、实验思路综述 1.实验工具及内容 2.实验数据 3.实验目标 4.实验步骤 二、模型压缩与加速综述 1.模…

C++中的高阶函数:以std::function优雅地实现回调

C中的高阶函数&#xff1a;以std::function优雅地实现回调 1. 简介1.1 C高阶函数的概念1.2 C的std::function的功能及其重要性 2. std::function的使用2.1 std::function的定义和基本使用2.1.1 std::function的定义2.1.2 std::function的基本使用 2.2 std::function接受普通函数…

安吉尔航天净水新品发布,净水行业已进入新赛点?

作为具有较强线下依赖性的家电细分市场&#xff0c;净水器行业受到外部因素的扰动较大&#xff0c;2020年&#xff0c;经济下行趋势明显&#xff0c;这一年也成为国内净水器市场的拐点&#xff0c;不少业内人士认为多年的行业扩张期已在此结束。 但进入2023年&#xff0c;随着…

【收藏】麻省理工:如何选择和设计论文的Figure?

论文中的图表以独有的方式组织信息&#xff0c;更好地传递作者思想。那么&#xff0c;如何选择和设计合适的Figure&#xff1f; MIT Communication Lab&#xff08;麻省理工学院通信实验室&#xff09;为作者提供了有效的建议&#xff0c;我们来学习一下 ~ 01 数据图 在制作数…