Sentieon | 应用教程: 关于读段组的建议

news2024/9/25 13:21:37

介绍

本文档描述了使用Sentieon® Genomics软件时,推荐使用RGID字段以最小化潜在问题的用法。
本文档能帮助您确定设置所使用的bam文件中RG标签的不同字段的最佳实践方法。

RG字段及其用法的详细描述

RG字段的详细描述

SAM格式规范http://samtools.github.io/hts-specs/SAMv1.pdf 将读段组定义为将读段组合在一起的标识符。BAM文件中的读段组字段可以包含以下标签:

ID: 标识符。读段组的唯一标识符。您需要确保RGID在BAM文件内是唯一的,并且在同一个命令的流水线中使用的多个BAM文件内也是唯一的。此字段是必需的。

CN: 中心名称。进行测序的测序中心的名称。通常情况下,此标签不被使用。

DS: 描述。对读段组的自由格式描述。通常情况下,此标签不被使用。

DT: 日期。运行生成的日期,遵循ISO8601日期或日期/时间格式。通常情况下,此标签不被使用。

FO: 流程顺序。与每个读段的每个流程所使用的核苷酸对应的数组。通常情况下,此标签不被使用。

KS: 关键序列。与每个读段的关键序列对应的核苷酸基序的数组。通常情况下,此标签不被使用。

LB: 文库。用于测序读段的文库。

PG: 程序。用于处理读段组的程序。通常情况下,相关信息会包含在BAM文件的PG字段中,而不是在每个读段组内单独设置。

PI: 预测的中值插入大小。通常情况下,此标签不被使用。

PL: 平台。用于测序读段的技术。如果您计划运行BQSR,则需要此标签,因为它用于确定要应用的正确错误模型。

PM: 平台模型。提供关于所使用平台/技术的更多细节的自由格式文本。通常情况下,此标签不被使用。

PU: 平台单元。执行测序的测序仪使用的唯一标识符。如果您打算运行BQSR,则建议使用此标签,因为BQSR将对属于相同PU的所有读段进行建模;如果PU缺失,则BQSR将对具有相同RGID的读段进行建模。

SM: 样本名称。读段所属样本的名称。此字段是必需的。

RG字段标签和Sentieon®

以下是RG字段标签在Sentieon®工具中使用的一般原则:
使用多个输入的bam文件时,需要使每个bam文件的ID标签唯一;两个不同的bam输入文件中不能有相同ID的RG。
工具使用SM标签来识别属于同一样本的读段,并相应地处理它们。
去重(Deduplication)使用LB标签来确定可能包含重复的组,重复的reads应属于同一文库。
BQSR模型需要PL标签来确定要应用的错误模型。如果没有PL标签,将不会执行BQSR。
如果存在PU标签,则BQSR建模将基于PU标签识别的读段组进行;如果不存在PU标签,则BQSR建模将基于ID标签识别的读段组进行。

RG字段标签的填写

Sentieon®建议对RG字段标签使用以下约定:

ID:样本名.flowcell.lane.barcode

SM:样本名

PL:技术平台,例如ILLUMINA

PU:flowcell.lane

LB:样本名.文库制备

上述建议确保了:
即使在多个bam文件中,读组ID也将是唯一的,即使是相同样本在不同lane或使用不同文库进行测序。

BQSR将根据实际的唯一测序单元创建重新校准,如果多个样本在同一测序单元上进行测序,则可以对其执行。

肿瘤和正常样本的名称在体细胞变异检测中将是唯一的。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

在这里插入图片描述
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/854184.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

同步辐射全散射PDF测试的原理及应用领域盘点

同步辐射全散射PDF测试的原理及应用领域盘点 同步辐射全散射PDF是一种强大的材料结构表征技术,它通过同步辐射X射线衍射技术,探测材料中原子间的相对位置与偏移,从而揭示材料的微观结构和性质。 同步辐射全散射PDF原理 同步辐射全散射PDF测试…

MAPPO 算法的深度解析与应用和实现

【论文研读】 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games 说明: 来源:36th Conference on Neural Information Processing Systems (NeurIPS 2022) Track on Datasets and Benchmarks. 是NIPS文章,质量有保障&…

4个方面介绍云渲染技术的发展趋势和前景!

云渲染技术是一种新兴的渲染技术,它利用云计算的优势,将渲染任务分配到云端服务器上进行处理,从而大大提高了渲染效率和质量。云渲染技术在影视动画、建筑设计、游戏开发等领域有广泛的应用,为数字内容创作提供了便捷和高效的解决…

金融科技与现代开源技术结合的进展超前到你无法想象!

想要了解最新的金融科技进展吗? 渴望与其他技术爱好者交流,并扩展您在金融科技行业中的人脉关系吗? 那么请参加我们即将举行的 Meetup,本次活动由 Apache DolphinScheduler 社区和 OceanBase 技术社区共同举办,聚焦金…

为什么都劝年轻人不要频繁跳槽?

"为什么都劝年轻人不要频繁跳槽?"这句话绝对正确,没有任何漏洞,无论如何解释都是正确的,因为“频繁”这个词是非常主观的,有很大的弹性。 不同的人对于跳多少次才算频繁有不同的看法,有人认为一…

二、MySql库的操作

文章目录 一、库的操作(一)创建数据库(二)创建数据库案例(三)字符集和校验规则1、 查看系统默认字符集以及校验规则2、查看数据库支持的字符集3、查看数据库支持的字符集校验规则4、校验规则对数据库的影响…

转转短链平台设计与实现

1 背景介绍 转转是中国领先的二手交易平台,链接作为用户在平台上进行交互和信息传递的重要媒介,扮演着不可或缺的角色。 传统长链接通常包含大量字符和特殊符号,不易记忆和传播。由于字数的原因,长链接在发送短信,生成…

策略模式【Strategy Pattern】

刘备要到江东娶老婆了,走之前诸葛亮给赵云(伴郎)三个锦囊妙计,说是按天机拆开解决棘手问题, 嘿,还别说,真是解决了大问题,搞到最后是周瑜陪了夫人又折兵呀,那咱们先看看…

Linux 的基本使用

1、Linux 是什么 Linux 是一个操作系统. 和 Windows 是 "并列" 的关系 Linux 严格意义来说只是一个 "操作系统内核". 一个完整的操作系统 操作系统内核 配套的应用程序. CentOS 和 RedHat 的关系 RedHat一直都提供源代码的发行方式,Cent…

【MySQL系列】表约束的学习

「前言」文章内容大致是MySQL的表的约束。 「归属专栏」MySQL 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 一、MySQL表的约束1.1 空属性1.2 默认值(default)1.3 列描述(comment)1.4 zerofill1.5 主键(primary ke…

新型网络安全:从过程到明确结果

内容 过去的情况网络安全是理论性的,结果才是实际性的。这可能吗?我们现在的努力方向结论 本文讲述了为什么企业必须重新思考其网络安全方法:旧方法是否足够有效,是否可以完全适用?公司应采取哪些行动来实现内部信息…

【Spring Boot】构建RESTful服务 — RESTful简介

RESTful简介 本节将从基础的概念开始介绍什么是RESTful、RESTful的特点、RESTful中的资源、HTTP Method、HTTP Status,还将介绍RESTful和SOAP到底有哪些区别。 1.什么是RESTful RESTful是目前流行的互联网软件服务架构设计风格。REST(Representationa…

HCIA---路由器--静态路由

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 一.路由器简介 路由器是一种网络设备,用于将数据包从一个网络发送到另一个网络…

系统架构设计师-系统可靠性分析与设计

目录 一、可靠性相关基本概念 二、可靠性指标 1、串联系统与并联系统可靠性指标计算 2、混合系统 三、可靠性设计 1、影响软件可靠性的主要因素: 2、增加可靠性的解决方案 2.1 避错技术 2.2 降低复杂度设计 2.3 检错技术 2.4 容错技术 3、双机容错 一、可靠性相关…

当涉及到Python计算结果的责任时,谁来负责呢?

代码质量和测试:在发布之前,通常会进行代码测试以确保基本的错误被避免。对于广泛使用的库和框架,如numpy、scipy和pandas,其代码正确性经过了充分的测试和验证,用户可以放心使用。社区维护和开发者:Python…

自编码器的学习

先奉上视频 https://www.bilibili.com/video/BV1Vx411j78H/?spm_id_from333.788.recommend_more_video.-1&vd_sourceeb433c8780bdd700f49c6fc8e3bd0911

MySQL — MVCC

文章目录 MVCCMVCC 实现原理隐藏字段undo logundo log的用途undo log类型 版本链ReadView MVCC InnoDB是一个多版本的存储引擎。它保留有关已更改行的旧版本的信息,以支持并发和回滚等事务性特性。这些信息存储在undo表空间中的数据结构称为回滚段。InnoDB使用回滚…

三天吃透Java面试八股文(2023最新整理),面试通过率高达90%

什么样的求职者能够获得面试官的青睐?求职者需要准备哪些内容来面对形形色色的面试官?这两份资料是我在几十场面试中被面试官问到的问题,比其他复制粘贴的面试题强一百倍,堪称全网最强(我不太喜欢“全网最强”这样的字…

《连锁零售超市经营数据分析实战》学习笔记

这篇文章整理自 接地气的陈老师 x 和鲸社区 | 连锁零售超市经营数据分析实战 活动业务讲解会【接地气的陈老师】的讲解 更多数据分析动手实践活动欢迎访问>>和鲸社区活动 活动背景 现在你是某零售企业的商业数据分析师,你为管理层提供日常经营数据。到一年年…

【JAVA开发工具系列】Git

Git常用功能整理 1.自动打包1.1 第一步安装git 服务1.1.1 查看版本1.1.2 安装1.1.3 配置秘钥 1.2 第二步 配置maven1.2.1 下载1.2.2解压1.2.3 配置环境变量1.2.4刷新环境变量文件1.2.5测试环境1.2.6 修改数据源 1.3 部署项目1.3.1拉取项目 1.4 jar 重启tomcat 2.SmartGit合并主…