文献解读-DNAscope: High accuracy small variant calling using machine learning

news2024/12/23 9:29:42

关键词:基准与方法研究;基因测序;变异检测;


文献简介

  • 标题(英文):DNAscope: High accuracy small variant calling using machine learning
  • 标题(中文):DNAscope:使用
    的机器学习高精度小变异调用
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司
  • 发表年份:2022
  • 文章地址:https://doi.org/10.1101/2022.05.20.492556

图1 文献简介

图1 文献简介

当前的小变异检测技术,尤其是GATK的HaplotypeCaller,在大多数情况下表现优秀。然而,在复杂基因组区域的检测准确性仍有提升空间。随着测序技术在临床应用中的普及,提高这些区域的检测准确性变得越来越重要。传统方法主要依赖专家构建的模型和手动调整的过滤器,而机器学习方法显示出通过学习更复杂的变异特征关系来提高检测准确性的潜力。


测序流程

DNAscope作为GATK HaplotypeCaller的进阶版本,巧妙地融合了成熟的基于单倍型的变异检测方法和先进的机器学习技术,以提升变异检测的准确性。它在保留原有逻辑架构的同时,优化了活跃区域检测和局部组装过程,特别增强了在复杂基因组区域的表现。DNAscope通过为候选变异添加额外信息注释,并结合机器学习模型进行变异基因型分析,显著提高了整体准确度。此外,DNAscope还可与贝叶斯基因型分析模型配合使用,使其在非哺乳动物物种的重测序分析中同样发挥优势,体现了其广泛的适用性和卓越的性能。

图2  DNAscope方法概述

图2 DNAscope方法概述

为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。

测试涵盖了不同测序深度(15x至36x),并以NIST GIAB高置信度调用v4.2.1为基准。结果显示,DNAscope在所有样本和测序深度下的SNP和INDEL检测性能均优于DNAseq,特别是在30x HG002样本中,SNP和INDEL的F1分数分别达到99.57%和99.46%,总体错误率降低了一半以上。这种在多个样本中的卓越表现证明了DNAscope模型的泛化能力,而非过拟合于训练样本。此外,DNAscope还展现了适应新测序技术的潜力,如之前研究中开发的MGI模型所示,进一步凸显了其在变异检测领域的先进性和灵活性。

图3  DNAscope 和 DNAseq 的精确召回曲线

图3 DNAscope 和 DNAseq 的精确召回曲线

图4  对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

图4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

为深入评估变异检测工具的性能,研究组利用GA4GH的分层区域进行了详细分析。这些区域包括低可映射性、分段重复、自链区域、MHC以及综合多种复杂因素的"全难度"区域。结果显示,DNAscope在读数映射困难的区域,如低可映射性、分段重复和自链区域,均明显优于DNAseq。特别是在MHC区域的SNP检测和长同聚物区域的INDEL检测中,DNAscope表现更为出色。这些优势共同导致DNAscope在复杂基因组区域的整体表现优于DNAseq。值得注意的是,即使在相对简单的区域,DNAscope在INDEL检测方面仍保持领先,而在SNP检测方面与DNAseq旗鼓相当。这一全面的分层分析凸显了DNAscope在处理各种复杂基因组区域时的强大能力和灵活性。

研究团队通过对HG002、HG003和HG004的36x测序数据进行抽样,创建了5个不同深度的数据集,以评估变异检测工具在不同测序覆盖度下的性能。结果显示,尽管变异检测准确性通常随覆盖度降低而下降,但DNAscope在低覆盖度条件下仍然保持了优于DNAseq的高准确性。特别值得注意的是,DNAscope在20x覆盖度下的表现始终优于DNAseq在36x覆盖度下的表现。这一发现突显了DNAscope改进的架构和机器学习模型过滤在低覆盖度条件下的显著优势,为高效且经济的变异检测提供了新的可能性。

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

研究探讨了DNAscope贝叶斯模型在非人类和多倍体样本上的表现,特别关注15x覆盖度下的性能。结果显示,尽管整体准确性低于其机器学习模型,DNAscope的贝叶斯模型在INDEL检测方面仍优于DNAseq,而在SNP检测方面两者相当。这表明DNAscope在处理非标准样本时仍具有一定优势,尤其是在INDEL检测方面。

图6 对Genome in a Bottle样本HG002、HG003和HG004在15x测序深度下的评估

图6 对Genome in a Bottle样本HG002、HG003和HG004在15x测序深度下的评估

在标准化的AWS环境中,对DNAscope进行了性能测试。结果显示,使用96+vCPU处理30x全基因组测序样本时,DNAscope的运行时间不到1小时,与DNAseq相当,比BWA/GATK快5倍。测试还表明DNAscope具有良好的可扩展性,运行时间与线程数几乎呈线性关系。

图7 DNAscope 在多个 AWS C6i 实例上的运行时

图7 DNAscope 在多个 AWS C6i 实例上的运行时


总结

在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2241842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

程序设计方法与实践-变治法

变换之美 变治法就是基于变换的思路,进而使原问题的求解变得简单的一种技术。 变治法一般有三种类型: 实例化简:将问题变换为同问题,但换成更为简单、更易求解的实例。改变表现:变化为同实例的不同形式,…

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url 第一类情况 在anaconda创建新环境时,使用如下代码 conda create -n charts python3.7 错误原因: 默认镜像源访问速度过慢,会导致超时从而导致更新和下载失败。 解决方…

Spring Boot框架:电商系统的技术革新

4 系统设计 网上商城系统的设计方案比如功能框架的设计,比如数据库的设计的好坏也就决定了该系统在开发层面是否高效,以及在系统维护层面是否容易维护和升级,因为在系统实现阶段是需要考虑用户的所有需求,要是在设计阶段没有经过全…

wordpress下载站主题推荐riproV5 wordpress日主题

iPro主题全新V5版本,是一个优秀且功能强大、易于管理、现代化的WordPress虚拟资源商城主题。支持首页模块化布局和WP原生小工具模块化首页可拖拽设置,让您的网站设计体验更加舒适。同时支持了高级筛选、自带会员生态系统、超全支付接口等众多功能&#x…

微服务即时通讯系统的实现(客户端)----(1)

目录 1. 项目整体介绍1.1 项目概况1.2 界面预览和功能介绍1.3 技术重点和服务器架构 2. 项目环境搭建2.1 安装Qt62.3 安装vcpkg2.3 安装protobuf2.4 构建项目2.5 配置CMake属性 3. 项目核心数据结构的实现3.1 创建data.h存放核心的类3.2 工具函数的实现3.3 创建编译开关 4. 界面…

2024年11月15日

1.计算机网络 逻辑右移 做加减法 定点乘法 原码乘法运算 一位乘 计组 2.英语六级

算法定制LiteAIServer摄像机实时接入分析平台玩手机打电话检测算法:智能监控的新篇章

在现代社会,随着智能手机的普及,无论是在工作场所还是公共场所,玩手机或打电话的行为日益普遍。然而,在某些特定环境下,如工厂生产线、仓库、学校课堂等,这些行为可能会影响到工作效率、安全或教学秩序。为…

算法--解决二叉树遍历问题

第一 实现树的结构 class Node(): # 构造函数,初始化节点对象,包含数据和左右子节点 def __init__(self, dataNone): self.data data # 节点存储的数据 self.left None # 左子节点,默认为None self.rig…

深度学习基础—Beam search集束搜索

引言 深度学习基础—Seq2Seq模型https://blog.csdn.net/sniper_fandc/article/details/143781223?fromshareblogdetail&sharetypeblogdetail&sharerId143781223&sharereferPC&sharesourcesniper_fandc&sharefromfrom_link 上篇博客讲到,贪心算…

C++__day1

1、思维导图 2、如果登录失败&#xff0c;提示用户登录失败信息&#xff0c;并且提示错误几次&#xff0c;且重新输入&#xff1b;如果输入错误三次&#xff0c;则退出系统 #include <iostream> using namespace std;int main() {string id , pswd;string user"admi…

【机器学习】数学知识:欧式距离(Euclidean Distance)和曼哈顿距离(Manhattan Distance)

欧式距离和曼哈顿距离是两种常用的距离度量方法&#xff0c;用于衡量两点之间的相似性或差异性。它们在几何分析、数据挖掘、机器学习等领域有广泛应用。 1. 欧式距离 概念 欧式距离&#xff08;Euclidean Distance&#xff09;是最常见的直线距离度量方法&#xff0c;源于欧…

Java之JDBC,Maven,MYBatis

前言 就是用来操作数据库的 1.JDBC快速入门 注意在使用前一定要导入jar包 在模块那里新建目录&#xff0c;新建lib&#xff0c;粘贴复制jar包&#xff0c;我这个jar设置的是模块有效 package test1017;import java.sql.Connection; import java.sql.DriverManager; import…

JavaWeb笔记整理——Spring Task、WebSocket

目录 SpringTask ​cron表达式 WebSocket SpringTask cron表达式 WebSocket

【大数据学习 | HBASE高级】rowkey的设计,hbase的预分区和压缩

1. rowkey的设计 ​ RowKey可以是任意字符串&#xff0c;最大长度64KB&#xff0c;实际应用中一般为10~100bytes&#xff0c;字典顺序排序&#xff0c;rowkey的设计至关重要&#xff0c;会影响region分布&#xff0c;如果rowkey设计不合理还会出现region写热点等一系列问题。 …

如何实现主备租户的无缝切换 | OceanBase应用实践

对于DBA而言&#xff0c;确保数据库的高可用性、容灾等能力是其日常工作中需要持续思考和关注的重要事项。一方面&#xff0c;可以利用数据库自身所具备的功能来实现这些目标&#xff1b;若数据库本身不提供相应功能&#xff0c;DBA则需寻找其他工具来增强数据库的高可用性和容…

Spring 中的 BeanDefinitionParserDelegate 和 NamespaceHandler

一、BeanDefinitionParserDelegate Spring在解析xml文件的时候&#xff0c;在遇到<bean>标签的时候&#xff0c;我们会使用BeanDefinitionParserDelegate对象类解析<bean>标签的内容&#xff0c;包括<bean>标签的多个属性&#xff0c;例如 id name class in…

MQTT从入门到精通之MQTT Dashboard

MQTT Dashboard 1 Dashboard简介 EMQX 提供了一个内置的管理控制台&#xff0c;即 EMQX Dashboard。方便用户通过 Web 页面就能轻松管理和监控 EMQX 集群&#xff0c;并配置和使用所需的各项功能。 访问地址&#xff1a;http://ip:18083 首次登录访问账号&#xff1a;admin…

Flume和kafka的整合

1、Kafka作为Source 【数据进入到kafka中&#xff0c;抽取出来】 在flume的conf文件夹下&#xff0c;有一个flumeconf 文件夹&#xff1a;这个文件夹是自己创建的 创建一个flume脚本文件&#xff1a; kafka-memory-logger.conf Flume 1.9用户手册中文版 — 可能是目前翻译最完…

vue2项目中在线预览csv文件

简介 希望在项目中&#xff0c;在线预览.csv文件&#xff0c;本以为插件很多&#xff0c;结果都只是支持excel&#xff08;.xls、.xlsx&#xff09;一到.csv就歇菜。。。 关于文件预览 vue-office&#xff1a;文档、 查看在线演示demo&#xff0c;支持docx、.xlsx、pdf、ppt…

右键添加获取可供WSL使用的路径,对windows文件夹也适用,即获取符合Linux规范的路径内容给WSL

文章目录 1. 功能展示1.1. 对 WSL 文件/文件夹/目录空白位置 使用1.2. 对 Windows 文件/文件夹/目录空白位置 使用1.3. Fin 2. 方法3. 文件内容3.1. AddWSLPath.reg3.2. CopyPath.vbs 4. 念念碎 1. 功能展示 1.1. 对 WSL 文件/文件夹/目录空白位置 使用 输出 /etc 1.2. 对 Wi…