靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!

news2024/12/23 13:22:27

背景

RNA-seq,即通过高通量测序技术进行的转录组测序分析技术。最初作为研究mRNA,small RNA,non-coding RNA 等表达水平、表达差异基因的应用,在过去的十几年内迅速发展。而今, RNA-seq 在转录本变异、基因融合、可变剪切检测等场景均有大规模的应用。靶向 RNA-seq 则是对特定的转录本进行重点分析,与标准RNA-seq 类似,靶向富集方法可用于评估基因表达、 RNA 种类分析,以及基因融合和突变检测,但相比标准RNA-seq,具有高灵敏度、宽动态范围、低成本与高通量等优势。
STAR 作为一款经典的比对软件,在科研与临床 RNA 测序数据分析中有着广泛的应用。相较于同样经典的 Tophat2 与 HISAT2,STAR 拥有更高的 unique mapping 比例,且对 more soft-clipped 和错配碱基比对有较高的容忍度,适用于更加复杂的分析需求。因此 STAR 成为 ENCODE 计划的御用比对软件。为了克服 STAR 运行耗时较长的弊端,Sentieon开发了对应的加速模块 Sentieon-STAR,以期缩短软件的运行时间。纳昂达利用开发的多款靶向捕获 panel 的靶向 RNA-seq 数据,对 Sentieon-STAR 相比开源 STAR 在 RNA 变异检测、基因表达定量、可变剪切检测和融合基因检测多个方面的表现进行了评估。

转录本变异检测是指通过比较样本 RNA 序列和参考基因组对应序列,来寻找单碱基多态性和小片段的插入缺失,其结果大多用于致病位点的判断或性状相关的研究。
融合基因是指两个或多个基因首尾相连,置于同一套调控序列控制之下构成的嵌合基因,其表达产物为融合蛋白。融合基因的检测在某些癌症中成为了重要的检测指标。
可变剪接,或称选择性剪接,即主要基因或者 mRNA 前体转录所产生的 RNA 的外显子以多种方式通过 RNA 剪接进行重连,由此产生的不同的
mRNA
可能被翻译成不同的蛋白质异构体,多数情况下这些异构体的结构与功能均有差异。可变剪接可用于研究同基因的不同转录本表达差异对性状的影响。

分析流程

表 1 | 测试内容及方法
在这里插入图片描述
在这里插入图片描述

分析结果

分析速度对比

我们首先考察了 Sentieon-STAR 相比 STAR 是否能够实现提速。在同样的线程数(NT=40)下,不论是 RNA-seq 数据还是靶向捕获数据,Sentieon-STAR 用时均少于 STAR(图2)。处理数据量相对少的靶向捕获数据时,Sentieon-STAR 可提速 1.0-1.5 倍,而在处理数据量大的 RNA-seq 数据时,加速模块表现更加明显,可提速 1.75-2 倍以上。
在这里插入图片描述

变异位点一致性比较

我们选取同一样本的 RNA-seq 和靶向捕获 RNA-seq 进行性能比较测试,包含组织样本和细胞系样本,运行经典 RNA 突变分析流程(STAR+GATK)和 Sentieon RNA 突变分析流程(Sentieon-STAR)。两个流程产生的变异分析结果显示:组织样本和细胞样本的 RNA-seq 数据的变异检测一致性均在 99.1% 以上,提示 Sentieon-STAR 加速模块对整体变异检测结果影响非常小。而在靶向捕获数据中,由于样本在靶区内变异数量偏小的原因,一致性较 RNA-seq 略低,但也保持在 98.8% 以上。由于细胞系样本的变异复杂程度低于组织样本,即使在变异位点数较少的情况下,依旧可以保持较好的一致性。
在这里插入图片描述

基因表达定量比较

NanOnco Plus Panel v2.0 包含实体瘤研究中被广泛关注的 565 个基因的全部编码区。靶向捕获 RNA-seq 数据在获得 Sentieon-STAR 和 STAR 比对文件后使用 HTseq-count 统计 read count 值并计算 RPKM,去除表达量为零的基因后, 我们考察了靶区基因的富集程度和和相对表达丰度的重现性。
无论在何种流程下,靶向捕获 RNA-seq 对目标区域内的基因表达相对 RNA-seq 均有显著的富集效果(图 4a)。来自纳昂达内部 3 个样本的 6 组数据(含重复),其靶区基因富集倍数中位数分布在 16.3-18.6 倍之间,平均富集倍数 14.9-20.1 不等(图 4b)。不论是组织样本还是细胞系样本,线性回归的斜率均接近 1(图 4c),表明靶向捕获 RNA-seq 与 RNA-seq 的整体定量结果具有高度一致性。而 Sentieon-STAR 与 STAR 的整体结果几乎完全一致。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可变转录本定量比较

合成的 RNA 可变转录变体(Spike-In-RNA Variants,SIRVs,Lexogen)可用来模拟转录组复杂性分析。制备文库时,以极少的量加入样品中与内源性 RNA 共同建库,即可进行可变转录本定性或定量的比较分析。针对其来自 7 个人类模型基因的 69 个人工转录变体(0.16-2.5 kb),我们按照其转录本序列设计了探针。选取不同起始摩尔量的三套标准品(E0、E1、E2)混合于 K562 细胞系 RNA 中并使用相应探针进行靶向富集。该方法可考察工作流程对不同转录本注释分析的稳健性。我们分别使用 STAR以及 Sentieon-STAR 比对,随后利用 Cufflinks2 进行定量。
对 E0、E1、E2 三套标准品可变转录本定量分析后, 二者分析结果高度一致,且靶向捕获数据中表达倍数分布均接近理论值。值得注意的是,个别转录本由于相比其他转录本差异极小(仅有一个外显子差异)导致转录本定量的准确度下降。供应商对此产品进行测试时也观察到同样的现象。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

融合基因检测

我们使用包含 16 种已知融合事件的 RNA 标准品(Seraseq® FFPE NTRK Fusion RNA Reference Material, Seracare)进行融合基因检测对比。为了更好地模拟肿瘤 RNA 检测,我们将标准品按 50%,12.5%,3.75%,0.94%,0.23% 比例进行稀释,使用 NanOnco Plus Panel v2.0 捕获探针进行基于靶向捕获的 RNA-seq。STAR 和 Sentieon-STAR 流程被用来进行基因组比对,随后使用 STAR-Fusion 对每个样本原始 fastq 文件进行融合检测。此外,我们还测试了经典融合检测软件 Fusioncatcher。
融合软件结果对比显示各家软件在“去伪”和“存真”上各有侧重(图6)。在未做任何过滤的前提下,对于50% 的混比样本,其 Fusioncatcher、STAR 和 Sentieon-STAR 分别识别出的 junction 读数为 456,20 和 15。由于 Fusioncatcher 保留了较多信号,因此在低浓度时能保持较好的召回率(Recall rate),但其阳性预测值(Positive Predictive Value, PPV)则显著偏低。Sentieon-STAR 和 STAR 的召回率则相对较差;Sentieon-STAR 与 STAR 在 PPV 上则较为接近。这样的结果可能是由 STAR 算法改进导致的,进一步加强了 STAR-fusion 的去伪能力。为了评估测序量对低频或低拷贝数融合基因检测的影响,我们进行了多轮模拟抽样(down-sampling),并使用 Fusioncatcher 流程获取融合基因信号。结果显示当标准品混比低至 0.23% 时,即使加大测序量,其检出率至多为 62.5%(图7a)。使用 NanOnco Plus Panel v2.0 进行靶向RNA富集,3.75% 的标准品混比在原始测序 reads 达到 35M 或以上时,则可稳健地检出全部融合基因(图7b)。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
我们通过对标准品、细胞系及组织样本的靶向 RNA-seq 数据分析,展示了方案在 RNA 变异检测、基因表达定量、基因可变剪切和融合基因检测等方面的具体表现。此外,Sentieon 比对软件(Sentieon-STAR)相比经典 RNA 比对软件(STAR)则可显著加速,为相关分析提供了更多选择。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

在这里插入图片描述
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/785998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安全文件传输:如何降低数据丢失的风险

在当今数字化时代,文件传输是必不可少的一项工作。但是,数据丢失一直是一个令人头疼的问题。本文将探讨一些减少数据丢失风险的方法,包括加密、备份和使用可信的传输协议等。采取这些措施将有助于保护数据免受意外丢失的危险。 一、加密保护数…

抖音矩阵系统源码开发搭建部署分享

一、 功能开发设计 (1)数据概览:账号,视频top10数据统计 (2)AI视频创意:原创视频批量剪辑,阶乘算法,去重原理 (3)同城拓客:线下门店…

整体认识和路由配置、基础数据渲染、热榜区域实现、图片预览组件封装、认识SKU组件、通用组件统一注册全局(详情页)【Vue3】

详情页 整体认识和路由配置 整体业务认识 路由配置 准备组件模板 <script setup></script><template><div class"xtx-goods-page"><div class"container"><div class"bread-container"><el-breadc…

nlp系列(6)文本实体识别(Bi-LSTM+CRF)pytorch

模型介绍 LSTM&#xff1a;长短期记忆网络&#xff08;Long-short-term-memory&#xff09;,能够记住长句子的前后信息&#xff0c;解决了RNN的问题&#xff08;时间间隔较大时&#xff0c;网络对前面的信息会遗忘&#xff0c;从而出现梯度消失问题&#xff0c;会形成长期依赖…

Linux文件管理

WINDOWS/LINUX目录对比 Windows: 以多根的方式组织文件 C:\ D:\ E: Linux: 以单根的方式组织文件 / (根目录) Linux目录简介 /目录结构&#xff1a; FSH (Filesystem Hierarchy Standard) [rootlocalhost ~]# ls / bin dev lib media net root srv usr boot etc lib64 misc …

Qt5.14.2下载及安装

1. 下载 https://download.qt.io/archive/qt/5.14/5.14.2/ 由于Qt 自从5.15版本开始&#xff0c;对非商业版本&#xff08;也就是开源版本&#xff09;&#xff0c;不提供已经制作好的离线exe安装包。所以&#xff0c;对于5.15&#xff08;含&#xff09;之后的版本&#xff…

混合背包--暗黑游戏(pgrune)

混合背包&#xff1a;包含着01背包&#xff0c;完全背包,多重背包 而这个题通过k[i]进行判断是哪个背包&#xff0c;少了个完全背包。 #include<bits/stdc.h> using namespace std; const int N1000; int vp[N]; int vr[N]; int k[N]; int w[N]; int f[151][151]; int m…

C++模拟实现list

1.首先要了解到vs底层的list链表是带头双向循环的链表。 所以首先就要看成员变量 那么就说明我们还需要构造一个Node的结构体&#xff0c;&#xff08;typedef一下就好了&#xff0c;名字不影响&#xff09; 现在就可以完成间的push_back函数了。 1.list的iterator 我们之前模…

随手笔记——3D−2D:PnP

随手笔记——3D−2D&#xff1a;PnP 说明理论源代码雅可比矩阵求解 说明 PnP&#xff08;Perspective-n-Point&#xff09;是求解3D到2D点对运动的方法。它描述了当知道n个3D空间点及其投影位置时&#xff0c;如何估计相机的位姿。 理论 特征点的3D位置可以由三角化或者RGB-…

鸿鹄协助管理华为云与炎凰Ichiban

炎凰对华为云的需求 在炎凰日常的开发中&#xff0c;对于服务器上的需求&#xff0c;我们基本都是采用云服务。目前我们主要选择的是华为云&#xff0c;华为云的云主机比较稳定&#xff0c;提供的云主机配置也比较多样&#xff0c;非常适合对于不同场景硬件配置的需求&#xff…

【前端笔记】本地运行cli项目报错ERR_OSSL_EVP_UNSUPPORTED

报错原因 Node版本>17.x&#xff0c;本地npm run 起项目后会发现终端报错&#xff0c;具体有以下2块关键信息&#xff1a; Error: error:0308010C:digital envelope routines::unsupported和 opensslErrorStack: [ error:03000086:digital envelope routines::initializa…

Jmeter配置起来太繁琐?试试RunnerGo

在用jmeter做性能测试时想看完整一点的测试报告&#xff0c;想配置阶梯模式来压测&#xff0c;想配置不同的接口并发这些都需要安装插件并且影响机器性能&#xff0c;想做自动化测试还得放到jenkins&#xff0c;这些配置起来太繁琐。今天给大家推荐一款测试平台RunnerGo&#x…

可解释的 AI:在transformer中可视化注意力

Visualizing Attention in Transformers | Generative AI (medium.com) 一、说明 在本文中&#xff0c;我们将探讨可视化变压器架构核心区别特征的最流行的工具之一&#xff1a;注意力机制。继续阅读以了解有关BertViz的更多信息&#xff0c;以及如何将此注意力可视化工具整合到…

B074-详情富文本 服务上下架 高级查询 分页 查看详情

目录 服务详情修改优化ProductServiceImplProduct.vue 详情数据-富文本-vue-quill-editor使用步骤测试图片的访问方式富文本集成fastDfs 后台服务上下架&#xff08;批量&#xff09;前端开始后端完成ProductControllerProductServiceImplProductMapper 前台展示上架前端开始后…

【雕爷学编程】Arduino动手做(171)---micro:bit 开发板3

37款传感器与模块的提法&#xff0c;在网络上广泛流传&#xff0c;其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和模块&#xff0c;依照实践出真知&#xff08;一定要动手做&#xff09;的理念&#xff0c;以学习和交流为目的&#xff0c;这…

Jmeter 如何并发执行 Python 脚本

目录 1. 前言 2. Python 实现文件上传 3. Jmeter 并发执行 4. 最后 1. 前言 JMeter 是一个开源性能测试工具&#xff0c;它可以帮助我们更轻松地执行性能测试&#xff0c;并使测试结果更加可靠。Python 是一种广泛使用的编程语言&#xff0c;它可以用于开发各种软件和应用…

ResultMap结果集映射

为了解决属性名和字段名不相同的问题 example&#xff1a;MyBatis-CRUD: Mybatis做增删改查 使用resultmap前查询password时为空&#xff0c;因为属性名与字段名不相同 做结果集映射&#xff1a; <?xml version"1.0" encoding"UTF-8" ?> <!…

自己动手写一个编译器

一、概述 本文将参考《自己动手写编译器这本书》&#xff0c;自己写一个编译器&#xff0c;但是因为本人水平有限。文章中比较晦涩的内容&#xff0c;自己也没弄明白。因此&#xff0c;本文仅在实践层跑一遍流程。具体的原理还需要大家自行探索。 TinyC 编译器可将 TinyC 源程序…

JavaScript 判断先后两个数组增加和减少的元素

&#x1f468;&#x1f3fb;‍&#x1f4bb; 热爱摄影的程序员 &#x1f468;&#x1f3fb;‍&#x1f3a8; 喜欢编码的设计师 &#x1f9d5;&#x1f3fb; 擅长设计的剪辑师 &#x1f9d1;&#x1f3fb;‍&#x1f3eb; 一位高冷无情的编码爱好者 大家好&#xff0c;我是 DevO…

错误解决:Failed to create Spark client for Spark session

错误解决&#xff1a;Failed to create Spark client for Spark session "Failed to create Spark client for Spark session"的错误通常表示无法为Spark会话创建Spark客户端。这可能是由于以下一些常见问题导致的&#xff1a; Spark配置错误&#xff1a;请检查Spar…