论文解读-DeepEdit:使用纳米孔直接RNA测序对A - to - I RNA编辑事件进行单分子检测和阶段划分

news2025/1/11 22:49:41

DOI: 10.1186/s13059-023-02921-0

期刊 :Genome Biology

中科院分区:1Q

影像因子:12.3

作者 Longxian Chen; Liang Ou; Xinyun Jing; Yawei Kong; Bingran Xie; et al

出版日期 2023-04-17

网址: https://genomebiology.biomedcentral.com/counter/pdf/10.1186/s13059-023-02921-0

Github:GitHub - weir12/DeepEdit: DeepEdit: single-molecule detection and phasing of A-to-I RNA editing events using Nanopore direct RNA sequencing

摘要

A-I的RNA修饰的单分子检测阶段仍然是一个不好解决的问题。long-read和纳米PCR-free技术为最原始的RNA测序和检测提供了方便。在本文中,作者设计出了一个神经网络模型DeepEdit,该模型可以解决两个问题:第一个就是能够识别RNA序列纳米孔中A-I的编译过程;第二个就是RNA编译的转录过程。通过两组数据(粟酒裂殖酵母和智人转录组数据)来验证DeepEdit模型的鲁棒性。

创新点:该模型能够从新的角度为RNA编辑提供有力工具

背景

RNA修饰在不同生命的转录过程十分关键。腺苷脱氨基是多细胞动物中最丰富的RNA修饰,用来将腺苷转化为肌苷( A-to-I ) 在翻译过程中 ,随着肌苷被翻译成鸟嘌呤(G).A-I这种RNA修饰很容易改变蛋白质序列,并且影像着蛋白质产品的诸多功能。

之前对于鉴定RNA修饰位点的方法:通过分析作图数和基因组参考之间单个核苷酸发生变异,短读数全转录组测序是一种高通量测序技术。

然而该方法也面临着一些问题,该方法面临着无法确定编辑碱基的相对位置信息、可能会误识别假阳性编辑位点以及计算复杂性难以解析RNA编辑事件与其他转录后事件之间的关系等几个挑战。

对于牛津纳米孔技术的出现不需要反转录和PCR扩增技术也能够解决RNA测序问题 。通过记录电信号的变化,有很多用于RNA修饰的相关测序。再进一步的研究方面,机器学习也被用到纳米孔测序,但是对于RNA修饰的纳米孔测序读数问题还是有所欠缺,对于解决更进一层的RNA修饰的问题更是不可能。

在本研究中,作者为了解决不同纳米孔读数之间的RNA修饰问题,开发了一个神经网络模型,命名为DeepEdit,该模型可以识别单个纳米孔读数的A到I的修饰问题,而且还能够通过RNA纳米孔确定转录物上的位置信息。

方法和数据集

数据集

我们可能和机械相关的我目前想到的就是试剂盒的应用,在本文中也有所体现,对于外观的设计可能有所相关,本文中所用到的是质粒迷你试剂盒来提取质粒,随后再用凝胶试剂盒转化成菌株,随后在培养基中培养菌株,随后在中期提取细胞中的DNA和RNA,在此只对该问题进行了简单描述,因为这些过程过于偏向生物,不过多赘述,如果像深入了解可以看原文熟悉一下。

S.pombe RNA序列数据集

还需要使用Illumina生成测序文库,产生长度为150bp的序列,对于得到RNA修饰位点的步骤还需要经过使用Samtools的mpileup工具包,再通过以下标准步骤来得到高可信度的A-I RNA修饰位点。包括:(1)仅保留在FY-ADAR2-1和FY-ADAR2-2样本中出现的A-to-G单核苷酸变异(SNVs);(2)删除在FY-HFF1-1或FY-HFF1-2中出现的A-to-G SNVs;(3)删除与基因组SNP重叠的位点;(4)所有FY-ADAR2样本中的覆盖深度≥50且编辑比例≥0.1。综上所述,该实验使用了一系列的步骤和方法,包括数据修剪、去重、质量过滤、比对、变异调用和筛选,以鉴定A-to-I RNA编辑位点。

H. sapiens RNA序列数据集

通过NCBI数据库进行下载,通过上述相同的方法来进行筛选合适的修饰位点。

纳米孔的RNA序列数据集

通过牛津纳米孔数据获得的,采用试剂盒进行测序

H. sapiens的纳米孔数据集

从Github上下载GM12878的纳米孔直接RNA测序数据,使用ONT  R9.4方法获得1300的纳米孔数据。
通过KS-test获得2318个修饰A位点的数据,非位点一样。

特征

在这里的特征提取与我们之前所理解的有所不同, 把以下四种定义为特征:分别是“平均值”(norm_mean)、“标准差”(norm_std)、“长度”(length)以及“碱基一致性”(base identity)。这些特征是根据编辑位点周围六个碱基的信息计算得出的。以上的数据选择用80%的数据作为训练集,20%的数据集作为测试集。

方法

DeepEdit

本文最主要的用到的一个深度学习的算法CNN,DeepEdit的神经网络模型具有一个相对较大的输入层,两个较小的隐藏层,和一个输出层,用于执行二元分类任务,即预测一个样本是否为正例。dropout正则化技术有助于提高模型的泛化性能,防止过拟合。这种模型结构通常用于处理具有复杂特征的数据集,如文本分类或图像识别等任务。流程图解释

DeepEdit对于人类数据集的应用

为了评估模型的性能,选择已编辑和未编辑的位点,如果编辑比例大于0.9则被认为完全编辑,如果编辑比例为0则认为未编辑,正负样本的设计也是同理,接下来的步骤特征提取等与上述方法一致,进一步来证明模型的稳定性。

结果和讨论

讨论

这项研究描述了构建酵母菌株来研究A-to-I RNA编辑的实验过程,简言之就是自己构建了数据集的过程。以及如何通过引入人类ADAR2基因并进行验证,成功地实现了A-to-I RNA编辑的检测。这一研究为进一步研究RNA编辑事件提供了重要的实验基础。

为了研究A-I RNA修饰对于纳米孔测序中对电信号的变化做了一些实验,首先采用不同的RNA样本,FY-ADAR2和FY-HFF1从这两个样本中获得了大量的数据,分别是2,328,631个读数来自FY-HFF1,以及4,224,232个读数来自FY-ADAR2。研究结果显示,在编辑位点及其附近的碱基位置(-3,-2,-1和+1)上,编辑后的“A”位点的电信号与FY-HFF1中的相应位点存在显著差异。这表明A-to-I RNA编辑事件会导致纳米孔原生RNA测序中的电信号发生变化。特别地,编辑后的碱基电信号受到最大影响,而-1,-2,-3和+1位置的电信号受到较小程度的影响。其他更远的位点几乎没有受到影响。

此外,在研究过程中也发现了一个问题,对于碱基的识别存在一个特殊错误(ASEs)ASEs在编辑位点和附近碱基位置经常出现,主要集中在-1到+1位置(见图1e和附表2)。相比之下,在随机“A”位点周围只观察到基线水平的、随机分布的错误(附表1),这表明ASEs与RNA编辑事件之间存在相关性。这些错误可以帮助区分编辑过的RNA分子和未编辑的RNA分子。这对于纳米孔测序中的RNA编辑研究非常重要。

结果

特征选择结果

为了获得最佳性能的神经网络模型,他们选择了并比较了五种不同的原始特征,包括电信号均值、相邻碱基间的均值偏差、标准偏差、原始信号值的数量和碱基类型。独立的交叉验证显示,除了相邻碱基均值偏差外,其他原始特征的组合显著提高了性能。电信号均值、碱基类型、标准偏差和信号值数量的组合表现最佳(AUC分数:0.9653)

DeepEdit应用于总共79,426个纳米孔读数后,取得了AUC(曲线下面积)得分为0.9076,表明DeepEdit在区分编辑的RNA分子和未编辑的RNA分子方面表现良好。此外,应用DeepEdit来预测基因组位点上的编辑状态时,编辑位点的编辑比例显著高于未编辑位点,这也进一步表明DeepEdit在人类中具有良好的性能。
与其他研究的比较:研究人员还将他们的方法检测到的RNA编辑位点与以前已发表的研究中报告的位点进行了比较。结果显示,与第一项研究的位点有56.32%的重叠率,与第二项研究的位点有54.98%的重叠率。这表明,与以前的研究相比,我们的方法具有可比较的重叠率。
综合来看,研究结果表明,使用S. pombe数据训练的DeepEdit模型在不同物种上都具有广泛的应用潜力,可以有效地检测RNA编辑事件。DeepEdit与其他方法相比,如Dinopore,具有明显的优势。它能够在单个纳米孔读数中检测RNA编辑事件,而其他方法只能提供编辑位点的预测。此外,DeepEdit还可以确定编辑事件的相位信息,这是其他方法无法实现的。

长读取方法优势:DeepEdit采用长读取方法,相比短读取方法具有多个优势。首先,它可以在重复元素和高度编辑的区域中检测编辑位点,而短读取方法通常会错过这些区域。其次,DeepEdit具有单分子分辨率,可以准确报告RNA分子上的编辑位置。
编辑事件相位信息:DeepEdit能够提供A-to-I RNA编辑事件的相位信息,即哪些RNA分子在哪些位置进行了编辑。这对于了解编辑事件的生物学含义非常重要。
应用领域:RNA编辑在多种人类疾病中扮演关键角色。DeepEdit的能力可以用于研究蛋白质编码和RNA次级结构变化等分子调控过程。
局限性:尽管DeepEdit具有多个优势,但它也有一些局限性。为了训练该模型,需要从头构建RNA编辑机制,这在一些特定区域仍然具有挑战性。研究人员计划通过创建来自多个物种的额外训练数据集来克服这一问题,以扩展DeepEdit的应用范围。
 

结论

这项研究展示了一个名为DeepEdit的工具,它可以在不同物种的RNA测序数据中检测和分析RNA编辑事件,这有助于我们更深入地了解RNA编辑与人类疾病相关的机制。该工具将对RNA编辑研究产生重要影响。DeepEdit可以稳健地检测来自不同物种(包括酿酒酵母和人类)的纳米孔RNA测序读取中的A-to-I编辑事件,使我们能够分析编辑事件的相位,并获得有关RNA的转录后调控的新见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1017157.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Jetpack系列 -- LiveData源码原理解析(解决黏性问题)

一、LiveData是什么? 注意:一般情况下,LiveData要配合ViewModel一起使用的,但是今天是单独使用LiveData,作为学习的话,我们可以只关注LiveData了。 LiveData是一种可观察的数据存储器类。与常规的可观察类…

python-保留小数位数的3种方法

在python实际运用中,需要对小数位数进行截取保留。 以下是,python保留小数点位数的3种方法。 方法一 方法:’%.nf’ % num n代表保留的小数位数,num表示需要截取的目标数 用法如下: old_num 1.23456 new_num %.2f…

[NLP] LLM---<训练中文LLama2(四)方式一>对LLama2进行SFT微调

指令精调 指令精调阶段的任务形式基本与Stanford Alpaca相同。训练方案也采用了LoRA进行高效精调,并进一步增加了可训练参数数量。在prompt设计上,精调以及预测时采用的都是原版Stanford Alpaca不带input的模版。对于包含input字段的数据,采…

竞赛 基于机器学习与大数据的糖尿病预测

文章目录 1 前言1 课题背景2 数据导入处理3 数据可视化分析4 特征选择4.1 通过相关性进行筛选4.2 多重共线性4.3 RFE(递归特征消除法)4.4 正则化 5 机器学习模型建立与评价5.1 评价方式的选择5.2 模型的建立与评价5.3 模型参数调优5.4 将调参过后的模型重…

yolov5在rk3588上加速

不采用fastdeploy等三方框架,使用rknn-lite2或者rknpu在rk3588上加速,测试加速的是rknn自带的yolov5模型。 备注: 1.测试视频:多人,帧:3000,时长:2min,分辨率:1920x1080,fps:25 2…

傅里叶变换应用 (02/2):频域和相位

一、说明 到目前为止,在我们的讨论中,我已经交替使用了“傅里叶变换”和“快速傅里叶变换(FFT)”。在这一点上,值得注意的是区别!FFT 是“离散”傅里叶变换 (DFT) 的有效算法实现。“…

Remix+Cloudflare Pages+D1 快速上手

我们最近听到越来越多的关于Cloudflare的服务。 我对Clouflare D1特别感兴趣,所以我决定研究一下。 与这次我想使用的 Remix 一起,我想介绍 Remix Cloudflare Pages D1 的第一步。 我只是稍微地了解一下,但我所做的在下面的仓库中&#…

【深度学习】 Python 和 NumPy 系列教程(十二):NumPy详解:4、数组广播;5、排序操作

目录 一、前言 二、实验环境 三、NumPy 0、多维数组对象(ndarray) 多维数组的属性 1、创建数组 2、数组操作 3、数组数学 4、数组广播 5、排序操作 1. np.sort() 函数 2. np.argsort() 函数 3. ndarray.sort() 方法 4. 按列或行排序 5. n…

VHDL菜鸟入门到精通之激励文件编写

目录 一、概览 二、激励文件结构 三、样例 3.1 组合逻辑 3.2 时序逻辑 四、常用编写 4.1 时钟信号 4.2 延时 4.3 循环 4.4 进程 一、概览 二、激励文件结构 VHDL激励文件结构和设计文件较为类似,下面以3-8译码器的激励文件对结构进行说明。 激励文件主要…

git clone报错Failed to connect to github.com port 443 after 21055 ms:

git 设置代理端口号 git config --global http.proxy http://127.0.0.1:10085 和 git config --global https.proxy http://127.0.0.1:10085 然后就可以成功git clone hugging face的数据集了 如果是https://huggingface.co/datasets/shibing624/medical/tree/main 那么…

logstash通过kafka通道采集日志信息

1.修改文件/opt/app/elk/logstash-7.5.1/config.d/config1.conf,在input下添加kafka采集配置 #192.168.128.130:9103:kafka地址 #topics:主题 kafka {bootstrap_servers > ["192.168.128.130:9103"]group_id > "logstash"topics > [&…

Optuna学习博客

介绍 简单来说,OPtuna就是一个能够进行调整超参数的框架,它能够将自动调整超参数以及能够将超参数优化过程可视化,方便保存,分析。可拓展性较强。 使用方法 optuna的优化程序具体有三个组成部分。 objective(目标函…

MySQL数据库管理及数据库基本操作

目录 1 MySQL数据库基本操作 1.1 SQL分类 1.2 SQL语言规范 1.3 数据库对象和命名 1.4 SQL语句分类 2 管理MySQL数据库 2.1 查看数据库结构 2.1.1 查看当前服务器中的数据库 2.1.2 查看数据库中包含的表 2.1.3 查看表的结构(字段) 2.2 数据类型…

【linux】进程创建,进程终止

进程创建,进程终止 1.进程创建1.1写时拷贝1.2fork常规用法1.3fork调用失败的原因 2.进程终止2.1退出码2.2进程退出场景2.3进程如何退出 1.进程创建 在前面创建子进程的时候就学过了fork函数,它能从已经存在进程中创建一个新进程,新进程为子进…

Python 图形化界面基础篇:打开和关闭新窗口

Python 图形化界面基础篇:打开和关闭新窗口 引言 Tkinter 库简介步骤1:导入 Tkinter 模块步骤2:创建 Tkinter 窗口步骤3:创建一个新窗口步骤4:关闭新窗口步骤5:启动 Tkinter 主事件循环 完整示例代码代码解…

C语言指针详解(4)———找工作必看指针笔试题汇总

指针对于编程工作的重要性 C语言指针在找工作中具有重要性。以下是几个原因: 1.高效的内存管理:C语言指针可以帮助程序员高效地管理内存,包括动态内存分配和释放,以及数据的访问和操作。这对于开发性能优化的应用程序非常重要&am…

7.代理模式

1.UML 2.代码 #include <iostream> using namespace std;class Subject{ public:virtual void Request() 0; };class RealSubject:public Subject { public:virtual void Request(){cout << "RealSubject" << endl;} }; class Proxy:public Subj…

VUE build:gulp打包:测试、正式环境

目录 项目结构 Gulp VUE使用Gulp Vue安装Gulp Vue定义Gulp.js package.json build文件夹 config文件夹 static-config文件夹 项目结构 Gulp Gulp是一个自动化构建工具&#xff0c;可以帮助前端开发者通过自动化任务来管理工作流程。Gulp使用Node.js的代码编写&#xff…

go初识iris框架(五) -MVC包的使用

在Iris框架中&#xff0c;封装了mvc包作为对mvc架构的支持&#xff0c;方便开发者遵循mvc的开发原则进行开发。 iis框架支持请求数据、模型、持久数据分层处理&#xff0c;并支持各层级模块代码绑定执行。 MVC即&#xff1a;model、view、controller三个部分&#xff0c;分别代…

【微信小程序】swiper的使用

1.swiper的基本使用 <jxz-header></jxz-header> <view class"banner"><swiperprevious-margin"30rpx"autoplayinterval"2000"indicator-dotsindicator-color"rgba(0,0,0,0.3)"indicator-active-color"#bda…