Nature Communications | 张阳课题组:端到端深度学习实现高精度RNA结构预测

news2024/12/28 3:02:10

RNA分子是基因转录的主要执行者,也是细胞运作的隐形功臣。它们在基因表达调控、支架构建以及催化活性等多个生命过程中都扮演着关键角色。虽然RNA如此重要,但由于实验数据的缺乏,准确预测RNA 的三维空间结构仍然是目前计算生物学面临的重大挑战之一。

近日,新加坡国立大学张阳教授团队在《Nature Communications》杂志上发表了题为 “Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction” 的研究论文。该研究报道了一项用于精确预测RNA的三维结构全新技术DRfold。新加坡国立大学和密歇根大学的李阳博士、张成辛博士和封晨洁博士为该论文的共同第一作者。


图1: 新加坡国立大学张阳团队在《Nature Communication》上的论文

研究背景

就像蛋白质分子一样,RNA分子的生物学功能与其特定的三维构象密切相关;而这种三维构型取决于RNA分子中核苷酸序列的排列顺序。RNA分子的序列和结构,会影响到RNA的稳定性、药物结合、催化活性等多个关键功能。因此,深入了解RNA的三维结构对于疾病研究和药物开发至关重要。然而,传统X射线晶体、冷冻电镜和核磁共振等生物湿实验方法不仅耗时,而且成本高昂,远远无法满足生物学家的结构测定需求。因此,直接基于RNA序列进行结构建模的计算方法成为现代计算生物学一个前沿热点方向。

DRfold采用了一种RNA的粗粒度模型,并将RNA结构的特定原子进行建模,以达到提高计算效率的目的。特别是,研究人员引入了一个与端对端训练并行运行的新颖几何模块设计,同时整合端对端学习和几何势,指导RNA结构的模拟重建。研究结果令人振奋,DRfold方法能够生成比传统自动方法更准确的RNA结构模型。另外,定量的基准测试结果表明,端到端深度学习与几何学相结合,超越了仅基于粗粒度端对端学习或仅基于几何的结构优化方法。

DRfold的执行代码可以在张阳教授团队的实验室网页(https://zhanggroup.org/DRfold/)免费获得。该网页也提供在线服务。使用者只需提供RNA序列,DRfold服务器自动生成RNA三维结构模型。

DRfold算法流程

DRfold流程如图2A所示。首先,通过用户提供待预测的RNA序列,DRfold 预测该序列的二级结构特征;其次,这些信息被送入嵌入层(图2B),它的任务是将输入的RNA序列和二级结构信息转化为计算机可以理解的表示形式。

随后,这些表示形式通过 48 个 RNA transformer 模块(图2C),进行了一系列复杂的转换。这个过程中,深度学习将自动学习如何通过结构模块(图2D)预测RNA的全局结构,包括每个核苷酸的旋转和平移信息(图2G),这些信息将用于后续恢复RNA特定原子(图2F)坐标。

同时,还有另一组神经网络模型(图2E)专门用于预测RNA核苷酸之间的几何结构(图2H)。所学到的全局结构信息和核苷酸间的几何信息将被整合成一个复合势能。这个复合势能描述了RNA分子的稳定性和构象。

随后,计算机使用基于梯度的优化算法,尝试不断调整RNA分子的构象,以找到具有最低能量的最稳定的结构。最终,这个优化后的构象被选定作为DRfold的输出模型。

图2. DRfold利用深度学习预测RNA分子结构流程图

实验结果

与其他算法的比较

这项研究首先将DRfold与以前的RNA结构计算机预测方法进行了比较。对比方法包括片段组装方法和从头预测方法,计算结果表明DRfold在多项性能指标上均超越了这些方法(图3)。例如,与其他方法相比,DRfold的模型在RMSD误差和TM-score方面表现出更高的准确性,这表明它可以更准确地预测RNA结构的三维构象。

图3. DRfold与其他方法的性能比较

DRfold的性能优势

DRfold的性能优势与研究团队的预期一致。因为现有的自动RNA结构预测方法主要利用基本的经验和统计势能的形式来进行预测,这种形式通常表示为𝑃(𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒|𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒)。由于这些方法的力场中参数数量有限,因此无法广泛考虑全局序列条件,通用的势能形式(例如距离或角度)也不能精确地确定RNA结构的复杂拓扑结构。相比之下,DRfold使用的Transformer模块嵌入了大量的权重参数设置,使其能够访问全局序列信息。这意味着DRfold可以更好地捕捉RNA序列中的全局特征,从而提高了结构预测的准确性。此外,DRfold还采用了端到端的损失函数,确保深度学习的预测与正确的整体构象高度一致。这意味着DRfold不仅可以考虑全局序列信息,还可以确保生成的结构与实际的RNA结构紧密匹配。

氢键的作用

在RNA分子中,氢键相互作用在三维结构中起着至关重要的作用,直接影响着RNA的结构和生物功能。准确地预测这些关键的结构模式对于推进我们对RNA生物学的认识至关重要。尽管DRfold没有在其方法中明确纳入特定的碱基配对信息,但它在相关评估指标上的表现都优于其他方法(表1)。

表1. DRfold与其他方法的RNA二级结构恢复性能比较

这表明在DRfold的方法中,通过学到的相对位置的帧对齐点误差(FAPE)和几何分布,可能形成了一种隐含的机制,有助于恢复RNA结构内的碱基配对模式。然而,值得注意的是,DRfold 在预测非经典碱基配对模式(INF_nwc)方面的成功率仍然相对较低。为了在这一特定方面提高准确性,研究人员建议开发一个更详细的原子水平学习模型。通过增强非经典配对示例的数据集权重,从而期望提供更准确的预测。

伪结(pseudo-knot)的预测

该项研究的测试集中涉及了40个RNA测试目标,其中15个包含被称为伪结(pseudo-knot)的复杂结构。有趣的是,虽然其他方法难以准确检测到这些伪结,但DRfold成功预测了两个与原生结构中观察到的伪结非常相似的结构(图4)。这突显了DRfold学习和复现RNA分子内复杂碱基间相互作用模式的出色能力。

图4. DRfold成功预测两个含有伪结的RNA分子的结构。红色部分表明伪结结构

FAPE势能和几何势能的互补

DRfold的核心创新在于引入了两种互补的势能函数:FAPE势能和几何势能。它们通过两个独立的Transformer网络进行训练,共同构成了RNA结构预测的深度学习势能。

首先,FAPE势能的作用是直接预测核苷酸的旋转矩阵和平移向量,也就是核苷酸构象的坐标信息。通过这种方式,DRfold能够更全面地考虑RNA结构的各种复杂性,从而提高了模型的预测准确性。作者训练了6个独立的端到端模型,每个模型使用不同的参数初始化。令人惊奇的是,即使在没有进行后续处理的情况下,每个单独的端到端模型已经显著优于所有相关的比对算法。这意味着FAPE势能本身已经为RNA结构预测带来了很大的提升。

其次,几何势能使用了一系列几何项,用于表示核苷酸之间的几何关系,包括距离和扭转角。几何势能的引入进一步改善了DRfold的性能。研究人员发现,将几何势能叠加到端到端势能之上,虽然改进不大,但在TM-score上带来了一致的提升。这表明几何势能主要对RNA结构的远距离核苷酸关系起到了积极的作用。

总的来说,DRfold通过端到端学习策略和几何势能的优势互补,让RNA结构预测变得更为准确和全面。消融实验结果如图 5 所示,拿掉任何一个分量,都会降低DRfold的预测精度。

图 5. DRfold中端到端势能和几何势能的消融(ablation)实验结果

单序列vs多序列比对

最近,RNA结构预测领域出现了好几种深度学习模型。这些深度学习方法根据其训练所使用的输入特征可分为单一序列方法和多序列比对(MSA)方法。MSA方法通常可以从多序列比对中获得协同进化信息,因此在整体结构预测方面性能更优。但在单一序列方法中,DRfold表现出色,显著优于其他单一序列方法,而且与大多数MSA方法的性能上相当,差异并不具有统计学上的显著性。

端到端vs几何势

从方法论的角度来看,这些深度学习方法可以分为端到端方法和基于几何的方法。而DRfold则通过势能函数集成将这两种方法结合在一起。这使得DRfold在其方法流程的扩展上更具灵活性。例如,研究人员将DeepFoldRNA的几何预测用于构建混合几何势能,并替换了DRfold中的默认几何势能。这种结合使DRfold获得了更精确的空间约束,有助于更好地引导结构的组装和优化过程。

二级结构预测的作用

因为DRfold是基于单序列的结构预测,二级结构的引导显得特别重要。就像图 6 的结果所示,拿掉二级结构会显著的降低DRfold的模型预测精度。


图 6,二级结构对DRfold模型精度的影响

CASP双盲测试

早期版本的DRfold程序参与了CASP15的RNA结构预测实验,该程序被标识为“rDP”组。尽管只有12个测试目标,仍为评估DRfold的性能提供了宝贵的信息。就RMSD而言,使用惩罚阈值为-2.0和0.0时,DRfold分别排名第5和第6。在使用TM-score评估时,相同的惩罚阈值下,排名分别为第6和第9。然而,DRfold与排名前4的方法(如AIchemy_RNA2和GeneSilico等)之间存在一定的性能差距,这些方法依赖于丰富的RNA结构领域专业知识和人工专业技能。

相比之下,DRfold完全自动运行,且仅利用单一的序列信息进行预测。尽管存在这一差距,CASP15的结果表明,DRfold的基于单一序列的方法在RNA结构预测领域具有很大的潜力。它的性能与一些依赖于额外信息源(如模板、多序列比对或预训练核苷酸序列模型)的方法相媲美。这强调了DRfold在未来版本中通过复合势能函数整合多种信息源来进一步改进的潜力。

结论与展望

DRfold的成功得益于其深度学习模型,这一方法在现有的RNA结构预测中鲜有涉足。DRfold采用的端到端模型已被证明非常有效,再通过整合几何约束,可以进一步提高结构模型的准确性。此外,从物理学角度生成的二级结构特征也对帮助网络学习和生成准确的碱基配对和局部结构组装起到了积极作用。

然而,与蛋白质结构预测相比,RNA结构预测的整体精度仍然有限。这部分原因在于RNA结构可用于训练的实验数据相对较少。此外,为了改进对没有足够同源序列的RNA的建模,DRfold目前只使用单一序列进行训练。进一步使用多序列比对、结构模板和RNA物理知识等额外信息,将显著其结构预测的准确性。

总的来说,DRfold在人工智能RNA结构预测问题上做了一些非常有意义的探索。随着深度学习技术和RNA数据的不断发展,以DRfold为代表的人工智能算法对RNA三维结构的测定将会起着越来越重要作用。

参考文献:

Y Li, C Zhang, C Feng, R Pearce, PL Freddolino, Y Zhang. Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction. Nature Communications 14: 5745 (2023).

https://www.nature.com/articles/s41467-023-41303-9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1038098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HDMI之HDCP 2.3

Authentication and Key Exchange Without Stored Km With Stored Km HDCP2Version DDC时序 协议截图 Bit2为1,可知DUT设备支持HDCP 2.2及以上版本 RxStatus DDC时序 协议截图 <

C++ 类、方法的同一声明不同实现的方式

问题提出 头文件&#xff1a;声明CurrentTime类和PrintTime方法。 #ifndef CURRENT_TIME_H #define CURRENT_TIME_H class CurrentTime { public:void PrintTime(); }; #endifmain函数&#xff1a;创建CurrentTime对象&#xff0c;调用PrintTime。 #include "current_t…

UNet网络模型:数据集制作

UNet网络模型&#xff1a;数据集制作 一般语义分割的原始图片和标记图片在以下目录下&#xff1a; SegmentationClass&#xff1a;标记图片。 JPEGImages&#xff1a;原始图片。 数据集往往都是很多的图片等信息&#xff0c;对于数据集类来说&#xff0c;一个类里有所有数据…

腾讯mini项目-【指标监控服务重构-会议记录】2023-07-06

7/6 会议记录 Profile4个步骤 解压kafka消息初始化性能事件&#xff0c;分析事件将数据写入kafkaRun 开始执行各stage handler 上报耗时到otel-collector。。。 // ConsumerDispatchHandler consumer // // param msg *sarama.ConsumerMessage // param consumer *databus.K…

FPGA project : rom_vga_jump

只有vga_pix 模块代码与rom_vga不同&#xff0c;所以只上传了这个模块的代码与仿真代码。 // #define BLACK 0x0000 // 黑色 // #define NAVY 0x000F // 深蓝色 // #define DGREEN 0x03E0 // 深绿色 // #define DCYAN …

Linux系统下安装Mysql

1、执行命令&#xff1a;rpm -qa | grep -i mysql&#xff0c;先查看系统之前是否有安装相关的rpm包&#xff0c;如果有&#xff0c;会显示类似下面的信息&#xff1b; 2、通过命令yum -y remove mysql-*  一次性删除系统上所有相关的rpm包&#xff0c;或者通过命令yum -y …

zemax显微镜设计

光学显微镜&#xff08;Optical Microscope&#xff0c;简写OM&#xff09;是利用光学原理&#xff0c;把人眼所不能分辨的微小物体放大成像&#xff0c;以供人们提取微细结构信息的光学仪器&#xff0c;第一架复式光学显微镜是于1665年由英国物理学家虎克制作。 首先做物镜 入…

(第三百篇BLOG记录)写于象牙终章与从零开始-20230924

启 由于若干原因&#xff08;包括但不限于紧锣密鼓的完成博士毕业的一系列实验和论文撰写、学习各种百花齐放的有意思的领域、完成人生身份的重大转变&#xff09;&#xff0c;导致卡在299篇博客已经很久了&#xff0c;不过算了一下还是在一个较长时间维度上可以基本保持每周一…

数据库——理论基础

目录 1.1 什么是数据库 1.2 数据库管理系统&#xff08;DBMS&#xff09; 1.3 数据库和文件系统的区别 1.4 数据库的发展史 1.5常见的数据库 1.5.1关系型数据库 1.5.2 非关系型数据库 1.6 DBMS支持的数据模型 1.1 什么是数据库 数据&#xff1a;描述事物的符号记录 数…

云计算中的关键技术——虚拟化

在数据中心里面&#xff0c;也有一种类似的开源技术 qemu-kvm&#xff0c;能让你在一台巨大的物理机里面&#xff0c;掏出一台台小的机器。这套软件就能解决上面的问题&#xff1a;一点就能创建&#xff0c;一点就能销毁。你想要多大就有多大&#xff0c;每次创建的系统还都是新…

Windows系统如何临时关闭“Windows安全中心实时保护”

前言 启动windows depender实时保护可能会使系统不太流畅&#xff0c;也可能会导致我们的程序无法正常运行&#xff0c;因为它会拦截或搜索我们的正常工作。 暂时关闭windows depender的实时保护对许多用户来说非常重要。 一、Win10系统关闭方法 打开Windows安全中心&#…

Spring面试题20:Spring怎样开启注解装配?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Spring怎样开启注解装配? 要在Spring中开启注解装配,需要进行以下几个步骤: 添加必要的依赖:在项目的构建工具(如Maven或Gradle)配置文件中…

【从0学习Solidity】34. ERC721

【从0学习Solidity】34. ERC721 博主简介&#xff1a;不写代码没饭吃&#xff0c;一名全栈领域的创作者&#xff0c;专注于研究互联网产品的解决方案和技术。熟悉云原生、微服务架构&#xff0c;分享一些项目实战经验以及前沿技术的见解。关注我们的主页&#xff0c;探索全栈开…

详解MySQL存储引擎

前言: 📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年! 📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法系列等,大家有兴趣的可以看一看。 😇😇😇有兴趣的话关注博主一起学习,一起进步吧! 一、MySQL存…

Redis学习笔记-003

Redis企业实战—基于Redis短信验证功能 文章目录 Redis企业实战---基于Redis短信验证功能一、短信登录实现1.1、导入[黑马点评项目](https://pan.baidu.com/s/1189u6u4icQYHg_9_7ovWmA?pwdeh11)1.2、基于Session实现1.3、集群的session的共享问题1.4、基于Redis实现共享sessio…

【算法】排序——插入排序及希尔排序

目录 前言 一、排序的概念及其应用 1.1排序的概念 1.2排序的应用 1.3常见的排序算法 二、插入排序的实现 基于插入排序的优化——希尔排序&#xff08;缩小增量排序 个人主页 代码仓库 C语言专栏 初阶数据结构专栏 Linux专栏 LeetCode刷题 算法专栏 前言 这…

Tensorflow1架构内核和学习方法论

目录 概念简介 总体介绍 名词解释 疑问辨析 工程构建 代码生成 技术栈 模型类型 系统架构 分层架构 图控制 运行机制 会话机制 队列 运行模型 本地模式 分布式模式 技能方法论 发现领域模型 挖掘系统架构 细节是魔鬼 适可而止 发现她的美 形式化 独…

代码随想录算法训练营 60天总结

emmmm,总结怎么写呢。 暑假和高中一个同学聊天&#xff0c;因为都参加了蓝桥杯&#xff0c;我连省三也没有&#xff0c;同学竟然省一然后去北京参加国赛获得国三&#xff0c;就问问他学习编程的方法。他推荐我加入了知识星球里的代码随想录&#xff0c;里面有学习路线还有好多讨…

LVS: ambighouse pin count in file “xx“ but none has xx pins问题

我正在「拾陆楼」和朋友们讨论有趣的话题&#xff0c;你⼀起来吧&#xff1f; 拾陆楼知识星球入口 一些foundry的standard cell的cdl没有衬底pin&#xff08;例如VNW VPW&#xff09;&#xff0c;如果pr过程中globalNetConnect 或者connect_pg_net把衬底pin接到power/ground n…

Qt5开发及实例V2.0-第二十二章-Qt.Quick Controls 2新颖界面开发

Qt5开发及实例V2.0-第二十二章-Qt.Quick Controls 2新颖界面开发 第22章 Qt Quick Controls 2新颖界面开发22.1 Qt Quick Controls 2简介22.1.1 第一个Qt Quick Controls 2程序22.1.2 Qt Quick Controls 2程序的构成 22.2 Qt Quick Controls 2与1的比较22.2.1 ApplicationWindo…