Nat. Biotechnol. | 利用深度学习进行蛋白质同源性检测和结构比对

news2024/11/16 10:55:17

今天为大家介绍的是来自Kyunghyun Cho和Richard Bonneau团队的一篇论文。在生物技术领域,挖掘序列(sequence)、结构(structure)和功能(function)之间的关系,需要更好的方法来比对那些与已经标注的蛋白质序列相似度较低的蛋白质。作者开发了两种深度学习方法来解决这一难题,即TM-Vec和DeepBLAST。TM-Vec允许在大型序列数据库中搜索结构-结构的相似性。它经过训练,能够直接从序列对预测TM分数,作为结构相似性的度量,无需中间计算或解析结构。一旦识别出结构相似的蛋白质,DeepBLAST就可以仅使用序列信息来结构性地比对蛋白质,识别蛋白质之间的结构同源区域。

3c6aa023d6959bace37027740a418c6e.png

通过使用序列相似度检测蛋白质序列同源性是识别进化上保守的、在蛋白质间共有的功能的标准方法。在过去的50年里,序列同源性促进了包括蛋白质功能注释]等一系列应用的发展。许多标准的序列同源性方法对于具有高序列相似度(>25%)的蛋白质是可靠的。然而,与序列同源性不同,结构同源性可以在长的进化时间尺度上保持。超过一半的蛋白质由于它们遥远的进化关系,在标准序列数据库中没有同源性。最近的宏基因组学研究显示,使用结构同源性检测,注释率可以提高到70%。

当蛋白质结构可用时,如TM-align等结构比对工具可以通过叠加提供结构相似度的度量。虽然这种方法可以在低序列相似性情况下提供结构相似度的度量,但有两个主要限制。首先,并不是所有蛋白质都有可用的结构。尽管AlphaFold2取得了迅速的进展,但已知蛋白质序列与可预测蛋白质结构之间仍存在较大差距。仅在宏基因组学样本中,就观察到24亿至680亿种独特蛋白质。此外,AlphaFold2在预测短序列蛋白质结构方面的应用有限。

鉴于蛋白质结构数据库的快速增长,大多数现有的结构比对工具在规模上运行起来过于计算密集,需要进行暴力的全面比较来查询结构相似的蛋白质。尽管有用于结构数据库的可扩展同源性搜索的新兴工具,以及用于搜索或比对的蛋白质嵌入工具(表1),但也需要能够在大型蛋白质序列数据库上执行显式结构相似性搜索和比对的工具。为了实现在蛋白质序列上可扩展的、结构意识的搜索和比对,作者开发了两种工具,TM-Vec和DeepBLAST。TM-Vec可以计算准确的结构相似性分数;它输出蛋白质的向量表示,并可用于构建可索引的数据库,以便通过结构相似性高效查询蛋白质。DeepBLAST可以从序列对计算结构比对。

模型

f8d0c6339ace56678689f296eac8eb7b.png
图 1

作者的贡献有两个方面:(1)作者引入了一个可扩展的结构搜索框架TM-Vec,它在速度和灵敏度上提供了显著的改进(见图1);(2)作者引入了一个可微分的序列比对算法DeepBLAST,它能执行结构比对。TM-Vec是一个双神经网络模型,产生可以高效索引和查询的蛋白质向量(见图1)。为了在这些蛋白质向量中编码结构信息,TM-Vec被训练以近似具有结构的蛋白质对的TM分数(作为结构相似度的指标)。一旦TM-Vec模型被训练,它可以用来编码大型蛋白质序列数据库,为这些蛋白质序列产生具有结构意识的向量嵌入。创建TM-Vec向量嵌入数据库后,可以通过在嵌入空间中寻找最近邻居来快速进行蛋白质结构搜索。DeepBLAST的基础是通过在具有序列和结构的蛋白质上训练模型来预测蛋白质的结构比对。作者的比对策略使用最近在可微分动态规划和蛋白质语言模型方面的方法,来预测由TM-align给出的蛋白质序列对的结构比对。

dff37ce0bf76e4cfe9e01b380ead04f1.png
表 1

基于神经网络的可扩展结构对齐

2f9198d85316d67143c194cd01e663ba.png
图 2

作者将提出的结构比对算法应用于大规模蛋白质数据库,这项任务挑战在于其苛刻的运行时间要求。每一个DeepBLAST结构比对大约需要毫秒级时间,并且其时间复杂度与数据库大小线性相关,这使得在大型数据库上进行结构比对搜索变得不切实际。为了缓解这一问题,作者开发了TM-Vec,这是一个旨在高效查询结构相似蛋白质的模型。该策略依赖于构建双神经网络,其目的是提供用于快速索引的每个蛋白质的向量。作者在SWISS-MODEL和CATH数据库上对TM-Vec进行了基准测试(见图2),并与多种最新的基于结构和基于序列的方法进行了比较。总体来说,TM-Vec预测的TM得分与通过运行TM-align产生的TM得分之间存在强相关性。

在潜空间捕捉结构信息

作者对TM-Vec产生的学习表示进行了可视化和基准测试,并与其他依赖于序列或结构单独信息的替代方法进行了比较。基准测试结果显示,TM-Vec隐式学习的表示与结构分类高度相关(见图2)。如图2c所示,TM-Vec嵌入捕获了CATH层次结构的潜在结构特征。作为对比,基于TM-Vec的预训练语言模型ProtTrans生成的嵌入,与训练后的TM-Vec嵌入并排显示(见图2c)。ProtTrans对蛋白质的嵌入是通过平均ProtTrans每残基嵌入计算得出的。在CATH的每一个层级,TM-Vec比默认的ProtTrans嵌入更清晰地分离了CATH结构类别。

为了进一步评估TM-Vec蛋白质向量的结构信息,作者使用TM-Vec编码了CATH数据库,并进行了搜索和分类。在搜索基准测试中,作者观察到TM-Vec能够正确地检索具有相同折叠的蛋白质,在CATHS100中的准确率为97%,在CATHS40中为88.1%。接下来,作者将TM-Vec检索与FoldSeek、MMseqs2,以及另一种结构蛋白质嵌入方法进行了比较。在CATH层次结构的每个级别上,TM-Vec的性能超过了FoldSeek、MMseqs2和ProtTucker。在同源性级别上,TM-Vec以81%的准确率检索了蛋白质。由于这个蛋白质的测试集较小,作者选择在CATHS20数据集上比较了这些不同的方法。评估标准是检索查询域正确的CATH同源性的准确性。在这里,TM-Vec模型表现最佳(准确率88%)。

基于序列的结构比对

7d056b39e500ea49654865f315ccc27d.png
表 2

作者使用DeepBLAST对三种序列比对方法进行了基准测试:Needleman–Wunsch、BLAST和HMMER,除此之外还有四种直接使用原子坐标进行结构比对的方法:FAST、TM-align、Dali和Mammoth-local(见表2)。作者的方法DeepBLAST仅使用序列;在训练之后没有向算法提供任何一个蛋白质的原子坐标。如表2所示,DeepBLAST在所有测试的序列比对方法中表现最佳。

远缘同源性检测与比对

f708bf1bd30a5ac7b3c43bcbef37ef23.png
图 3

为了衡量TM-Vec与现有结构比对方法的性能,作者将TM-Vec应用于经过策划的Malidup蛋白质结构比对基准测试数据集,这是一个难度较大的基准测试,具有低序列同一性和不同程度的结构相似性。这个基准测试中的每对蛋白质在结构上都有一个显著的相似区域,一个手动策划的结构—结构比对。基准测试结构比对方法的挑战之一是定义真实的结构比对。如图3a所示,手动比对和结构比对方法之间存在细微的分歧,凸显了在定义最优结构比对方面的不确定性。所有跟结构相关的方法在高结构相似性下是一致的,TM得分为1表示所有原子的完美叠加,但随着TM得分的下降,结果越来越不一致。作者观察到TM-Vec与结构相关的方法直接可比,其趋势线的置信带与TM-align的趋势线重叠(见图3a)。尽管趋势线重叠,但TM-Vec和DeepBLAST的预测误差的方差比结构相关的方法要大。为了确定序列比对方法与结构比对方法之间的一致性,作者计算了预测比对的TM得分。尽管DeepBLAST并不总是能泛化到高度分歧蛋白质比对,但为了举例说明作者的方法确实获得了高度分歧蛋白质的正确比对,作者专注于两个重复的Annexin域,其序列同一性为24.7%。DeepBLAST准确地对齐了这些蛋白质(TM得分=0.81),五个叠加的折叠中有四个与手动比对一致(见图3b-d)。

参考资料

Hamamsy, T., Morton, J.T., Blackwell, R. et al. Protein remote homology detection and structural alignment using deep learning. Nat Biotechnol (2023). 

https://doi.org/10.1038/s41587-023-01917-2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1246805.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国内企业出海首选的免费开源订单管理系统(OMS)解决方案

用开源智造Odoo订单管理系统 (OMS) 解决方案实现"订单到收款"流程自动化 开源智造Odoo 订单管理软件功能消除了手动操作瓶颈,可防止出错,还建立了从销售报价到订单履行的顺畅工作流来确保及时开票和付款,从而帮助您理顺订单处理过程…

前端设计问题:iframe

居中问题&#xff1a; 尝试了一般的居中方法&#xff0c;无效果 display: flex;justify-content: center;align-items: center;放到导航栏下面不居中 放到页面底部还是不居中 Code <iframe id"demo_sanshui" src"demo_sanshui.html" width"120%…

什么是 npm —— 写给初学者的编程教程

原文链接&#xff1a; 什么是 npm —— 写给初学者的编程教程 自 2009 年以来&#xff0c;Node.js 一直席卷全球。成千上万个系统基于 Node.js 构建&#xff0c;促使开发者在社区宣称“JavaScript 正在吞噬软件”。 Node 成功的主要因素之一是它广受欢迎的软件包管理器——np…

【Vue】Vue3 配置全局 scss 变量

variables.scss $color: #0c8ce9;vite.config.ts // 全局css变量css: {preprocessorOptions: {scss: {additionalData: import "/styles/variables.scss";,},},},.vue 文件使用

Docker 快速搭建 Gitlab 服务

linux环境&#xff1a; 使用 vim 编辑 hosts 文件&#xff1a; vim /etc/hosts按 I 进入编辑模式&#xff0c;在文件末行追加上虚拟机的 IP 和要设置的域名&#xff1a; 192.168.1.17 gitlab.kunwu.toplwindows环境&#xff1a; Windows 系统的 hosts 文件位于 C:\Windows\S…

please upgrade numpy version to >=1.20

升级 upgrade numpy_升级numpy-CSDN博客 pip install numpy --upgrade 没有pip conda install numpy --upgrade 会报错 conda list numpy来查看numpy版本 似乎这个numpy要看numpy-base这个 似乎没有pip

【AOSP】生成签名文件release key,通过Android源码对apk进行签名

简介 现在apk都需要签名&#xff0c;Flutter做的项目官方规定编译apk必须签名。 签名的好处&#xff1a; 应用来源验证&#xff1a; 应用签名允许Android系统验证应用的来源。每个应用都使用开发者的私钥进行签名&#xff0c;而应用的签名信息包含在应用的APK文件中。当用户尝…

组合不重复的3位数

编程要求 给出四个不同的数字&#xff0c;能够组成多少个不重复的3位数&#xff0c;按照从小到大的顺序输出&#xff0c;每行一个。 测试用例 测试输入 1 2 3 4 测试输出 123 124 132 134 142 143 213 214 231 234 241 243 312 314 321 324 341 342 412 413 421 423 431 …

生产实践:Redis与Mysql的数据强一致性方案

公众号「架构成长指南」&#xff0c;专注于生产实践、云原生、分布式系统、大数据技术分享。 数据库和Redis如何保存强一致性&#xff0c;这篇文章告诉你 目的 Redis和Msql来保持数据同步&#xff0c;并且强一致&#xff0c;以此来提高对应接口的响应速度&#xff0c;刚开始考…

2016年10月3日 Go生态洞察:Go 1.7中的子测试和子基准测试

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

复亚智能交通无人机:智慧交通解决方案大公开

城市的现代化发展离不开高效的交通管理规划。传统的交通管理系统庞大繁琐&#xff0c;交警在执行任务时存在安全隐患。在这一背景下&#xff0c;复亚智能交通无人机应运而生&#xff0c;成为智慧交通管理中的重要组成部分。交通无人机凭借其高灵活性、低成本、高安全性等特点&a…

6个常用的聚类评价指标

评估聚类结果的有效性&#xff0c;即聚类评估或验证&#xff0c;对于聚类应用程序的成功至关重要。它可以确保聚类算法在数据中识别出有意义的聚类&#xff0c;还可以用来确定哪种聚类算法最适合特定的数据集和任务&#xff0c;并调优这些算法的超参数(例如k-means中的聚类数量…

rhino 取消画线自带控制点方法~

很多朋友反映不知道 rhino 怎么取消画线自带控制点&#xff1f;下面就这个问题&#xff0c;一起来看看吧&#xff01; 软件地址&#xff1a;Rhino 8 for Mac中文下载 rhino 怎么取消画线自带控制点&#xff1f; 在Rhino中选择“线条”工具&#xff0c;或者使用快捷键“L”来…

上门预约小程序开发优势

想要放松身心&#xff0c;享受按摩的舒适感&#xff1f;那就需要一个专业的按摩师来上门服务。我们开发的预约按摩小程序app系统&#xff0c;汇聚各类上门按摩服务&#xff0c;包括推拿SPA、小儿推拿、中医等&#xff0c;为您提供高价值、高标准的养生健康体验。24小时随时提供…

『接口测试干货』| Newman+Postman接口自动化测试完整过程

『接口测试干货』| NewmanPostman接口自动化测试完整过程 1 Newman简介2 如何安装Newman&#xff1f;2.1 安装NodeJs2.2 安装Newman2.2 解决Newman不是内部命令 3 Newman使用3.1 Newman如何运行集合&#xff1f;3.2 如何查看帮助文档&#xff1f;3.3 环境变量设置3.4 关于全局变…

MyBatisPlus总结

MyBatis-Plus时Mybatis的Best Partner MyBatis-Plus (opens new window)&#xff08;简称 MP&#xff09;是一个 MyBatis (opens new window)的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 特性 无侵入损耗小强大的 CR…

第21章 JUC并发编程

通过本章的学习可以学到&#xff1a;掌握java.util.concurrent(JUC)开发框架的核心接口与使用特点,掌握TimeUnit类的作用&#xff0c;并且可以使用此类实现日期时间数据转换&#xff0c;掌握多线程原子操作类的实现以及与volatile关键字的应用&#xff0c;理解ThreadFactory类的…

PLC通过RS232转PROFINET与电子分析天平秤通讯案例

本案例是通过用兴达易控的XD-PNR200型RS232转Profinet网关连接电子分析天平秤与PLC通讯的配置案例&#xff0c;用到设备为西门子S7-1200PLC&#xff0c;RS232转Profinet网关&#xff0c;电子分析天平秤。 打开博图&#xff0c;添加PLC&#xff1b;本案例使用的是1200PLC。 添加…

leetcode 343.整数拆分 198.打家劫舍(动态规划)

OJ链接 &#xff1a;leetcode 343.整数拆分 代码&#xff1a; class Solution {public int integerBreak(int n) {int[] dp new int[n1];//每个n&#xff0c;拆分多个整数乘积的最大值dp [0] 0;dp [1] 1; for(int i 2 ; i<n; i){for(int j 0 ; j < i; j){dp[i] Ma…

云原生系列Go语言篇-编写测试Part 1

本文来自正在规划的​​Go语言&云原生自我提升系列​​&#xff0c;欢迎关注后续文章。 2000年以来&#xff0c;自动化测试的广泛应用可能比任何其他软件工程技术都更能提高代码质量。Go是一种专注于提高软件质量的语言和生态系统&#xff0c;很自然的在其标准库中包含了测…