密西根大学张阳实验室郑伟博士在CASP15蛋白质结构预测大赛中斩获多项冠军

news2024/11/18 1:45:22

简报在有着蛋白质结构预测领域奥林匹克竞赛之称的最新一届CASP比赛中(CASP15),密西根大学张阳教授和Peter Freddolino教授实验室的郑伟博士在多个比赛项目中获得冠军。其中D-I-TASSER算法(参赛名:“UM-TBM”)在单结构域蛋白质预测比赛中(按Z-score>-2)排名第一;D-I-TASSER算法(参赛名:“UM-TBM”)在多结构域蛋白质预测比赛中排名第一;DMF-Multimer算法(参赛名:“Zheng”)在在蛋白质-蛋白质复合体预测比赛中排名第一。其中,在后两项比赛中,郑伟博士开发的算法大幅领先于其他算法。

背景

蛋白质分子是生命活动的主要承担者。它们通过形成特定的三维空间结构,进而与细胞中其他分子形成特殊的相互作用来执行相应的生物学功能,即“结构决定功能”。了解蛋白质的三维结构也就成为理解生命活动的关键。一直以来,蛋白质的结构主要通过结构生物学实验手段获得,而这些实验手段需要花费大量的人力和物力。因此,通过实验手段获得的蛋白质结构数目仍然有限。多年来,安芬森关于“蛋白质的氨基酸序列应该完全决定其结构”的假定,一直激励计算生物学家们积极探索从序列出发直接预测高精度的蛋白质的三维结构的可能性。

这方面的探索近年来终于迎来了里程碑式的突破。2020年,DeepMind团队开发出新的端到端深度学习AlphaFold2算法,在第14届世界蛋白质结构预测比赛中(CASP14),成功在约2/3的目标蛋白上取得了可以与实验测定的结构相媲美的精度。CASP由马里兰大学John Moult教授等人在1994年创立,每两年举行一次,旨在对领域内的蛋白质结构预测技术作客观的测试和评价。该实验采用严格的双盲预测机制,被誉为评估蛋白质结构预测技术的金标准,也被业界视为“蛋白质结构预测领域的奥林匹克竞赛”。根据CASP赛事规则,所有参赛方法分为服务器组和人工组两类。服务器组参赛者只有72小时进行结构预测;人工组参赛者有三周时间进行结构预测,且人工组允许参赛队伍进行人工干预。这意味着服务器组纯粹依赖计算机预测,因此,服务器组的参赛难度往往比人工组高。

AlphaFold2的成功初步证明了“序列决定结构”这一设想,对蛋白质结构预测领域具有重要意义。然而,AlphaFold2也逐渐暴露出一些不足,比如对于一些“自由建模”,特别是没有同源结构的孤儿蛋白质,AlphaFold2的预测精度仍然有限。并且,AlphaFold2对于结构域之间的建模和蛋白质-蛋白质相互作用的构象预测的精度也偏低。如何解决上述问题成为领域内的热点。

2022年的CASP15是AlphaFold2问世之后的第一届CASP比赛,密西根大学张阳实验室的郑伟博士参加了该比赛并给出了他的答案。郑伟博士毕业于南开大学,先后师从胡刚教授,阮吉寿教授学习蛋白质结构生物信息学基础。其中博士研究的最后两年,在密西根大学张阳教授实验室进行访问交流。博士毕业后在密西根大学张阳教授实验室,继续从事AI辅助蛋白质结构预测等相关研究。

密西根大学张阳教授在该领域研究背景深远。其课题组开发的I-TASSER系列算法自从2006年CASP7开始,连续8届在CASP竞赛自动服务器组中雄踞第一【见I-TASSER连续八届在CASP自动组竞赛中蝉联冠军!截至目前统计,I-TASSER已经拥有17万以上的用户,为160多个国家和地区提供了超过70万个蛋白质的结构预测服务。早在15年前,张阳教授就在PNAS上发文,前瞻性地提出,通过已知实验数据集解决蛋白质结构预测问题理论上可能性。这一理论也被随后历届CASP赛事所验证。

此外,张阳实验室开发的蛋白质模板探测服务器(LOMETS、CEthreader),蛋白质从头结构预测算法(QUARK、C-QUARK),蛋白质几何势能预测算法(DeepPotential、TripletRes、ResPRE),同源序列(MSA)探测(DeepMSA),蛋白质和肽链设计算法(EvoDesign),以及蛋白质功能预测服务器(COFACTOR、COACH、BioLiP)等也被业界广泛使用。张阳教授提出的TM-score和TM-align算法已经成为蛋白质结构预测领域衡量和比对蛋白质结构的一个通用标准。

CASP15比赛结果

2022年5月到8月,为期四个月的CASP15比赛在蛋白质结构预测方面进行了两个类别的实验:(1)蛋白质单体结构预测(REGULAR);(2)蛋白质复合体结构预测(MULTIMER)。其中第一项单体预测根据目标蛋白质为单结构域还是多结构域分为两类进行评测,即单结构域评测(domain prediction)和多结构域整体评测(inter-domain prediction)。

今年的参赛队伍多于往届,并且有较多的国内组织参与,根据CASP15会议官方统计,今年来自中国的参赛队伍数量基本与美国持平。在蛋白质结构预测比赛中,来自国内的队伍包括:华深智药的Omegafold、清华产业研究院AIRfold、百度飞桨的HelixFold、深势科技的Uni-Fold、西湖大学李子青团队的Manifold、北京大学高毅勤团队联合华为的MEGA-FOLD、上海天壤的TRFold、芝加哥大学丰田研究中心的许锦波教授团队、上海科技大学团队、清华大学的四支队伍、中科院计算所的卜东波教授团队、浙江工业大学的张贵军教授团队,山东大学的杨建益教授团队,中国人民大学龚新奇教授团队,北京智源人工智能研究院等一众来自于学界工业界的强队。另外,国外的一些老牌强队,如华盛顿大学的David Baker教授团队、密苏里大学的程建林教授等四支队伍、伦敦大学的David Jones教授团队、密西根州立大学的Michael Feig教授团队、普渡大学的木原大辅教授团队、哈佛大学Sergey Ovchinnikov的ColabFold、哥伦比亚大学Mohammed AlQuraishi教授的OpenFold、Meta(原Facebook)的ESMFold、日本Infinite Curation公司等也都如期而至,可以说是高手林立。

密西根大学张阳教授实验室郑伟博士同时参加了蛋白质单体结构和蛋白质复合体结构两项比赛。本次是郑伟博士第三次参加CASP蛋白质结构预测相关比赛。2018年CASP13及2020年CASP14,在张阳教授的带领下,郑伟博士主持,李阳博士、张成辛博士等人团队协作开发的算法服务器C-I-TASSER、D-I-TASSER(CASP14版)两次获得CASP服务器组冠军。本次CASP,郑伟博士主持开发的D-I-TASSER算法(CASP15版)和DMF-Multimer算法在不同的赛项中斩获多项冠军。

1. 蛋白质单体单结构域预测比赛项目(Protein single chain and single-domain prediction

蛋白质单体结构预测是CASP中历史最为悠久的比赛。根据其演化和功能,一个蛋白质可拆解为多个基本的结构单元,一般被称之为蛋白质的结构域(domain,图1)。CASP评测者会将所有参赛组提交的结构(Model)按照实验结构的结构域划分,进行拆解评测,以评价参赛算法的基本单元结构预测能力。今年这个赛道有共计135个参赛组(包括47个服务器组,88个人工组)参赛。最终132个参赛组提交了结构。其中郑伟博士开发的UM-TBM服务器(基于D-I-TASSER算法)、杨建益教授课题组的Yang-Server服务器和日本Infinite Curation公司小田贤幸的人工组PEZYFoldings分列前三,并与后续算法梯队拉开距离。

图1.多结构域蛋白质单体示意图。该蛋白质包含3个结构域(domain),不同结构域被标记为不同颜色。

前三名的打分基本持平,其中按照不同的打分评价函数及排序机制,三队各有千秋。如按照官方的GDT-TS打分计算并按照Z-score(>-2)去尾排序,郑伟博士开发的算法D-I-TASSER排名第一(图2A);按照官方的Z-score(>0)去尾排序,杨建益教授的Yang-Server排名第一(图2B);按照官方的GDT-HA等打分计算并按照Z-score(>-2)去尾排序,郑伟博士开发的算法D-I-TASSER再次排名第一(图2C);按照官方的Z-score(>0)去尾排序,则小田贤幸的人工组PEZYFoldings排名第一(图2D)。

由此可见,这个赛项竞争尤为激烈。其中GDT-TS打分主要用来评估蛋白质低分辨率结构,GDT-HA用于评测高分辨率结构。Z-score为一种统计指标,计算方式是(原始打分-参赛组均值)/参赛组标准差。Z-score用于衡量被评测算法与参赛队伍的平均值差异的大小。其中‘去尾’指的是当参赛队伍的Z-score小于某个阈值(-2或者0)时将被赋值为该阈值(这项去尾设计主要用于减少某些预测特别差的目标蛋白对一些创新团队整体排名的影响)。

值得一提的是,上次CASP14的来自于Google DeepMind开发的算法AlphaFold2的标准算法(NBIS-AF2-standard)也作为基线算法参与了比赛。但是无论何种评测排法,排名均在30名开外,显示出自CASP14以来,该领域算法的整体进展。

另外值得注意的是,历届CASP的整体排名,服务器组的精度是整体低于人工组的。本次CASP15的结果正好相反,最好的自动的服务器组精度要远好于大部分的人工组,甚至优于最好的人工组。这些进展显示,蛋白质结构预测领域的自动预测服务器已经成熟,能够提供完全独立的高精度结构预测。

图2. CASP15在所有单体蛋白上预测结果基于单结构域的排名。红色为张阳实验室郑伟博士开发的D-I-TASSER算法,该服务器的参赛名字为‘UM-TBM’;黄色为标准版的AlphaFold2算法。(A) 基于GDT-TS指标的sum Z-score>-2.0进行的排名。(B) 基于GDT-TS指标的sum Z-score>0.0进行的排名。(C) 基于GDT-HA等指标的sum Z-score>-2.0进行的排名。(D) 基于GDT-HA等指标的sum Z-score>0.0进行的排名。数据来自CASP官方网站(https://predictioncenter.org/casp15/zscores_final.cgi)。

2. 蛋白质单体多结构域预测比赛项目(Protein single chain and multi-domain prediction

由于历史原因,虽然CASP比赛对蛋白评测时会进行结构域区分,但是蛋白质在行使功能时往往以完整的单体结构(protein single chain)进行执行(图1)。所以对蛋白质整个单体结构,尤其是多结构域蛋白单体结构,进行评测往往更加能够反应蛋白质整体结构预测的能力。一直以来,因为额外自由度的引入,大体系多结构域蛋白质结构预测问题被认为要远远难于单结构域蛋白质结构预测。近年来,随着蛋白质结构预测的整体精度不断提升,CASP组委会也越来越重视蛋白质整体结构预测的精度。2020年CASP14比赛后,组委会增加了蛋白质单体多结构域评测项目。今年,在这个赛道中,共计98个参赛队伍参与了预测及评测。D-I-TASSER算法(UM-TBM服务器)再次以优异的成绩位列第一(图3)。其中D-I-TASSER算法打分(37.9)超出排名第二的算法打分(27.2)接近40%,并优于AlphaFold2标准算法打分(3.3)10倍有余。

图3. CASP15参赛算法在所有多结构域蛋白上预测结果的排名(排名基于sum Z-score>0.0)。红色为张阳实验室郑伟博士开发的D-I-TASSER算法,该服务器的参赛名字为UM-TBM;黄色为标准版的AlphaFold2算法。数据取自CASP15官方网站(https://predictioncenter.org/casp15/zscores_interdomain.cgi)。

3. 蛋白质复合体结构预测比赛项目(Protein complex prediction

蛋白质在生物体内正常行使功能实施,大部分是以复合物的形式进行的,比如,蛋白质-蛋白质(protein-protein),蛋白质-小分子(protein-ligand)相互作用的复合体。但是蛋白质-蛋白质复合体往往体系较大,其额外自由度的引入也让单体与单体之间的组合也多种多样(图4),因此,其预测难度被认为远远高于蛋白质单体结构预测。

 图4.蛋白质六聚体复合物示意图。每种颜色表示一个蛋白质单体,左侧为实验结构,右侧为密西根大学张阳实验室郑伟博士算法预测出的模型结构。

鉴于蛋白质-蛋白质复合体结构预测的重要性,2014年CASP11开始,组委会增加了该项比赛。今年CASP15蛋白质复合体预测,共计有86个参赛队伍(含25个服务器)参加了比赛。其中密西根大学张阳实验室郑伟博士开发的DMF-Multimer算法(参赛组名Zheng)在该项目比赛中拔得头筹(图5)。

其中值得注意的是,这是张阳教授实验室和郑伟博士首次参加该项目的比赛。组委会评测者对所有参赛组提交的蛋白质复合物的整体拓扑结构(Global Fold)及蛋白质-蛋白质接触面(Interface)预测精度进行了评估。DMF-Multimer在这两项指标上均大幅领先于其他参赛组。其中整体打分(35.4)高于第二名(29.9)、第三名(28.4)20%左右。其中第二名的Venclovas团队、第三名的Wallner均为该赛道的老牌强队,在历届CASP蛋白质复合体预测中均位于前列。值得注意的是,DMF-Multimer的打分(35.4)高于标准的AlphaFold2-Multimer打分(12.3)接近3倍。

 图5. CASP15参赛算法在所有蛋白质复合体(Protein Complex/Multimer)上预测结果的排名(排名基于sum Z-score>0.0)。红色为张阳实验室郑伟博士开发的DMF-Multimer算法,该服务器的参赛名字为Zheng;黄色为标准版的AlphaFold2-Multimer算法。数据取自CASP15官方网站(https://predictioncenter.org/casp15/zscores_multimer.cgi)。

需要特别指出的是,在几个纳米抗体-抗原蛋白质复合体上,DMF-Multimer表现出了极高的预测精度(图6)。AlphaFold2-Multimer在这几个蛋白质复合体上预测结果的TM-score均小于0.7,而DMF-Multimer的预测结果的TM-score均大于0.9。TM-score表示预测结构与实验结构的差异,一般TM-score大于0.9说明预测的结果已经达到实验结构的误差精度。

图6.CASP15中Zheng(DMF-Multimer)在纳米抗体与抗原复合物上的预测结果与AlphaFold2预测结果的对比。第一列为实验结构,第二列为AlphaFold2预测的结构,第三列为DMF-Multimer的预测结果。

总结及展望

对于今年CASP15张阳实验室郑伟博士的方法能够在单体、复合、以及多结构域蛋白上独占鳌头,郑伟博士在CASP15赛后,于土耳其举办的评议会议的邀请报告中给出了以下几方面的原因:

第一,利用D-I-TASSER平台将穿线模板和深度学习约束有机结合。张阳实验室李阳博士开发的AttentionPotential和DeepPotential等等深度学习算法精确预测了接触图,距离图,和氢键等信息,能够对AlphaFold2预测的距离进行很好的补充。为D-I-TASSER利用蒙特卡洛算法进行折叠起到了很大帮助。

第二,张阳实验室新开发的DeepMSA2,基于宏基因组数据库构建高质量的多序列比对(MSA),并且对多个MSA排序。这种高精度MSA的构建有助于机器学习更加精准的抽取蛋白质演化信息,从而对最后的蛋白质单体及复合体预测起到关键作用。

第三,张阳实验室郑伟博士和周晓根博士开发的结构域预测和组装算法对多结构域蛋白结构拆分组装。特别是,郑伟博士开发的基于深度学习接触图的结构域预测程序FUpred,可以有效的将序列进行结构域分割,以便在每个结构域上得到更精确的预测。

第四,对于复合蛋白的预测,DMF-Multimer提出了一种新的MSA配对连接方法,可以大大提高复合物MSA的质量,筛选有效的复合物演化信息,从而有效提高复合蛋白的结构预测。

尽管Google DeepMind的AlphaFold2在CASP14上表现出色。但今年的CASP15中,郑伟博士的D-I-TASSER以及DMF-Multimer等方法与标准版的AlphaFold2比均有显著提高,此外,很多其他组的参赛方法也优于AlphaFold2。由此看来,AlphaFold2并不是不能超越。另外,张阳实验室郑伟博士算法在三个不同赛道的领先结果也进一步显示,高精度蛋白质结构、多结构域蛋白质结构、蛋白质-蛋白质复合体结构,本质上遵从共同的原子作用关系,可能可以通过统一的计算方法得到。但是,要完全解决蛋白质结构预测的问题,特别是蛋白质四级结构预测、了解结构对功能的影响、了解变异对结构的影响、以及如何利用高精度结构进行药物分子设计等,仍然需要很多工作要做。

参考文献:

  1. CASP15蛋白质三级结构预测竞赛网站:https://predictioncenter.org/casp15/index.cgi
  2. D-I-TASSER在线服务器: https://zhanggroup.org/D-I-TASSER

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/97735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nodejs银行取号系统vue

目 录 1绪论 1 1.1项目研究的背景 1 1.2开发意义 1 1.3项目研究现状及内容 5 1.4论文结构 5 2开发技术介绍 7 2.1 B/S架构 7 2.2 MySQL 介绍 7 2.3 MySQL环境配置 7 3系统分析 9 3.1可行性分析 9 3.1.1技术可行性 9 3.1.2经济可行性 …

学会4种方法,掌握端到端测试处理数据..

推荐阅读: [内部资源] 想拿年薪30W的软件测试人员,这份资料必须领取~ Python自动化测试全栈性能测试全栈,挑战年薪40W 对Web应用程序运行自动化的端到端测试时,最常见的问题之一是如何处理测试数据。端到端测试通常会在通过应用…

授权服务器搭建以及授权码模式

前面的 GitHub 授权登录主要向大家展示了 OAuth2 中客户端的工作模式。对于大部分的开发者而言,日常接触到的 OAuth2 都是开发客户端,例如接入 QQ 登录、接入微信登录等。不过也有少量场景,可能需要开发者提供授权服务器与资源服务器&#xf…

Spring MVC【创建与使用】

Spring MVC【创建与使用】🍎一.Spring MVC介绍🍒1.1 什么是SpringMVC?🍒1.2 MVC 定义🍒1.3 Spring MVC 与 MVC 的区别🍒1.4 Spring MVC的基本功能🍎二. Spring MVC项目的创建🍒2.1 Spring MVC …

代码随想录DAY51 | 309.最佳买卖股票时机含冷冻期、714.买卖股票的最佳时机含手续费

文章目录309.最佳买卖股票时机含冷冻期714.买卖股票的最佳时机含手续费309.最佳买卖股票时机含冷冻期 文章讲解:代码随想录 (programmercarl.com) 题目链接:309. 最佳买卖股票时机含冷冻期 - 力扣(LeetCode) 题目: …

Efficientdet源码详解

1.参数配置 最重要的参数配置如下 -p:配置文件,需要在project文件夹下新建配置文件-c:efficientdet的版本,efficientdet B0-B7-n:windows为0,linix根据自己的需求修改--batch_size:batch大小--data_path:数据集路径-p data --batch_size 16 其中&…

【Flask框架】——20 请求钩子

在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比如: 在请求开始时,建立数据库连接; 在请求开始时,根据需求进行权限校验; 在请求结束时,指定数据的交互格式。 …

Dubbo 1 分布式系统中的相关概念 1.1 大型互联网项目结构目标

Dubbo 【黑马程序员Dubbo快速入门,Java分布式框架dubbo教程】 【非常重要就完事儿 了】 1 分布式系统中的相关概念 文章目录Dubbo1 分布式系统中的相关概念1.1 大型互联网项目结构目标1.1.1 传统项目 和 互联网项目1.1.2 互联网项目特点1.1.3 大型互联网项目架构…

【2022.12.17】备战春招Day12——每日一题 + 76. 最小覆盖子串 + 24. 两两交换链表中的节点

【每日一题】1764. 通过连接另一个数组的子数组得到一个数组 题目描述 给你一个长度为 n 的二维整数数组 groups ,同时给你一个整数数组 nums 。 你是否可以从 nums 中选出 n 个 不相交 的子数组,使得第 i 个子数组与 groups[i] (下标从 0…

C++绘制菱形(曼哈顿距离求解:贼快!!!)

思路: 1.双重for循环遍历输出是最基本的 2.了解曼哈顿距离 (1)菱形的输入一定是奇数 (2)我们是思想是填充 * 怎么填呢?我们来画图看看 以 3*3 的矩阵为例子! 我们来看看 距离是怎么定义的…

LInux进程优先级和nice值

文章目录一 定义描述二 查看nice值2.1 使用top命令交互式查看nice值2.2 使用ps命令查看nice值2.3 查看程序调度策略三 修改nice值3.1 启动特定nice值的进程3.2 更改现有进程的nice级别一 定义描述 大部分情况下,计算机需要运行的进程数超过了计算机拥有CPU的核心数…

[附源码]Python计算机毕业设计后疫情时期社区居民管理系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

uni-app卖座电影多端开发纪实(二):搭建导航

@创建4个Tab页 创建一个测试页hello 在pages目录上右键,新建页面执行如图操作,即可全自动生成页面组件+页面注册(pages.json)pages.json 中会生成这么一个玩意,就是页面声明了 pages:[{"path" : "pages/hello/hello","style" :

#ubuntu# 自动挂载硬盘 文件无权限Permission denied

操作前,切记做好备份工作。。。。 有时候我们服务器或电脑使用自动挂载硬盘后,发现没有权限。即使使用chmod 666 xxx也无济于事。无法让非root用户对该硬盘具有完全权限。 可以看到挂载的硬盘容量为1T 如果没有数据的话,可以尝试重新格式化硬…

老字号品牌营销杂志老字号品牌营销杂志社老字号品牌营销编辑部2022年第23期目录

中华老字号故事 全素斋 王红; 1 老字号研究《老字号品牌营销》投稿:cnqikantg126.com 刍议数字赋能天津老字号创新发展的路径 刘宝亮; 2-4 湖南老字号招牌广告的特征、价值与影响研究 毛凌云; 5-7 品牌与营销 西秦刺绣的传播路径研究——以“秦绣工…

爬虫?不是,mitmproxy帮你采集微信公众号留言

前言 有位朋友需要收集公司微信公众号的文章的留言,但苦于微信公众平台没有提供留言的API,所以朋友需要在每一篇文章下面去手动复制粘贴,朋友觉得很麻烦,于是来找到我!遂有此文。 下一篇,将结合uiautomatio…

Linux——进程管理

动态监控进程 介绍 top与ps命令很相似。它们都用来显示正在执行的进程。Top与ps最大的不同之处,在于top在执行一段时间可以更新正在运行的进程。 基本语法 top [选项] 选项说明 查看的时候(大写锁定要开启)P就按CPU的使用率来排序&#…

c语言指针和存储值的格式,对地址中数据的读取

数值存储方式 以int型为例,当有四个字节时,位权大的内存地址较高 *(char*)(0x61FE1C))的含义分析,首先将地址做为一个字符变量的首地址,实际也就只有一个字节。最外层的*表示取这个地址下的值 一个实例 # include "stdio.…

致同会计事务所2023实习生招募

审计实习生 【工作职责】 1. 在项目经理或项目高级人员的指导下,完成项目的部分审计工作; 2. 完成工作底稿的编制、整理和归档工作,使其达到相关技术规范要求; 3. 在审计过程中发现问题及时与项目经理或项目高级人员沟通&…

【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)

需要全部代码请点赞关注收藏后评论区留言私信~~~ 维数灾难 维数灾难是指在涉及到向量计算的问题中,当维数增加时,空间的体积增长得很快,使得可用的数据在空间中的分布变得稀疏,向量的计算量呈指数倍增长的一种现象。维数灾难涉及…