蛋白结构预测模型评价指标

news2024/11/24 12:23:16

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入


前言

本文汇总了AlphaFold和AlphaFold-multimer等蛋白结构推理预测中,不同蛋白结构预测模型的评价指标。


一、蛋白结构预测模型评价指标

TM-score

TM-score是一种用于评价蛋白质结构拓扑相似性的度量。由张yang首先提出,该方法解决了传统度量方法如均方根偏差(RMSD)中存在的两个主要问题:(1)TM评分对较小距离误差的权重大于对较大距离误差的权重,使得评分值对全局折叠相似性的敏感性大于对局部结构变化的敏感性;(2)TM-score引入了长度相关的尺度对距离误差进行归一化,并使得TM-score的大小与随机结构对的长度无关。计算公式如下:
在这里插入图片描述
该作者实验室提供了计算TM-score的C++程序,可编译后使用,方法如下:

wget https://zhanggroup.org/TM-score/TMscore.cpp

g++ -static -O3 -ffast-math -lm -o TMscore TMscore.cpp 
## Run TM-score to compare 'model' and 'native':
TMscore model native
## Run TM-score to compare two complex structures with multiple chains
## Compare all chains with the same chain identifier
TMscore -c model native

将RCSB pdb结构与AlphaFold2预测结果对比,结果如下:

./TMscore ranked_0.pdb  8i55.pdb 

 *************************************************************************
 *                                 TM-SCORE                              *
 * A scoring function to assess the similarity of protein structures     *
 * Based on statistics:                                                  *
 *       0.0 < TM-score < 0.17, random structural similarity             *
 *       0.5 < TM-score < 1.00, in about the same fold                   *
 * Reference: Yang Zhang and Jeffrey Skolnick, Proteins 2004 57: 702-710 *
 * For comments, please email to: zhanglab@zhanggroup.org                *
 *************************************************************************

Structure1: ranked_0.pdb    Length=  143
Structure2: 8i55.pdb    Length=  120 (by which all scores are normalized)
Number of residues in common=  120
RMSD of  the common residues=    0.581

TM-score    = 0.9811  (d0= 4.05)
MaxSub-score= 0.9753  (d0= 3.50)
GDT-TS-score= 0.9917 %(d<1)=0.9667 %(d<2)=1.0000 %(d<4)=1.0000 %(d<8)=1.0000
GDT-HA-score= 0.9271 %(d<0.5)=0.7417 %(d<1)=0.9667 %(d<2)=1.0000 %(d<4)=1.0000

 -------- rotation matrix to rotate Chain-1 to Chain-2 ------
 i          t(i)         u(i,1)         u(i,2)         u(i,3)
 1    -16.8570056544   0.9777658128  -0.0973231336   0.1857477405
 2     17.8632659480  -0.0324689163   0.8048346382   0.5926103059
 3     11.0145890770  -0.2071709074  -0.5854651253   0.7837798174

Superposition in the TM-score: Length(d<5.0)= 120
(":" denotes the residue pairs of distance < 5.0 Angstrom)
MEALVLVGHGSRLPYSKELLVKLAEKVKERNLFPIVEIGLMEFSEPTIPQAVKKAIEQGAKRIIVVPVFLAHGIHTTRDIPRLLGLIEDNHEHHHEHSHHHHHHHHHEHEKLEIPEDVEIIYREPIGADDRIVDIIIDRAFGR
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::                       :::::::::::::::::::::::::::::::
MEALVLVGHGSRLPYSKELLVKLAEKVKERNLFPIVEIGLMEFSEPTIPQAVKKAIEQGAKRIIVVPVFLAHGIHTTRDIPRLLGLIED-----------------------EIPEDVEIIYREPIGADDRIVDIIIDRAFGR
12345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123

lDDT

局部距离差异测试(Local Distance Difference Test,lDDT)是一种无叠加的评分,用于评估模型中所有原子的局部距离差异,包括立体化学变换的验证。参考物可以是单个结构,也可以是结构的集合。
蛋白质结构预测技术的评估需要客观的标准来衡量计算模型和实验确定的参考结构之间的相似性。传统的基于碳α原子全局叠加的相似性度量受到结构域运动的强烈影响,并且不能评估模型中局部原子细节的准确性。lDDT是非常适合评估本地模型的质量,即使在存在的结构域运动,同时保持良好的相关性。

LDDT计算方法一:
在线计算:SWISS-MODEL lDDT

LDDT计算方法二:
python版本:感谢CSDN博主的贡献,python版本的lDDT score的计算可参考博文:蛋白结构评价-LDDT score

二、Alphafold中的评价指标

pLDDT

AlphaFold 预测结构所有残基Cα原子的lDDT被称为pLDDT score(per-residue lDDT-Cα),范围在0-100,分数越高,置信度越高。
Deepmind提供的算法如下: 在这里插入图片描述作为一种基于lDDT的置信度度量,pLDDT也反映了结构(structure)中的局部置信度,应该用来评估单个结构域内的置信度。基于语言模型的蛋白结构预测方法如ESMFold也使用基于plDDT的度量方法。

plDDT 存储于AlphaFold及ESMFold预测结构(mmCIF或PDB文件)B因子字段(B-factor fields)中,即文件中ATOM记录的第11列。

pLDDT≥90:残基具有非常高(very high)的模型置信度
90 > pLDDT ≥70:残基则被归为确信的(confident)
70 > pLDDT ≥50:残基置信度较低(low)
pLDDT < 50:残基置信度很低(very low)。

最近的研究表明,非常低的置信度pLDDT分数与蛋白结构固有无序(intrinsic disorder)的高倾向相关。
在这里插入图片描述采用不包含在训练集中新近报道的PDB数据集(该数据集仅限于报告分辨率<3.5Å的结构,包括的链条总数为10215条)。比较了数据基于解析区域的每个残基lDDT-Cα和每个残基pLDDT。二者有很好的相关性:lDDT-Cα = 0.997 × pLDDT − 1.17 (Pearson’s r = 0.76)
在这里插入图片描述
在这里插入图片描述

pTM

pLDDT头预测了lDDT-Cα值,这是一个成对操作的局部误差度量,但根据设计,它对使用单个全局旋转和平移可以对齐的残基部分不敏感。这对于模型是否准确预测长链整体结构域堆叠是不利的,为此,作者使用了全局叠加度量TM得分的预测器 TM-score。

特别地,我们可以预测可能通过实验解析的残基,并使用它们来产生预测的TM分数(pTM),其中每个残基的贡献通过其被解析的概率进行加权。

加权的目的是降低预测的非结构化部分的权重,从而产生更好地反映模型对确实存在的结构域的度量。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在最新的不再训练集中的PDB数据集上,pTM与实际TM-score相关性良好。
TM-score = 0.98 × pTM + 0.07 (Pearson’s r = 0.85)
在这里插入图片描述

PAE

预测对齐误差( Predicted Aligned Error,PAE )是AlphaFold系统的另一个输出结果。AlphaFold DB提供给结构PAE的图片和数据.json文件。
它表示如果预测结构和实际结构在残基y (使用Cα、N和C原子)上对齐,显示在残基x处的期望位置误差。PAEs以A 为单位测定,上限为31.75A。可以利用这些数值来评估模型(例如两个结构域)不同部分的相对位置和朝向(orientation)的置信度。注意,PAE是不对称的;因此,(x,y)和(y,x)的PAE值之间可能存在差异。
对于两个不同结构域中的残基x和y,如果PAE值( x , y)较低,则AlphaFold预测结构域具有明确的(well-defined)相对位置和取向。如果PAE值很高,那么这两个结构域的相对位置和方向是不可靠的

在这里插入图片描述

三、AlphaFold-multimer 蛋白结构的评价指标

2021年10 月4 日,DeepMind 团队推出了AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对同源或者异源复合物,AlphaFold-Multimer 对接预测评分均有提升,弥补了AlphaFold2的不足。
在这里插入图片描述

DockQ

DockQ是一种用于评估蛋白质-蛋白质分子对接模型的工具和指标。它被广泛用于评估蛋白质分子对接方法的性能和预测模型的准确性。范围0-1之间,越大准确性越好。
DockQ是三个指标的综合评分,即Fnat、LRMS和iRMS,

在这里插入图片描述Fnat: 预测复合体在交界面上的作用残基在真实复合体中的比例。
LRMS: 把预测的复合体和真实复合体的两条链中比较长的链比对,短链的RMSD。
iRMS: 度量界面上两个原子相距10Å内的原子的集合的RMSD。

DockQ的计算方法:
https://github.com/bjornwallner/DockQ/

度量复合体预测准确性的指标:

***********************************************************
*                       DockQ                             *
*   Scoring function for protein-protein docking models   *
*   Statistics on CAPRI data:                             *
*    0    <  DockQ <  0.23 - Incorrect                    *
*    0.23 <= DockQ <  0.49 - Acceptable quality           *
*    0.49 <= DockQ <  0.80 - Medium quality               *
*            DockQ >= 0.80 - High quality                 *
*   Reference: Sankar Basu and Bjorn Wallner, DockQ:...   *
*   For comments, please email: bjornw@ifm.liu.se         *
***********************************************************

AlphaFold-Multimer的表现:
在这里插入图片描述

ipTM

AlphaFold-Multimer 建立了不同链残基之间相互作用的评分系统——Inerface pTM(ipTM),计算类似于pTM,只是分别考虑了不同链(i和j)。
在这里插入图片描述

实际使用中,Deepmind采用 pTM 和 ipTM 的加权组合作为模型置信度度量,以便在模型排名中考虑一些链内置信度:
在这里插入图片描述在这里插入图片描述在这里插入图片描述DockQ本身是ipTM的函数,也说明这两个评价multimer的指标具有一定的置信度和准确性。

总结

以上就是今天的内容,本文汇总了AlphaFold和AlphaFold-multimer等蛋白结构推理预测中,不同蛋白结构预测模型的评价指标。供大家参考。

参考资料

  1. https://zhuanlan.zhihu.com/p/539157126?utm_id=0
  2. http://www.360doc.com/showweb/0/0/1113559986.aspx
  3. https://www.biorxiv.org/content/10.1101/2021.10.04.463034v2.full.pdf
  4. https://seq2fun.dcmb.med.umich.edu//TM-score/TM-score.pdf

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1472863.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线性表——单链表的增删查改(下)

本节继续上节未完成的链表增删查改接口的实现。这是上节的地址:线性表——单链表的增删查改&#xff08;上&#xff09;-CSDN博客 上节实现的接口如下&#xff1a; //申请链表节点函数接口 SLNode* BuySListNode(SLTDataType x); //单链表的打印函数接口 void SListPrint(SLNod…

探索比特币现货 ETF 对加密货币价格的潜在影响

撰文&#xff1a;Sean&#xff0c;Techub News 文章来源Techub News&#xff0c;搜Tehub News下载查看更多Web3资讯。 自美国比特币现货交易所交易基金&#xff08;ETF&#xff09;上市以来&#xff0c;比特币现货 ETF 的相关信息无疑成为了影响比特币价格及加密货币市场走向…

《Docker 简易速速上手小册》第10章 朝着 Docker Swarm 和 Kubernetes 迈进(2024 最新版)

文章目录 10.1 Docker Swarm 基础10.1.1 重点基础知识10.1.2 重点案例&#xff1a;Python Web 应用的 Docker Swarm 部署10.1.3 拓展案例 1&#xff1a;微服务架构的 Docker Swarm 部署10.1.4 拓展案例 2&#xff1a;使用 Docker Swarm 进行持续部署 10.2 Kubernetes 与 Docker…

nginx 从$http_x_forwarded_for 中获取第一个参数

在 Nginx 中&#xff0c;$http_x_forwarded_for 变量通常包含了客户端的原始 IP 地址以及可能经过的代理服务器的 IP 地址列表&#xff0c;这些地址由逗号分隔。如果你想从 $http_x_forwarded_for 中截取第一个参数&#xff08;即最左边的 IP 地址&#xff09;&#xff0c;你可…

C语言中的套娃——函数递归

目录 一、什么是递归 1.1.递归的思想 1.2.递归的限制条件 二、举例体会 2.1.求n的阶乘 2.2.顺序打印整数的每一位 2.3.斐波那契数列 三、递归与迭代 一、什么是递归 在学习C语言的过程中&#xff0c;我们经常会跟递归打交道&#xff0c;什么是递归呢&#xff1f;它其实…

用于自监督视觉预训练的屏蔽特征预测

Masked Feature Prediction for Self-Supervised Visual Pre-Training 一、摘要 提出了用于视频模型自监督预训练的掩模特征预测&#xff08;MaskFeat&#xff09;。首先随机屏蔽输入序列的一部分&#xff0c;然后预测屏蔽区域的特征。研究了五种不同类型的特征&#xff0c;发…

vue3 + TS + vite 搭建中后台管理系统(开箱即用)

[TOC](vue3 TS vite 搭建中后台管理系统) 开箱即用 前言 要成功&#xff0c;先发疯&#xff0c;头脑简单往前冲&#xff01; 三金四银&#xff0c;金九银十&#xff0c;多学知识&#xff0c;也不能埋头苦干&#xff0c;要成功&#xff0c;先发疯&#xff0c;头脑简单往前冲…

Java计划线程池ScheduledThreadPoolExecutor运行流程和源码分析

1. 计划线程池ScheduledThreadPoolExecutor简介 ScheduledThreadPoolExecutor继承自线程池ThreadPoolExecutor&#xff0c;并在其基础上增加了按时间调度执行任务的功能&#xff0c;如果对ThreadPoolExecutor还不是很熟悉&#xff0c;可以阅读一下这篇文章&#xff1a; Java线…

成都东部新区文化旅游体育局莅临国际数字影像产业园参观入驻企业,共促政产交流“零距离”

2月23日&#xff0c;成都东部新区文化旅游体育局投服处处长田东一行莅临国际数字影像产业园考察交流&#xff0c;树莓科技&#xff08;成都&#xff09;集团有限公司副总裁吴晓平、行政运营经理郭宇风、国际数字影像产业园项目负责人万里全程接待。 吴晓平副总带领田东处长一行…

开发知识点-.netC#图形用户界面开发之WPF

C#图形用户界面开发 框架简介WinForms(Windows Forms):WPF(Windows Presentation Foundation):UWP(Universal Windows Platform):MAUI(Multi-platform App UI):选择控件参考文章随笔分类 - WPF入门基础教程系列基于C#语言的GUI开发,主要介绍WPF框架

CAD怎么绘制建筑平面图纸?

CAD沪指图纸很简单&#xff0c;想要绘制一个简单的建筑图纸&#xff0c;该怎么绘制建筑平面图呢&#xff1f;下面我们就来看看详细的教程。 1、首先&#xff0c;运用绘图功能中的直线按照比例尺寸绘制出轴网。轴网绘制我们一般将轴网的颜色选择为红色&#xff0c;轴网的线型选择…

jdk21本地执行flink出现不兼容问题

环境说明&#xff1a;换电脑尝尝鲜&#xff0c;jdk&#xff0c;flink都是最新的&#xff0c;千辛万苦把之前的项目编译通过&#xff0c;跑一下之前的flink项目发现启动失败&#xff0c;啥都不说了上异常 Exception in thread "main" java.lang.IllegalAccessError: …

一次奇怪的事故:机器网络连接打满,导致服务不可用

业务背景 发生事故的业务系统是一个toB业务&#xff0c;业务是服务很多中小企业进行某项公共信息指标查询。系统特点:业务处理相对简单&#xff0c;但是流量大&#xff0c;且对请求响应要求较高&#xff1a; 业务请求峰值qps达50w&#xff0c;平时流量达20w左右。 请求响应时…

18 SpringMVC实战

18 SpringMVC实战 1. 课程介绍2. Spring与Spring MVC环境配置 1. 课程介绍 2. Spring与Spring MVC环境配置

Nginx之rewrite重写功能

一、rewrite概述 1、rewrite功能 访问重写 rewrite 是 Nginx HTTP 请求处理过程中的一个重要功能&#xff0c;它是以模块的形式存在于代码中的&#xff0c;其功能是对用户请求的 URI 进行 PCRE 正则重写&#xff0c;然后返回 30 重定向跳转或按条件执行相关配置。 Nginx服务…

JSON简介以及如何在Python中使用JSON

什么是JSON&#xff1f; JSON是"JavaScript Object Notation"的简称&#xff0c;是一种数据交换格式 JSON格式 假设我们有一个对象&#xff0c;这个对象有两个属性&#xff1a;“name”跟“age”。 在JSON中是这样表达的&#xff1a; { "name":"男孩…

51.仿简道云公式函数实战-文本函数-JOIN

1. JOIN函数 JOIN 函数可通过连接符将数组的值连成文本。 2. 函数用法 JOIN(数组,"连接符") 3. 函数示例 如需将复选框中勾选的选项通过”-“组合在一起&#xff0c;则可设置公式为JOIN(复选框组,"-") 4. 代码实战 首先我们在function包下创建text包…

用户态协议栈01-udp收发

文章目录 用户态协议栈01-udp收发前期准备DPDK初始化开始搓udp协议栈配置dpdk定义udp相关变量接受udp数据&&读取包内容接口层拼接udp数据包完整代码 如何启动实验如何编译使用效果 用户态协议栈01-udp收发 实现用户态协议栈最最简单的就是实现Udp的收发&#xff0c;下…

高性能API云原生网关 APISIX安装与配置指南

Apache APISIX是Apache软件基金会下的顶级项目&#xff0c;由API7.ai开发并捐赠。它是一个高性能的云原生API网关&#xff0c;具有动态、实时等特点。 APISIX网关可作为所有业务的流量入口&#xff0c;为用户提供了丰富的功能&#xff0c;包括动态路由、动态上游、动态证书、A…

将SU模型导入ARCGIS,并获取高度信息,多面体转SHP文件(ARCMAP)

问题:将Sketchup中导出的su模型,导入arcgis并得到面shp文件,进而获取各建筑的高度、面积等信息。 思路: (1)导入arcgis得到多面体 (2)转为面shp文件 (3)计算高度/面积等 1、【3D Analyst工具】【转换】【由文件转出】【导入3D文件】(在此步骤之间,建议先建立一个…