AlphaFold3 | 详解 AlphaFold3 的模型结构及其在不同类型的预测实验中的表现

news2024/11/16 16:42:18
alt
Jumper
Jumper

本文将介绍 24 年 5 月发布的 Alaphafold3,其以“使用 AlphaFold 3 进行生物分子相互作用的精确结构预测”为标题发表在《nature》上,通讯作者为 Jumper。

Jumper 具有物理、化学、生物和计算方面的丰富背景。Jumper 本科学的是物理和数学,本科毕业后,开始攻读理论凝聚态物理学博士学位,但很快就退学了。2008 年,他加入了一家做蛋白质模拟的公司,他开始在超级计算机上模拟蛋白质运动。2011 年,他再次尝试读研究生,他这次选择攻读芝加哥大学的理论化学学位。2017 年,刚刚完成博士学位的 Jumper 加入谷歌 DeepMind,担任研究科学家,领导了AlphaFold 1、2、3的开发。


本文内容主要分为三个部分:

  1. AlphaFold3 模型结构;
  2. AlphaFold3 在不同类型的预测实验中的表现;
  3. 在线使用 AlphaFold3

1. AlphaFold3 模型结构

和 AlphaFold2 类似,AlphaFold3 的框架由四部分组成:输入模块、特征提取模块、编码器、解码器。

AlphaFold3 模型结构
AlphaFold3 模型结构

AlphaFold3 模型结构对应的伪代码
AlphaFold3 模型结构对应的伪代码

下面分别介绍这四部分:


1.1 输入模块

输入模块结构
输入模块结构

向模型输入序列、配体和共价键,然后执行以下三个操作:

  1. 从 PDB mmCIF 文件中检索模板结构;
  2. 从 5 个数据库中检索蛋白质序列,从 3 个数据库中检索 RNA 序列,用于多序列比对(MSA),如下图所示:
Genetics databases
Genetics databases
  1. 生成参考构象。

输入模块总结:输入模块就是将我们输入到模型的内容拿到数据库中去检索相似的模板结构和相似的序列,并生成参考构象,做好数据准备工作。检索的相似序列、生成的构象、输入序列、配体和共价键将会输入到特征提取模块。


1.2 特征提取模块

特征提取模块结构
特征提取模块结构

特征提取模块伪代码
特征提取模块伪代码

上图省略了将输入到特征提取模块的内容 token 化这一步骤,将输入内容转变为 token 之后,再将这些 token 输入到 embedder 中进行 embedding,然后输出 Input embeddings, Pair embeddings, single embeddings。

token:就是将生物语言用数字表示,举个例子就是,用 1-20 表示氨基酸。

Alphafold3 的 token 方法:

  • 标准氨基酸残基:整体作为一个 token
  • 标准核苷酸残基:整体作为一个 token
  • 修改过的氨基酸或核苷酸残基:每个原子作为一个 token
  • 小分子配体:每个原子作为一个 token

embedding:嵌入,列举一个对象的若干个属性,并对属性进行赋值,产生一个描述这个对象的向量。例如,对于姚明这个对象,高属性赋值为 0.9,矮属性赋值为 -0.9,篮球属性赋值为 0.88,男人属性赋值为 1,有钱属性赋值为 0.3......。再例如,对于半胱氨酸这个氨基酸,氢键供体属性赋值为 0.5,氢键受体属性赋值为 0.6,具有可旋转化学键属性赋值为 0.3,表面电荷属性赋值为 -0.88......可以选择许多属性了来描述对象。具体到 Alphafold3,embedding 就是给输入模型的每一个生物序列单元的每一个属性赋值,每一个生物序列单元最终都由一个向量来表示,我们思考一下生物序列一般都有哪些属性,比如有亲水性、电负性、键角、氢键、可旋转共价键等,Alphafold3 为每个token 选择了 384 个属性,所以每个 token 会被 embedding 为一个 384 维的向量。对两两 token 之间的关系进行 embedding 时的属性表是另外选择的,有 128 个属性。

Input embeddings:由伪代码可以看出,它是输入的每个 token 的 embedding,embedding 维度为 384;从模型数据流可以看出,Input embeddings 不参与后面的循环更新,但是它参与后面每一个模块的计算。

single embeddings:由伪代码可以看出,它是由 Input embeddings 乘上一个权重矩阵而得出,embedding 维度为 384。

Pair embeddings:由伪代码可以看出,它表示两两 token 之间的关系,embedding 维度为 128;计算方法为:两个 token 分别乘以一个权重矩阵,结果相加,再加上一个输入 token 的相对位置编码,再加上这两个 token 之间的化学键的信息;Pair embeddings 包含了两两 token 之间的位置关系。

通俗总结特征提取模块:将输入到特征提取模块的内容表示为计算机能看懂的数字,然后再细致地列出他们都有哪些特点,以及他们彼此之间的关系怎么样,然后将这些得到的信息作为编码器的输入内容。


1.3 编码器

编码器结构
编码器结构

由三个module组成:

  • Template module: 整合在结构数据库中检索到的模板信息,关注对结构更重要的区域,然后再整合特征提取模块输出的 Pair embeddings,得到 Pair representation;
  • MSA module: 在上一步的 Pair representation 的基础上,添加多序列比对信息,更新 Pair representation;
  • Pairformer module: 是一个 Transformer module,用于更新 Pair representation 和 Single representation(Single representation 由 single embeddings 转化而来,过程略)。

通俗总结编码器:将模板结构信息、特征提取模块输出的 Pair embeddings、多序列比对信息整合在一起生成 Pair representation,然后把【对应输入生物序列原始信息的 Single representation】和【Pair representation】输入到善解数意的 Pairformer module 中,善解数意的 Pairformer module 能力超群,可以把 Single representation 信息和 Pair representation 信息规整的整整齐齐,并聚焦到重要信息,经过多次循环更新之后,输出 Single representation 和 Pair representation。

编码器输出的 Single representation 和 Pair representation 将会输入到 解码器模块。


1.4 解码器

解码器结构
解码器结构

扩散模型:扩散模型(Diffusion Model)是一类生成模型的统称,这类模型的核心是通过逐步加噪和去噪过程生成结果。简单理解,加噪就是给一个模糊的图像添加马赛克,让模糊的图像变得更加模糊;去噪就是清除马赛克,恢复图像的原有清晰度,模型会学习这个清除马赛克的过程,延伸一下就是,模型会学习如何将一个模糊的图像变成一个清晰的图像。

通过一个直观例子了解扩散模型的作用:

从杂乱无章的原子点中恢复出清晰的人像
从杂乱无章的原子点中恢复出清晰的人像

解码器由两个 Module 组成:

  • Diffusion Module:使用扩散模型预测复合物结构,具体做法就是,Single representation 信息和 Pair representation 信息会转变为空间位置,这些信息刚开始看上去还是杂乱无章的原子点,看不出结构信息,但是经过扩散模型的多次(加噪和去噪)更新之后,杂乱无章的原子点变成了清新的三维结构。
  • Confidence Module:生成预测结构的预测置信度;使用预测局部距离差异检验(pLDDT)、预测比对误差(PAE)和预测距离误差(PDE)来评估置信度;pLDDT的范围为 0 到 100,值越大,置信度越高,代表预测越准确。

通俗理解解码器:解码器将编码器输出的 Single representation 和 Pair representation 经过扩散模型的反复折腾之后,生成一个清晰的三维结构,并给出这个结构的预测置信度。


2. AF3 在不同类型预测实验中的表现

AlphaFold3 能预测蛋白-小分子互作结构、蛋白-核酸互作结构、共价键修饰和蛋白质结构,在这四个类型的测试中,它的性能都显著高于竞争对手 RoseTTAFold,也高于针对特定类型的对手。

AF3 在不同类型预测实验中的表现
AF3 在不同类型预测实验中的表现

上图从左到右:

预测蛋白-小分子配体互作结构的表现(盲对接,不提供蛋白质结构或指定对接口袋):数据集选择的是 PDB 的 PoseBusters benchmark set,包含 428 个蛋白-配体结构,对比对象选择的是 AutoDock Vina 和 RoseTTAFold All-Atom。AlphaFold3 的表现显著高于 AutoDock Vina 和 RoseTTAFold All-Atom。

预测蛋白-核酸互作结构的表现:对比对象选择的是 RoseTTAFold,在蛋白-RNA 和蛋白-双链DNA 互作结构的预测上,AlphaFold3 的表现都显著高于 RoseTTAFold,在蛋白-RNA 互作结构的预测上,逊色于基于人类专家知识辅助的 Alchemy_RNA2。

预测共价修饰的表现:AF3 能比较准确地预测结合配体、糖基化、修饰的蛋白质残基和核酸碱基等共价修饰。

预测蛋白质复合物结构的表现:对比的是自家的前一代预测多亚基蛋白复合物结构的 Alphafold Mutimer 2.3;由于 Alphafold Mutimer 本身已经足够优秀,留下的提升空间不多,所以在预测蛋白蛋白复合物和蛋白单体之间的结构上的能力提升不大;预测蛋白-抗体复合物结构的能力大幅提高。


预测蛋白-小分子配体互作结构的表现(提供蛋白质结构或指定对接口袋)
预测蛋白-小分子配体互作结构的表现(提供蛋白质结构或指定对接口袋)

上图是提供蛋白质结构或指定对接口袋情况下,不同方法预测蛋白-小分子配体互作结构的表现对比。可以看到,在提供蛋白质结构时,AF 3定制版本 AF3 2019 的预测表现显著强于其他方法;在指定对接口袋时,AF 3定制版本 AF3 2019 pocket specified 的表现显著强于 AutoDock Vina、DeepDock 等一众专业的分子对接软件。


3. 在线使用 AlphaFold3

AlphaFold 3 可以在 https://www.alphafoldserver.com 使用,但是目前对允许使用的小分子配体和共价修饰有限制,很多还不能使用。如果不限制小分子配体的使用范围,AlphaFold 3 将成为一个非常好用的自动化的分子对接软件。





参考内容:

  • https://www.nature.com/articles/s41586-024-07487-w
  • https://www.ebi.ac.uk/training/online/courses/alphafold/inputs-and-outputs/evaluating-alphafolds-predicted-structures-using-confidence-scores/plddt-understanding-local-confidence/
  • https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-024-07487-w/MediaObjects/41586_2024_7487_MOESM1_ESM.pdf
  • https://mp.weixin.qq.com/s/vAvwsf_mjRJH4IDU3lvpcg?sessionid=1726477416&subscene=0&ascene=0&fasttmpl_type=0&fasttmpl_fullversion=7382233-en_US-zip&fasttmpl_flag=0&realreporttime=1726479143208&clicktime=1726239340&enterid=1726239340
  • https://www.bilibili.com/video/BV142K6eBEWN/?spm_id_from=333.999.0.0&vd_source=2e0bed8f939119c48817ce61f4f75bdd

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171219.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

excel数据常用函数学习记录

1、VLOOKUP查询函数,匹配数据返回 vlookup(查找值,查找范围,要查找的值在第几列,0表示精确查找) enter键返回 例如:在E列中返回,A列的值与D列一致的对应的B值。只会返回查找到的第一个 如果需要把查找到的匹配的数据都返回到单元格中&…

Power Automate 设置流Owner不生效的bug

在查找某个功能没生效时,定位到是一个Power automate的流停了,查看原因是因为创建流的owner被disable了 但是当把流的owner更新为可用的用户时,流依旧没被触发,触发的条件很简单,某个表的记录创建时,因为是…

白嫖10个免费视频剪辑素材网站,新手必备。

视频剪辑不知道去哪里找素材,那就看看这10个网站吧,免费下载,赶紧收藏! 视频素材 1、菜鸟图库 视频素材下载_mp4视频大全 - 菜鸟图库 菜鸟图库网素材非常丰富,网站主要还是以设计类素材为主,高清视频素材…

51单片机应用开发(进阶)---数码管显示按键“加”“减”计数

实现目标 1、巩固按键操作 2、巩固数码管显示操作 一、内容描述 功能描述:1、开机显示10,每按一次K1 ,数码管计数值加1,当加到20,,再按K1,数值一直停留在20;2、每按一次K2,数码管计…

Pencils Protocol上线 Vaults 产品,为 $DAPP 深入赋能

Pencils Protocol 是 Scroll 生态一站式综合收益平台,该平台以 DeFi 功能作为抓手,基于 Farming、Vaults、Auction 等功能不断向 LRT、LaunchPad、AI、FHE、RWA 等领域深入的拓展。 近期 Pencils Protocol 生态不断迎来重磅进展,一个是 $DAPP…

基于二分查找的动态规划 leetcode 300.最长递增子序列

如题: https://leetcode.cn/problems/longest-increasing-subsequence/description/ 其实常规动态规划的解法就没什么好说的了,有意思的是官方放出了一个二分查找的动态规化解法,时间复杂度能降到O(nlog(n)),但是为什么这样能解&…

PPT 快捷键使用、技巧

前言: 本文操作是以office 2021为基础的,仅供参考;不同版本office 的 ppt 快捷键 以及对应功能会有差异,需要实践出真知。 shift 移动 水平/垂直 移动 ; shift 放大/缩小 等比例放大 缩小 ; 正圆 正…

Python编程:01-基本数据类型-数值字符串,列表与元组,字典,集合set

python的数据类型有如下: 1、数字 数字类型是python中常用的类型,她是不可变的,创建一个数字很简单可以用一个变量来接收它 num12 在这里插入代码片 #创建变量num1 num29 #创建变量num2数字的类型分为如下几类: 整型&#x…

再谈QT的界面开发 - QT的社区版本的获取 - 2024-09

前言: QT的跨平台特性,赋予了QT的生命。2024年,因为项目的原因,重新开启了一个基于QT的跨平台项目。 QT有付费的版本和社区的版本。 1 获取社区的版本: 1.1 社区的版本的软件授权说明: Qt - Obligation…

Spring Boot 2.x基础教程:实现文件上传

​ 博客主页: 南来_北往 系列专栏:Spring Boot实战 前言 文件上传的功能实现是我们做Web应用时候最为常见的应用场景,比如:实现头像的上传,Excel文件数据的导入等功能,都需要我们先实现文件的上传,然…

【含文档】基于Springboot+微信小程序 的高校心理咨询系统(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

WordPress最佳恶意软件扫描插件:入门级指南

在现代互联网环境中,网站安全已经成为每个网站管理员必须重视的问题。特别是对于使用WordPress的用户来说,由于其普及度高,WordPress网站常常成为黑客的首要攻击目标。幸运的是,有许多优秀的恶意软件扫描插件可以帮助我们保护网站…

案例精选 | 海门北部新城医学综合体智能化日志管理系统部署

海门北部新城医学综合体,即海门中医院新院区,坐落于江苏省南通市海门区北部新城的核心地带,是一座全新的现代化三级甲等中医医院。医院于2024年初正式启用,占地约64710平方米,拥有超过12万平方米的建筑面积&#xff0c…

【Python】The Algorithms:开源算法的宝库

The Algorithms 是一个开源项目,旨在为开发者提供各种编程语言的算法实现。该项目汇集了数千种算法的实现,涵盖了数据结构、排序算法、数学算法、机器学习、密码学等领域。通过该平台,开发者可以学习、理解并应用不同编程语言中的算法&#x…

企业安全策略制定

如今,网络安全是所有组织的必需品,而不是奢侈品。现代企业面临着针对其数据、网络和系统的复杂且不断演变的威胁。 即使一个漏洞也可能导致严重违规、财务损失和声誉受损。正如堡垒依靠多层防御共同作用一样,公司的安全措施必须作为一个整体…

MAC M1 安装brew 配置环境变量,安装dart

一. 下载 brew 1. 终端输入 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" 2. 如遇到下载失败情况,需要VPN/代理 curl: (7) Failed to connect to raw.githubusercontent.com port 443 after 8 m…

Vue3 取消密码输入框在浏览器中自动回填

浏览器默认会对用户提交表单行为进行监控,若发现type属性值为password的input控件,且该控件可见时,会提示用户是否记住密码 VUE3登录禁止浏览器记住密码_vue3禁止chome浏览器提示保存密码-CSDN博客 项目需求: 前端禁止在浏览器coo…

优青博导团队携手提供组学技术服务、表观组分析、互作组分析、遗传转化实验、单细胞检测等全方位生物医学支持

🌟 教授团队领衔,全方位服务! 🚀 从实验设计到论文发表,一站式解决方案! 📈 选择我们,加速您的科研进程,让成果不再等待! 📝 专业分析 定制服…

python贪吃蛇小游戏

1.简介 使用了turtle库来创建图形界面,你可以使用键盘的W、A、S、D键来控制蛇的移动方向。蛇吃到食物后,身体会增长,如果蛇撞到自己或者游戏边界,游戏就会结束。 2. 代码 import turtle import time import randomdelay 0.1# …

在MacOS上安装MongoDB数据库

一、安装方法 1.1 安装包安装 首先,打开MongoDB 官网下载安装包,下载链接:https://www.mongodb.com/try/download/community。 根据自己的系统环境自行选择下载的版本。将下载好的 MongoDB 安装包解压缩,并将文件夹名改为 mon…