论文阅读 AlphaFold 2

news2025/1/31 2:46:42

用AlphaFold进行非常精确的蛋白质结构的预测(AlphaFold2)

  • 发表于2021年07月15日 Nature
  • DOI: 10.1038/s41586-021-03819-2
  • 自然和科学杂志评选为2021年最重要的科学突破之一
  • 2021年AI在科学界最大的突破

前言

  • 2020年11月30号, deepmind博客说AlphaFold解决了50年以来生物学的大挑战
  • 2021年07月15日华盛顿大学的Protein Design团队在发布在8月15日将在Science上发表了一个RoseTTAFold, 使用深度神经网络进行蛋白质结构的预测

文章结构

  • 摘要
  • 导论: 一页半
  • alphafold2: 两页出头, 模型介绍以及训练细节
  • 结果分析: 一页
  • 相关工作: 非常短
  • 讨论
  • 附录方法的细节
  • SI: 50页, 详细的解释了每个模型里面的细节

摘要

  • 问题
  • 蛋白质对于生命来说是必要的, 了解蛋白质的结构有助于理解蛋白质的功能
  • 蛋白质是长的氨基酸序列, 不稳定, 容易卷在一起, 从而形成独特的3d结构, 从而决定了蛋白质的功能
  • 预测的困难(蛋白质折叠问题), 只知道很少一部分蛋白质的结构, 实验上通过冷冻方法观察费时费力
  • 现有方法
  • AlphaFold1 精度不够, 不在原子的精度
  • AlphaFold2 能够达到原子的精度
  • AlphaFold2 使用了物理和生物学的知识, 也同样使用了深度学习

  • 应用型的文章
  • 问题对于领域来说重不重要
  • 结果的好坏, 是不是解决了这个问题
  • 找新问题或者开发新模型

In this study, we develop the first, to our knowledge, computational approach capable of predicting protein structures to near experimental accuracy in a majority of cases.

In pic, the blues are predicted from AlphaFlod, and the greens are experimental result.

The CASP assessment is carried out biennially using recently solved structures that have not been deposited in the PDB or publicly disclosed so that it is a blind test for the participating methods and has long served as the gold-standard assessment for the accuracy of structure prediction.

In CASP14, AlphaFold structures were vastly more accurate than competing methods, see pic below:

The AlphaFold network

We divide the network into three parts of Feature extract、Encoder and Decoder.

Feature extract

The AlphaFold receives input features derived from the amino-acid sequence, MSA, and templates

MSA(multiple sequence alignments)

It’s a common method used in bioinformatics.

The MSA is grouped by tool and ordered by the normal output of each tool, typically e-value. This means that similar sequences are more likely to be adjacent in the MSA and block deletions are more likely to generate diversity that removes whole branches of the phylogeny.

an N_{seq} × N_{res} array (N_{seq},number of sequences; N_{res} , number of residues) that represents a processed MSA.

Templates

3D atom coordinates of a small number of homologous structures (templates) where available.

an N_{res} × N_{res} array that represents residue pairs.

Evoformer

The Evoformer is based on transformer, the Evoformer blocks contain a number of attention-based and non-attention-based components.

End-to-end structure prediction

The trunk of the network is followed by the structure module that introduces an explicit 3D structure in the form of a rotation and translation for each residue of the protein.

Prominent Work

Model Design

  • Evoformer中输入的不是一个序列而是一个矩阵,通过组合Row-wise selfattention 和 Columnwise selfattention实现二维Transformer

  • 通过bias添加额外建模的信息

  • 通过 linear + sigmod 乘矩阵实现gated控制输出权重

  • Interpreting the neural network:循环使用模型,可以加深网络深度的同时不增大反向传播时的显存占用。使得整个模型很像RNN的结构

3d modeling

  • 通过(R_k, t_k)进行刚体序列的相对位置表示,且该表示不受旋转平移等全局刚体变换的影响,同时在计算分数时显式的加入位置距离的计算。附录中含有对全局变换不变的证明。

Data augment

  • Training with labelled and unlabelled data:对于无label数据集预测后选出置信度高的组成新的数据集添加噪声后与原有标号数据集组合重新用来训练,称为 noisy student self-distillation 。
  • randomly mask out or mutate individual residues:类似BERT。

Train

  • The initial training stage takes approximately 1 week, and the fine-tuning stage takes approximately 4 additional days.
  • We train the model on Tensor Processing Unit (TPU) v3 with a batch size of 1 per TPU core, hence the model uses 128 TPU v3 cores.

  • 计算性能要求很高

The key words may help read

  • residue - 氨基酸残基 这篇中可以理解为不同氨基酸,因为氨基酸差异体现在残基上

Reference

Highly accurate protein structure prediction with AlphaFold

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2284334.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络 (62)移动通信的展望

一、技术发展趋势 6G技术的崛起 内生智能:6G将强调自适应网络架构,通过AI驱动的智能算法提升通信能力。例如,基于生成式AI的6G内生智能架构将成为重要研究方向,实现低延迟、高效率的智能通信。信息编码与调制技术:新型…

探索与创新:DeepSeek R1与Ollama在深度研究中的应用

在当今信息爆炸的时代,获取和处理信息的能力变得至关重要。特别是在学术和研究领域,如何有效地进行深度研究是一个亟待解决的问题。最近,一个名为DeepSeek R1的模型结合Ollama平台提供了一种创新的解决方案。本文将分析并解构这一新兴的研究工…

mantisbt添加修改用户密码

文章目录 问题当前版本安装流程创建用户修改密码老的方式探索阶段 问题 不太好改密码啊。貌似必须要域名要发邮件。公司太穷,看不见的东西不关心,只能改源码了。 当前版本 当前mantisbt版本 2.27 php版本 7.4.3 安装流程 (下面流程不是…

记录 | Docker的windows版安装

目录 前言一、1.1 打开“启用或关闭Windows功能”1.2 安装“WSL”方式1:命令行下载方式2:离线包下载 二、Docker Desktop更新时间 前言 参考文章:Windows Subsystem for Linux——解决WSL更新速度慢的方案 参考视频:一个视频解决D…

【Elasticsearch】内置分词器和IK分词器

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

2025美赛数学建模C题:奥运金牌榜,完整论文代码模型目前已经更新

2025美赛数学建模C题:奥运金牌榜,完整论文代码模型目前已经更新,获取见文末名片

HarmonyOS:ForEach:循环渲染

一、前言 ForEach接口基于数组类型数据来进行循环渲染,需要与容器组件配合使用,且接口返回的组件应当是允许包含在ForEach父容器组件中的子组件。例如,ListItem组件要求ForEach的父容器组件必须为List组件。 API参数说明见:ForEa…

C++ STL:深入探索常见容器

你好呀,欢迎来到 Dong雨 的技术小栈 🌱 在这里,我们一同探索代码的奥秘,感受技术的魅力 ✨。 👉 我的小世界:Dong雨 📌 分享我的学习旅程 🛠️ 提供贴心的实用工具 💡 记…

Java面试题2025-设计模式

1.说一下开发中需要遵守的设计原则? 设计模式中主要有六大设计原则,简称为SOLID ,是由于各个原则的首字母简称合并的来(两个L算一个,solid 稳定的),六大设计原则分别如下: 1、单一职责原则 单一职责原则的定义描述非…

flink StreamGraph解析

Flink程序有三部分operation组成,分别是源source、转换transformation、目的地sink。这三部分构成DAG。 DAG首先生成的是StreamGraph。 用户代码在添加operation的时候会在env中缓存(变量transformations),在env.execute()执行的…

基于SpringBoot的网上摄影工作室开发与实现 | 含论文、任务书、选题表

随着互联网技术的不断发展,摄影爱好者们越来越需要一个在线平台来展示和分享他们的作品。基于SpringBoot的网上摄影工作室应运而生,它不仅为用户提供了一个展示摄影作品的平台,还为管理员提供了便捷的管理工具。本文幽络源将详细介绍该系统的…

数字人+展厅应用方案:开启全新沉浸式游览体验

随着人们生活质量的不断提升,对于美好体验的追求日益增长。在展厅展馆领域,传统的展示方式已难以满足大众日益多样化的需求。而通过将数字人与展厅进行深度结合,可以打造数字化、智能化新型展厅,不仅能提升展示效果,还…

基于单片机的家用无线火灾报警系统的设计

1 总体设计 本设计家用无线火灾报警系统利用单片机控制技术、传感器检测技术、GSM通信技术展开设计,如图2.1所示为本次系统设计的主体框图,系统包括单片机主控模块、温度检测模块、烟雾检测模块、按键模块、GSM通信模块、液晶显示模块、蜂鸣器报警模块。…

多级缓存(亿级并发解决方案)

多级缓存(亿级流量(并发)的缓存方案) 传统缓存的问题 传统缓存是请求到达tomcat后,先查询redis,如果未命中则查询数据库,问题如下: (1)请求要经过tomcat处…

iic、spi以及uart

何为总线? 连接多个部件的信息传输线,是部件共享的传输介质 总线的作用? 实现数据传输,即模块之间的通信 总线如何分类? 根据总线连接的外设属于内部外设还是外部外设将总线可以分为片内总线和片外总线 可分为数…

Shell编程(for循环+并发问题+while循环+流程控制语句+函数传参+函数变量+函数返回值+反向破解MD5)

本篇文章继续给大家介绍Shell编程,包括for循环、并发问题,while循环,流程控制语句,函数传参、函数变量、函数返回值,反向破解MD5等内容。 1.for循环 for 变量 in [取值列表] 取值列表可以是数字 字符串 变量 序列…

深入 Rollup:从入门到精通(三)Rollup CLI命令行实战

准备阶段:初始化项目 初始化项目,这里使用的是pnpm,也可以使用yarn或者npm # npm npm init -y # yarn yarn init -y # pnpm pnpm init安装rollup # npm npm install rollup -D # yarn yarn add rollup -D # pnpm pnpm install rollup -D在…

CycleGAN模型解读(附源码+论文)

CycleGAN 论文链接:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 官方链接:pytorch-CycleGAN-and-pix2pix 老规矩,先看看效果 总体流程 先简单过一遍流程,细节在代码里说。CycleGAN有…

线程配置经验

工作时,时常会遇到,线程相关的问题与解法,本人会持续对开发过程中遇到的关于线程相关的问题及解决记录更新记录在此篇博客中。 目录 一、线程基本知识 1. 线程和进程 二、问题与解法 1. 避免乘法级别数量线程并行 1)使用线程池…

全程Kali linux---CTFshow misc入门

图片篇(基础操作) 第一题: ctfshow{22f1fb91fc4169f1c9411ce632a0ed8d} 第二题 解压完成后看到PNG,可以知道这是一张图片,使用mv命令或者直接右键重命名,修改扩展名为“PNG”即可得到flag。 ctfshow{6f66202f21ad22a2a19520cdd…