蛋白质分子结构设计

news2024/12/20 19:36:11

paper read 1

Created by: 银晗 张
Created time: May 27, 2023 3:47 PM
Tags: Product

  • 补充了解蛋白质的生物学知识
  • 学习一下Diffusion的原理

💡 Method & Innovations

  1. Framework

Summary:

  1. first deep learning models to perform antibody sequence-structure design by considering the 3D structures of the antigen
  2. design protein sequences and coordinates & side-chain orientations , firstly achieve atomic-resolution antibody design and is equivariant to rotation and translationw
  3. applied to antibody design tasks sequence-structure co-design, fix-backbone CDR design, and antibody optimization

Prospose Method: 基于扩散的生成模型联合采样抗体CDR序列和结构

  • CDR序列及其结构的联合分布直接依赖于抗原结构, 所以我们的任务是给定一个由抗原和抗体框架组成的蛋白质复合物作为输入,得到CDRs的结构

  1. Differences to previous works

Traditional Computational Antibody Design Problems:

  1. the search space of CDRs is vast , L squences may have 20^L
  2. time-consuming and local optima

Generative model challenges :

  1. how to model the intrinsic relation between CDR sequences and 3D structures
  2. how to model the distribution of CDRs conditional on the rest of the antibody sequence
  3. the model should be explicitly conditional on the 3D structures of the antigen and generate CDRs that fit the antigen structure in the 3D space
  4. model should be able to consider both the position and orientation of amino acids
  5. instead of de novo design, model should be applicable to another realistic scenario: optimizing a particular antibody to increase the binding affinity to the antigen

Related Diffusion-Based Generative Models

  • the sequence-based methods can only generate new antibodies based on previously observed
    antibodies but can hardly generate antibodies for specific antigen structures
  • protein structure pretidion algorithms : MSAs、AlphaFold2
  • diffusion model : denosing with prior distrubtion、molecular 3D structure

Differences

M o d e l S t e p s : Model Steps: ModelSteps

  1. 用任意序列、位置和方向初始化CDR。扩散模型首先聚集了来自抗原和抗体框架的信息
  2. 迭代地更新cdr上每个氨基酸的氨基酸类型、位置和方向(侧链的方向)
  3. 我们基于预测的方向,使用侧链填充算法在原子级重建CDR结构

  1. What insights would the proposed approach bring?

SO(3) Denosing for Amino Acid Orientations:

S : coordinates , X: amino acid types, O: orientations

  • 各向同性的高斯分布,改变旋转角度
  • 神经网络用于方向去噪和输出去噪的方向矩阵
  • 目标函数是真实和预测的方向矩阵之间的差异内积

Diffusion For C a C_a Ca Coordinates :

  • 坐标是一个正态分布
  • 变化的学习率
  • 神经网络用于预测高斯分布的噪声
  • 目标函数是生成的分布和初始先验分布的MSE

Migrate Markov chains

  • A diffusion probabilistic model defines two Markov chains of diffusion processes

    • The forward diffusion process gradually adds noise to the data until the data distribution approximately reaches the prior distribution
    • The generative diffusion process starts from the prior distribution and iteratively
      transforms it to the desired distribution.
  • Use Multinomial Distribution instead of Gaussian distribution in Diffusion Model

Processes:

  1. MLP embeding: encodes the information of amino acid types, torsional angles, and 3D coordinates of all the heavy atoms . The pairwise embedding MLP encodes the Euclidean distances and dihedral angles between amino acid i and j to feature vectors zij, use IPA(to transform ∗ ∗ ∗ e i ∗ ∗ ∗ ***e_i*** ei and ∗ ∗ ∗ z i j ∗ ∗ ***z_{ij}** zij into hidden representations ∗ ∗ ∗ h i ∗ ∗ ***h_i** hi) to represent itself and environment

  2. Denoise: the representations are fed to three different MLPs to denoise the amino acid types, 3D positions, and orientations of the CDR,respectively

  3. 预测局部坐标系中的坐标偏差,并将其投影到全局坐标系中,可以确保预测的等方差,因为当整个三维结构以特定的角度旋转时,坐标偏差也以相同的角度旋转。

    1. 偏差表示:

      在这里插入图片描述

    2. 将向量转换为旋转矩阵 M j ∈ S O ( 3 ) M_j∈SO (3) MjSO(3)右向乘以方向,为下一步生成步骤产生一个新的平均方向: O j t − 1 ← O j t M j O^{t−1}_j←O^t_jM_j Ojt1OjtMj

    3. 所提出的网络与整体结构的旋转和平移是等变的:

    在这里插入图片描述

  4. sample algorithm:

    • 20 types amino acids distrubution : s j T ∼ U n i f o r m ( 20 ) s^T_j∼ Uniform(20) sjTUniform(20)
    • C α C_α Cα positions from the standard normal distribution: ∗ ∗ x j T ∼ N ( 0 , I 3 ) **x^T_j ∼ N (0, I3) xjTN(0,I3), side-chain C β C_β Cβ
    • orientations from the uniform distribution over SO(3): ∗ ∗ O j T ∼ U n i f o r m ( S O ( 3 ) ) ∗ ∗ **O^T_j∼ Uniform(SO(3))** OjTUniform(SO(3))

    DiffAb的实验:

    DiffAb Experiment

Details


Antigen-Specific Antibody Design and Optimization with Diffusion-Based Generative Models for Protein Structures

Domain words:

  • antigen, antibody : 抗体、抗原
  • complementarity-determining regions (CDR):互补性结构区域
  • amino acids: 氨基酸
  • molecular , atom : 分子、原子

SO(3)是三维旋转群的代数结构,表示在三维空间中的旋转操作。在蛋白质中,SO(3)通常用于描述氨基酸侧链的取向。通过SO(3)变换,可以将一个氨基酸侧链的取向转换为另一个取向,从而对氨基酸侧链的构象空间进行建模和分析。


抗体是免疫系统蛋白质,通过与病毒和细菌等特定抗原结合来保护宿主。抗体与抗原之间的结合主要由抗体的互补决定区(CDR)决定。在这项工作中,我们开发了一个深度生成模型,基于扩散概率模型和等变神经网络,共同模拟CDR的序列和结构。我们的方法是第一个明确针对特定抗原结构生成抗体的深度学习方法,并且是早期蛋白质结构扩散概率模型之一。

该模型能够进行序列-结构协同设计、给定骨架结构的序列设计和抗体优化。

我们进行了广泛的实验,评估了设计抗体的序列和结构的质量。我们发现,我们的模型在生物物理能量函数和其他蛋白质设计指标衡量的结合亲和力方面能够产生有竞争力的结果。

Background

  • the structure of antibody-antigen

在这里插入图片描述

Target: to design effective therapeutic antibody structure

Traditional Problems:

  1. the search space of CDRs is vast , L squences may have 20^L
  2. time-consuming and local optima

Generative model challenges :

  1. how to model the intrinsic relation between CDR sequences and 3D structures
  2. how to model the distribution of CDRs conditional on the rest of the antibody sequence
  3. the model should be explicitly conditional on the 3D structures of the antigen and generate CDRs that fit the antigen structure in the 3D space
  4. model should be able to consider both the position and orientation of amino acids
  5. instead of de novo design, model should be applicable to another realistic scenario: optimizing a particular antibody to increase the binding affinity to the antigen
  • the sequence-based methods can only generate new antibodies based on previously observed
    antibodies but can hardly generate antibodies for specific antigen structures
  • protein structure pretidion algorithms : MSAs、AlphaFold2
  • diffusion model : 先验分布去噪、molecular 3D structure

Work

Prospose Method: 基于扩散的生成模型联合采样抗体CDR序列和结构

  • CDR序列及其结构的联合分布直接依赖于抗原结构, 所以我们的任务是给定一个由抗原和抗体框架组成的蛋白质复合物作为输入,得到CDRs的结构

Steps:

  1. 用任意序列、位置和方向初始化CDR。扩散模型首先聚集了来自抗原和抗体框架的信息
  2. 迭代地更新cdr上每个氨基酸的氨基酸类型、位置和方向(侧链的方向)
  3. 我们基于预测的方向,使用侧链填充算法在原子级重建CDR结构

Detail

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H8xR5GdJ-1690184885986)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%203.png)]

扩散过程

S : coordinates , X: amino acid types, O: orientations

  • A diffusion probabilistic model defines two Markov chains of diffusion processes
    • The forward diffusion process gradually adds noise to the data until the data distribution approximately reaches the prior distribution
    • The generative diffusion process starts from the prior distribution and iteratively
      transforms it to the desired distribution.

多项式分布 → 高斯分布

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-drIGTfju-1690184885987)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%204.png)]

  • 任意时刻 t t t,用 t 0 t_0 t0 β \beta β表达

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGb3wfX6-1690184885989)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%205.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7pq3PLEI-1690184885989)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%206.png)]

C C C:空间结构信息; R t R^t Rt :t时刻CDR的状态


all-one vector是一个元素全部为1的向量。例如,一个长度为n的all-one vector可以表示为[1, 1, 1, ..., 1]。在数学和计算机科学中,all-one vector经常用于矩阵和向量的运算和表示,例如在矩阵乘法中,一个矩阵乘以一个all-one vector可以得到该矩阵每一行的和。all-one vector也可以用于表示一组等权重的值,例如在计算平均值时,可以将每个值乘以一个all-one vector,再除以向量的长度,即可得到这组值的平均值。

  • 可以用作去噪声

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s1dJVaBJ-1690184885990)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%207.png)]

Diffusion For C a C_a Ca Coordinates :

  • 坐标是一个正态分布
  • 变化的学习率
  • 神经网络用于预测高斯分布的噪声
  • 目标函数是生成的分布和初始先验分布的MSE

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yI6UXLqJ-1690184885991)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%208.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FoE7p8iH-1690184885991)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%209.png)]

SO(3) Denosing for Amino Acid Orientations:

  • 各向同性的高斯分布,改变旋转角度
  • 神经网络用于方向去噪和输出去噪的方向矩阵
  • 目标函数是真实和预测的方向矩阵之间的差异内积

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A0rsS9HK-1690184885992)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2010.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qe87cPsQ-1690184885992)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2011.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8EAtnPL-1690184885993)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2012.png)]

  • For all Loss

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iFGXHoeL-1690184885994)(paper%20read%201%20035b71d4ad35406dbd00c2d05463cbd1/Untitled%2013.png)]


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/788803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

随笔--更改已经启动中的容器的配置文件

文章目录 docker 容器的配置信息地址修改文件映射 docker 容器的配置信息地址 # 一般在 sudo su cd /cd /var/lib/docker/containers/{容器id}/ # 查看容器的id,CONTAINER ID就是容器id的前部分 docker ps修改文件映射 进入容器的配置文件位置一般包含这些文件 # 先stop容器…

0基础学习VR全景平台篇 第69篇:VR直播-如何设置广告

直播间可以插入轮播广告,并且支持外链跳转,能够有效地提升VR直播活动的转化率。 1、点击,添加广告 2、广告图展现形式分为两种:普通广告和全屏广告,普通广告在非全屏播放的直播间显示,全屏广告在全屏播放的…

特征选择策略:为检测乳腺癌生物标志物寻找新出口

内容一览:microRNA(小分子核糖核酸)是一类短小的单链非编码 RNA 转录体。这些分子在多种恶性肿瘤中呈现失控性生长,因此近年来被诸多研究确定为确诊癌症的可靠的生物标志物 (biomarker)。在多种病理分析中,差异表达分析…

在 “小小容器” WasmEdge 里运行小小羊驼 llama 2

昨天,特斯拉前 AI 总监、OpenAI 联合创始人 Andrej Karpathy 开源了 llama2.c 。 只用 500 行纯 C 语言就能训练和推理 llama 2 模型的框架,没有任何繁杂的 python 依赖。这个项目一推出就受到大家的追捧,24 小时内 GitHub 收获 4000 颗星&am…

AI学习笔记三:编写检测的yolov5测试代码

若该文为原创文章,转载请注明原文出处。 通过detect.py代码测试通过后,阅读detect.py代码发现,有些难以看懂,看得有点蒙蒙的, 所以编写了一个简单的测试程序。 代码如下: import cv2 import numpy as np…

工业自动化编程与数字图像处理技术

编程是计算机领域的基础技能,对于从事软件开发和工程的人来说至关重要。在工业自动化领域,C/C仍然是主流的编程语言,特别是用于工业界面(GUI)编程。工业界面是供车间操作员使用的,使用诸如Halcon或OpenCV等软件单独无法完成项目&a…

mysql 第八章

1.主从复制 主服务器: 从服务器: 检测结果: 2.读写分离 amoeba 机器: 客户端机器: 检测结果: 3.总结 在企业应用中,业务通常数据量都比较大。单台 mysql 在安全性、 高可用性、高并发方面都&am…

走好职业生涯第一步 中科驭数2023校招生培训“芯星计划” 落幕

校招生作为公司发展的新鲜血液,是公司在人才储备和人才梯队建设上的重要投资。近日,中科驭数在北京、武汉两地组织开展了2023年校招生培训项目——“芯星计划”,旨在帮助2023届校招新员工快速了解公司文化、融入驭数团队,顺利迈过…

字节抖音小程序,使用 uniapp 调起内置支付

字节抖音小程序,使用 uniapp 调起内置支付 第一步:提交订单 后端通过抖音预下单接口,提交支付订单信息。 预下单接口_小程序_抖音开放平台预下单接口 提交支付订单信息。 ## 使用限制 无 ## 接口说明 预下单接口需要保证同一app_id下每笔订…

中国剩余定理讲解及例题

凡有所学&#xff0c;皆成性格。 凡有所学&#xff0c;皆成性格。 目录&#x1f352; &#x1f349;中国剩余定理维基百科<font colorgreen>:cherries:形式描述&#xff1a; <font colorred>:pear: 解法:strawberry:<font colorgreen>求解方法&#xff1a;:…

集成学习——Bagging算法和随机森林算法

1、集成学习 集成学习是将多个机器学习的算法结合起来的一种方法&#xff0c;即实现将多个弱学习器通过组成一个整体来实现强学习的效果&#xff0c;俗语里&#xff1a;三个臭皮匠赛过一个诸葛亮。 2、Bagging算法 2.1 Bootstrap自助采样 在样本集D(样本数为m)中进行有放回…

51单片机--LCD1602

LCD1602的介绍 LCD1602是一种字符型液晶显示模块&#xff0c;通常用于嵌入式系统、单片机等领域。它由LCD&#xff08;液晶显示屏&#xff09;、HD44780控制驱动主电路及其扩展驱动电路、少量电阻、电容元件等组成。 LCD1602具有以下特点和功能&#xff1a; 显示能力&#xf…

使用sftp

一、背景 新项目组前端部署方式是Build打包生成dist文件&#xff0c;交由后端部署。后来知道了vscode安装sftp前端可以自行部署。 二、实操 1、vscode安装sftp 2、 配置 ①F1 / ctrlshiftp ②命令行输入sftp -> 选择 sftp: Config ③配置信息介绍 {"name"…

liteflow overall笔记

偶然看到liteflow的介绍&#xff0c;感觉是一个local单机版本的conductor。 核心代码的注释非常好&#xff0c;在我看过的开源代码里面数一数二单元测试完备&#xff0c;要学习用法基本都可以在单元测试看到相关代码核心基于阿里的ElExpress&#xff0c;使用方式值得学习监控稍…

网络编程八股文

文章目录 tcp粘包问题&#xff1f;BIO,NIO,AIO是什么&#xff1f;零拷贝是什么&#xff1f;浏览器发出一个请求到收到响应的具体步骤&#xff1f;select, poll, epoll区别是什么&#xff1f;https是如何保证安全传输的&#xff1f;tcp的三次握手和四次挥手&#xff1a;tcp网络分…

LZ77算法理论

发布时间&#xff1a;2023-07-25 14:58:28 英文介绍文档&#xff1a;https://archive.ph/F4pg7 很短&#xff0c;看一遍10&#xff5e;20分钟应该够了。 1. 算法用到的术语&#xff1a; Input stream 要被压缩的字符序列 Character 输入流中的基本数据元素 Coding position…

RealsenseD455 + ubuntu18.04 + ROS-Melodic的使用

系统&#xff1a;Ubuntu18.04 ros: melodic 相机&#xff1a;intel RealSense D455一、安装依赖和 Realsense SDK sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-key F6E65AC044F831AC80A06380C8B3A55A6F3EFCDE || sudo apt-key adv --keyserver hkp://keyserver…

机器人导航(3):导航相关消息

文章目录 地图nav_msgs/MapMetaDatanav_msgs/OccupancyGrid 里程计坐标变换定位目标点与路径规划激光雷达相机深度图像转激光数据depthimage_to_laserscan简介depthimage_to_laserscan节点说明depthimage_to_laserscan使用 地图 地图相关的消息主要有两个: nav_msgs/MapMetaD…

【雕爷学编程】Arduino动手做(171)---micro:bit 开发板

37款传感器与模块的提法&#xff0c;在网络上广泛流传&#xff0c;其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和模块&#xff0c;依照实践出真知&#xff08;一定要动手做&#xff09;的理念&#xff0c;以学习和交流为目的&#xff0c;这…

“VCMessage”任务意外失败

从网上查到很多都是说设置这个位置&#xff0c;但是我的已经是对的&#xff0c;还是出现 “VCMessage”任务意外失败这个错误。 又查到一个人说解决方法是更正OutputPath或从父级继承&#xff1a;右键单击项目,然后转到"属性">"链接器">"常规&q…