PSP - 基于扩散生成模型预测蛋白质结构 EigenFold 算法与环境配置

news2025/2/27 1:41:34

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/132357976

EigenFold

Paper: EigenFold: Generative Protein Structure Prediction with Diffusion Models

EigenFold 是用于蛋白质结构预测的扩散生成模型(即,已知序列 至 结构分布)。基于谐波扩散,将键约束纳入扩散建模框架,并且产生一个级联分辨率的生成过程。

  • 扩散生成模型 (Diffusion Generative Model):利用随机扩散过程,生成数据样本的机器学习模型。
  • 谐波扩散 (Harmonic Diffusion):考虑谐波势能对于扩散过程的影响的数学模型。
  • 键约束 (Bond Constraints):限制蛋白质中原子间距离和角度变化范围的物理条件。
  • 级联分辨率 (Cascading-Resolution) :从粗糙到精细,逐步提高生成结果质量的方法。
  • OmegaFold 嵌入向量(OmegaFold Embeddings):由 OmegaFold 模型产生的,表示蛋白质序列特征的向量。

关于 EigenFold,即:

We define a diffusion process that models the structure as a system of harmonic oscillators and which naturally induces a cascading-resolution generative process along the eigenmodes of the system.
扩散过程,即将结构模型化为谐振子 (Harmonic Oscillators) 系统,该过程自然地沿着系统的本征模式 (Eigenmodes),产生级联分辨率的生成过程。

EigenFold 算法重点:

  • 蛋白质结构生成的新方法: 基于扩散模型的生成式模型,可以从给定的蛋白质序列生成一组可能的结构。该模型利用 OmegaFold 的预训练嵌入和得分网络来学习蛋白质结构的概率分布。
  • 谐波扩散过程:定义新的扩散过程,将蛋白质结构建模为一系列谐振子,其势能为相邻残基之间的距离的二次函数。该过程可以保证采样的结构满足化学约束,并且可以沿着系统的本征模式进行投影,实现逐步精细化的生成过程。
  • 得分网络架构:使用基于 E3NN 的图神经网络作为得分网络,输入为残基坐标和 OmegaFold 嵌入向量,输出为梯度向量。该网络具有 SE(3) 等变性,保证最终模型密度也具有 SE(3) 不变性。

EigenFold GitHub: https://github.com/bjing2016/EigenFold


1. 结构预测

准备 new.csv 文件,预测 7skh.B 的结构,即:

# with columns name, seqres (see provided splits for examples) and run
name,valid_alphas,seq,head,resolution,deposition_date,release_date,structure_method,seqres,seqlen
7skh.B.pdb,220,NAPVFQQPHYEVVLDEGPDTINTSLITVQALDGTVTYAIVAGNIINTFRINKHTGVITAAKELDYEISHGRYTLIVTATDQCPILSHRLTSTTTVLVNVNDINDNVPTFPRDYEGPFDVTEGQPGPRVWTFLAHDRDSGPNGQVEYSVVDGDPLGEFVISPVEGVLRVRKDVELDRETIAFYNLTICARDRGVPPLSSTMLVGIRVLDINDNLEHHHHHH,cell adhesion,2.27,2021-10-20,2022-10-26,x-ray diffraction,MNAPVFQQPHYEVVLDEGPDTINTSLITVQALDLDEGPNGTVTYAIVAGNIINTFRINKHTGVITAAKELDYEISHGRYTLIVTATDQCPILSHRLTSTTTVLVNVNDINDNVPTFPRDYEGPFDVTEGQPGPRVWTFLAHDRDSGPNGQVEYSVVDGDPLGEFVISPVEGVLRVRKDVELDRETIAFYNLTICARDRGVPPLSSTMLVGIRVLDINDNLEHHHHHH,227

运行命令:

python make_embeddings.py --out_dir ./embeddings --splits mydata/new.csv
python inference.py --model_dir ./pretrained_model --ckpt epoch_7.pt --pdb_dir ./structures --embeddings_dir ./embeddings --embeddings_key name --elbo --num_samples 5 --alpha 1 --beta 3 --elbo_step 0.2 --splits mydata/new.csv

预测的蛋白质结构,如下:

  • EigenFold 算法只能预测 CA 骨架,其余需要填充。
  • 黄色是 EigenFold 的预测结构,蓝色是真实的 PDB 结构 (7skh.B)。

即:

Img


2. 环境配置

下载 GitHub 工程:

git clone git@github.com:bjing2016/EigenFold.git

2.1 配置 Docker 环境

构建 Docker 环境:

nvidia-docker run -it --name eigenfold-[your name] -v [nfs path]:[nfs path] af2:v1.02

预先配置 Docker 环境中的 conda 源 与 pip 源,加速下载过程,参考 开源可训练的蛋白质结构预测框架 OpenFold 的环境配置

如果安装错误,清空 conda 环境,建议使用 rsync 快速删除,即:

mkdir tmp
rsync -a --delete tmp/ /opt/conda/envs/eigenfold
rm -rf /opt/conda/envs/eigenfold

配置 conda 环境,即:

# 安装 conda 环境
conda create -n eigenfold python=3.8
conda activate eigenfold

2.2 配置 PyTorch 系列包

安装 PyTorch,建议使用 conda 安装,而不是 pip 安装,参考 Installing Previous Versions of PyTorch 即:

# pip 安装异常,建议使用 conda 安装。
# pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch

预先测试 PyTorch 是否安装成功,即:

python

import torch
print(torch.__version__)  # 1.11.0
print(torch.cuda.is_available())  # True

再安装 PyTorch 相关包,一共 5 个包,即 torch-scattertorch-sparsetorch-clustertorch-spline-convtorch-geometric,建议逐个安装,排查问题,即:

pip install torch-scatter -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-sparse -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-cluster -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-spline-conv -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-geometric -f https://data.pyg.org/whl/torch-1.11.0+cu113.html

安装其他依赖包:

pip install e3nn pyyaml wandb biopython matplotlib pandas

2.3 配置 OmegaFold 依赖

安装 OmegaFold 依赖,即:

# 调用时,需要在 EigenFold 的根目录下。
wget https://helixon.s3.amazonaws.com/release1.pt
git clone https://github.com/bjing2016/OmegaFold
pip install --no-deps -e OmegaFold

注意需要预先下载 OmegaFold 的模型 release1.pt,大约 3 个 G左右。

OmegaFold GitHub: OmegaFold

This command will download the weight from https://helixon.s3.amazonaws.com/release1.pt to ~/.cache/omegafold_ckpt/model.pt and load the model

cd EigenFold
bypy info
bypy downfile /huggingface/eigenfold/omegafold-release1.pt model.pt

2.4 配置 TMScore 与 LDDT

安装 TMScore 与 LDDT,即:

mkdir /opt/bin
cd ~/bin

wget https://openstructure.org/static/lddt-linux.zip
unzip lddt-linux.zip
cp lddt-linux/lddt .
./lddt  # 测试

wget https://zhanggroup.org/TM-score/TMscore.cpp
g++ -static -O3 -ffast-math -lm -o TMscore TMscore.cpp
./TMscore  # 测试

export PATH="/opt/bin/:$PATH"

2.6 上传 Docker

提交 docker image,设置标签 (tag),以及上传 docker 至服务器,即:

# 提交 Tag
docker ps -l
docker commit [container id] eigenfold:v1.0

# 准备远程 Tag
docker tag eigenfold:v1.0 harbor.[ip].com/[your name]/eigenfold:v1.0
docker images | grep "eigenfold"

# 推送至远程
docker push harbor.[ip].com/[your name]/eigenfold:v1.0
# 从远程拉取
docker pull harbor.[ip].com/[your name]/eigenfold:v1.0

# 或者保存至本地
docker save eigenfold:v1.0 | gzip > eigenfold_v1_0.tar.gz
# 加载已保存的 docker image
docker image load -i eigenfold_v1_0.tar.gz
docker images | grep "eigenfold"

BugFix

Bug1: torch_sparse 版本不兼容问题。

RuntimeError: 
object has no attribute sparse_csc_tensor:
  File "/opt/conda/envs/eigenfold/lib/python3.8/site-packages/torch_sparse/tensor.py", line 520
            value = torch.ones(self.nnz(), dtype=dtype, device=self.device())
    
        return torch.sparse_csc_tensor(colptr, row, value, self.sizes())
               ~~~~~~~~~~~~~~~~~~~~~~~ <--- HERE

参考: torch has no attribute sparse_csr_tensor

torch-sparse 降级至 0.6.14 版本,即可:

conda list torch-sparse
# packages in environment at /opt/conda/envs/eigenfold:
#
# Name                    Version                   Build  Channel
torch-sparse              0.6.17                   pypi_0    pypi

pip install torch-sparse==0.6.14 -f https://data.pyg.org/whl/torch-1.11.0+cu113.html

Bug2: Python 3.9 新特性不兼容问题

TypeError: unsupported operand type(s) for |: 'dict' and 'dict'

原因:What’s New In Python 3.9

方案1是升级至 Python3.9 版本,方案2是修改源码,位于EigenFold/utils/pdb.py,即:

# d[key] = {'CA': 'C'} | {key: val['symbol'] for key, val in atoms.items() if val['symbol'] != 'H' and key != 'CA'}
dict1 = {'CA': 'C'}
dict2 = {key: val['symbol'] for key, val in atoms.items() if val['symbol'] != 'H' and key != 'CA'}
d[key] = {**dict1, **dict2}

其余参考:

  • Linux 下删除大量文件效率对比,看谁删的快!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/894169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows系统提权(二)

Windows系统服务漏洞 Always Install Elevated-总是以高权限安装 AlwaysInstallElevated是一个策略设置&#xff0c;当在系统中使用Windows Installer安装任何程序时&#xff0c;该参数允许非特权用户以system权限运行MSI文件。如果目标系统上启用了这一设置&#xff0c;我们…

Web菜鸟入门教程 - Swagger实现自动生成文档

如果是一个人把啥都开发了&#xff0c;那用不到Swagger-UI&#xff0c;但一般情况是前后端分离的&#xff0c;所以就需要告诉前端开发人员都有哪些接口&#xff0c;传入什么参数&#xff0c;怎么调用&#xff0c;返回什么。有了Swagger-UI就能把这部分文档编写的业务给省去了。…

抓洞指南- drupal1 代码执行 (CVE-2018-7600)

一个非常憨逼的事情&#xff0c;就是不知道flag在哪&#xff0c;然后突发奇想&#xff0c;既然把指令都能执行命令&#xff0c;如果直接ls /tmp,然后数据就拿到手了。这地方卡了我很久&#xff0c;看了很多教程感觉都不一样。 POST /user/register?element_parentsaccount/ma…

问道管理:沪指震荡微跌,保险、银行板块拉升,环保板块表现活跃

18日早盘&#xff0c;两市股指盘中震动回落&#xff0c;沪指翻绿&#xff0c;深成指、创业板指均走低&#xff1b;北向资金继续大幅流出&#xff0c;半日净卖出近50亿元。 截至午间收盘&#xff0c;沪指微跌0.06%报3161.97点&#xff0c;深成指跌0.69%&#xff0c;创业板指跌0.…

09 - 网络通信优化之序列化:避免使用Java序列化

当前大部分后端服务都是基于微服务架构实现的。服务按照业务划分被拆分&#xff0c;实现了服务的解偶&#xff0c;但同时也带来了新的问题&#xff0c;不同业务之间通信需要通过接口实现调用。两个服务之间要共享一个数据对象&#xff0c;就需要从对象转换成二进制流&#xff0…

216、仿真-基于51单片机温度烟雾人体感应布防报警Proteus仿真设计(程序+Proteus仿真+原理图+配套资料等)

毕设帮助、开题指导、技术解答(有偿)见文未 目录 一、硬件设计 二、设计功能 三、Proteus仿真图 四、原理图 五、程序源码 资料包括&#xff1a; 需要完整的资料可以点击下面的名片加下我&#xff0c;找我要资源压缩包的百度网盘下载地址及提取码。 方案选择 单片机的选…

【MT32F006】MT32F006之CS1237采集秤传感器

本文最后修改时间&#xff1a;2023年06月07日 一、本节简介 本文介绍如何使用MT32F006连接CS1237芯片采集秤传感器。 二、实验平台 库版本&#xff1a;V1.0.0 编译软件&#xff1a;MDK5.37 硬件平台&#xff1a;MT32F006开发板&#xff08;主芯片MT32F006&#xff09; 仿真…

北斗时空子链重磅发布!移远通信与中国移动携手打造更加可靠的高精定位产品

8月16日&#xff0c;以“百川聚申城 数智创未来”为主题的2023年中国移动上海产业研究院百川生态大会在上海隆重召开。 本次大会聚焦时空信息、数智交通、工业能源、金融科技等领域&#xff0c;各级领导、产学研专家、企业家共聚一堂&#xff0c;共谋产业、共话行业、共促发展。…

innovus: IMPSP-190 利用率超标,place中断问题

我正在「拾陆楼」和朋友们讨论有趣的话题&#xff0c;你⼀起来吧&#xff1f; 拾陆楼知识星球入口 这个问题在查看manual之后&#xff0c;工具给出两个解释。一个是setPlaceMode -place_global_max_density $value(0-1)设置的太小了&#xff0c;另一个是place之前加了过量的so…

飞凌嵌入式与您相约艾睿电子技术解决方案展

艾睿电子公司将在深圳主办年度“技术解决方案展”&#xff0c;2023 年展示会将以“启航未来&#xff0c;携手共进”为主题&#xff0c;汇聚百家电子/半导体大厂、制造商、供应商、方案公司及创科公司&#xff0c;展示最前沿的产品和领先技术解决方案&#xff0c;如何能驱动人、…

基于Spring Boot的餐厅订餐网站的设计与实现(Java+spring boot+MySQL)

获取源码或者论文请私信博主 演示视频&#xff1a; 基于Spring Boot的餐厅订餐网站的设计与实现&#xff08;Javaspring bootMySQL&#xff09; 使用技术&#xff1a; 前端&#xff1a;html css javascript jQuery ajax thymeleaf 微信小程序 后端&#xff1a;Java springbo…

从零玩转系列之微信支付实战PC端装修我的订单页面 | 技术创作特训营第一期

一、前言 欢迎来到本期的博客&#xff01;本篇文章是 PC 端的结尾了,前面经历过九个章节到本章节刚刚好十章节感谢观看我的文章,那么接下来我们将要编写的是我的订单页面. GGBOM! 本篇完毕后将是 UniApp 的篇章感受移动端的诱惑 &#x1f497; 本次为前端知识点如果不懂前段可以…

基于OpenCV的人脸识别和模型训练系统(万字详解)

前言 我们身边的人脸识别有车站检票&#xff0c;监控人脸&#xff0c;无人超市&#xff0c;支付宝人脸支付&#xff0c;上班打卡&#xff0c;人脸解锁手机。 人脸检测是人脸识别系统组成的关键部分之一&#xff0c;其目的是检测出任意给定图片中的包含的一个或多个人脸&#…

Echarts升级7:环状图+标题设置+legend属性

效果 注意的点&#xff1a; title样式颜色设置legend颜色设置legend textStyle 样式设置&#xff1b;formatter样式设置&#xff0c;文字拆分 代码&#xff1a; <template><div style"width: 100%; height: 100%;"><div id"siteStatusStatis…

使用python3编写代码比对excle表格中的日期

表格类似如下&#xff1a; 需要提取H列和I列的日期&#xff0c;并且进行日期分割&#xff0c;提取出日期&#xff0c;将日期倒置&#xff0c;倒置后&#xff0c;拿 关闭时间减去创建时间&#xff0c;得出超过3天的数据&#xff0c;提取出相应的行&#xff1a; # #-* -编码&…

【.net】本地调试运行只能用localhost的问题

【.net】本地调试运行只能用localhost的问题 解决方案 找到到项目目录下 隐藏文件夹 .vs /项目名称/config/applicationhost.config <bindings><binding protocol"http" bindingInformation"*:1738:localhost" /></bindings> 再加一条你…

期待相聚|2023 Google 谷歌开发者大会现场见

直达科技前沿 点亮技术灵感 激发新思妙想 收获多元共进 长按下方图片&#xff0c;扫码报名参会 *仅出于确认身份&#xff0c;请填写与身份证件一致的姓名&#xff0c;并确认邮箱地址及联系电话准确无误。 2023 Google 开发者大会主旨演讲将会分享 Google 如何通过更智能、更…

Harvard transformer NLP 模型 openNMT 简介入门

项目网址&#xff1a; OpenNMT - Open-Source Neural Machine Translation logo&#xff1a; 一&#xff0c;从应用的层面先跑通 Harvard transformer GitHub - harvardnlp/annotated-transformer: An annotated implementation of the Transformer paper. ​git clone http…

跟左神刷算法02 基础

题目1 先根据难度拍个序&#xff0c;难度一样的按收入大的排序&#xff0c;因为他每份都有招无数份人。难度相同的就留一个最大的。难度增加了&#xff0c;而薪水变小了&#xff0c;直接丢掉。难度和薪水保持一个单调性就可以了。 用有序表取做。 key是排序的。 迅速查到小于…

用gdal库读取tif影像并填充边缘,并根据窗口大小滑动裁剪裁剪(包含gdal转PIL)

相关文章 PIL&#xff0c;OPENCV之间的转换关系_pil cvtcolor(image)_番茄就要炒鸡蛋的博客-CSDN博客 python GDAL和PIL图像转换_gdal.readasarray和pil_llc的足迹的博客-CSDN博客 一、原始数据 二、分别读取数据 1、gdal读取的array 2、pil读取的array 三、 gdal转pil image …