PSP - 蛋白质-核酸复合物结构预测 RoseTTAFoldNA 算法框架 (Protein-RNA、Protein-DNA、RNA)

news2025/4/6 11:12:17

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/134208615

Paper: Accurate prediction of nucleic acid and protein-nucleic acid complexes using RoseTTAFoldNA

  • GitHub: RoseTTAFold2NA

RoseTTAFoldNA

蛋白质-核酸复合物 (Protein - Nucleic Acid Complexes),在生物学中发挥着关键作用。 尽管蛋白质结构预测方面,最近取得了相当大的进展,但是,与已知复合物没有同源性的蛋白质-核酸复合物的结构预测,在很大程度上是一个尚未解决的问题。RoseTTAFold2NA 将 RoseTTAFold 端到端深度学习方法,扩展到核酸和蛋白质-核酸复合物的建模。 已训练的网络 RoseTTAFoldNA,可以快速生成 3D 结构模型,并且对 蛋白质-DNA 和 蛋白质-RNA 复合物以及 RNA 三级结构进行置信估计。 在这三种情况下,置信预测的准确性,都比当前最先进的方法高得多。 RoseTTAFoldNA 应广泛用于模拟天然存在的 蛋白质-核酸 复合物的结构,以及设计序列特异性 RNA 和 DNA 结合蛋白。

David Baker 组的工作,作者 Minkyung Baek


1. Docker 配置

Docker 环境:

# 下载 glm-nvidia-pytorch-1.11.0-cu116-py3.tar
docker image load -i glm-nvidia-pytorch-1.11.0-cu116-py3.tar

nvidia-docker run -it --name rfna-v1 --shm-size 72G -v [nfs]/[nfs] glm:nvidia-pytorch-1.11.0-cu116-py3

glm:nvidia-pytorch-1.11.0-cu116-py3,比较稳定的 docker image ,建议作为 base image。

准备 GitHub 工程:

git clone https://github.com/uw-ipd/RoseTTAFold2NA.git
cd RoseTTAFold2NA

cd /nfs_beijing_ai/chenlong/workspace/rosettafold2na-by-chenlong

GitHub 加速代理:

https://gitclone.com/
https://ghproxy.com/
https://toolwa.com/github/

配置 Docker 环境中的 conda 源,即:

vim ~/.condarc

conda 清华源,添加:

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/free
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/pro
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  nvidia: https://mirrors.sustech.edu.cn/anaconda-extra/cloud
channel_priority: disabled
allow_conda_downgrades: true

conda 南方科技源 (速度很慢,建议与清华源合并使用),添加:

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/main
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/free
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/r
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/pro
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.sustech.edu.cn/anaconda/cloud
  msys2: https://mirrors.sustech.edu.cn/anaconda/cloud
  bioconda: https://mirrors.sustech.edu.cn/anaconda/cloud
  menpo: https://mirrors.sustech.edu.cn/anaconda/cloud
  pytorch: https://mirrors.sustech.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.sustech.edu.cn/anaconda/cloud
  nvidia: https://mirrors.sustech.edu.cn/anaconda-extra/cloud
channel_priority: disabled
allow_conda_downgrades: true

显示全部 channels:

conda config --show

配置 pip 源:

rm /opt/conda/pip.conf
rm /root/.config/pip/pip.conf
vim ~/.pip/pip.conf

[global]
no-cache-dir = true
index-url = http://mirrors.aliyun.com/pypi/simple/
extra-index-url = https://pypi.ngc.nvidia.com
trusted-host = mirrors.aliyun.com pypi.ngc.nvidia.com

2. 安装 Python 库

使用 yaml 安装,适合网络较好。或逐步安装 python 库,解决问题。

2.1 yaml 安装

安装 conda 环境,需要耐心等待:

conda env create -f RF2na-linux.yml

其中 RF2na-linux.yml,如下:

name: RF2NA
channels:
  - pytorch
  - nvidia
  - defaults
  - conda-forge
dependencies:
  - python=3.10
  - pip
  - pytorch
  - requests
  - pytorch-cuda=11.7
  - dglteam/label/cu117::dgl
  - pyg::pyg
  - bioconda::mafft
  - bioconda::hhsuite
  - bioconda::blast
  - bioconda::hmmer>=3.3
  - bioconda::infernal
  - bioconda::cd-hit
  - bioconda::csblast
  - pip:
    - psutil
    - tqdm

2.2 逐步安装 (速度较快)

单步创建环境,注意安装顺序:

ource ~/.bashrc
conda env list
conda create -y -n RF2NA python=3.10
conda activate RF2NA

conda install pip requests scipy
pip install psutil tqdm

# 优先安装 conda 的 python 库
conda install -y hmmer hhsuite==3.3.0 -c bioconda
conda install -y mafft blast infernal cd-hit csblast -c bioconda
# conda install dgl-cuda11.7 -c dglteam # 可选

# pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
# nvidia 下载较慢,建议使用 pip 安装 pytorch
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia --show-channel-urls
conda install pyg -c pyg

2.2.1 hhsuite 与 环境冲突

遇到冲突错误,即遇到 hhsuite==3.3.0 与环境冲突,无法安装,解决方法是使用不同的 docker image 即可,如下:

UnsatisfiableError: The following specifications were found to be incompatible with each other

建议使用 glm:nvidia-pytorch-1.11.0-cu116-py3 作为 docker 的 Base Image。

2.2.2 安装 dglteam (可选)

(可选) 安装 dgl 较慢,建议下载,再配置安装 dglteam,如下:

# dgl-cuda11.7       dglteam/linux-64::dgl-cuda11.7-0.9.1post1-py310_0
# dgl-cuda11.7-0.9.1post1-py310_0.tar.bz2, 约 220 M
# 下载链接:https://conda.anaconda.org/dglteam/linux-64
conda install ./dgl-cuda11.7-0.9.1post1-py310_0.tar.bz2

2.2.3 安装 PyTorch

使用 conda 安装 pytorch 较慢时,建议使用 pip 进行安装,速度较快。测试 PyTorch 是否可用:

conda install scipy
pip install psutil==5.8.0 tqdm
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2

即:

python

import torch
print(torch.__version__)  # 2.0.1+cu117
print(torch.cuda.is_available())  # True

2.2.4 安装 PyG

安装 pyg 包,也可以使用 pip 进行安装,参考 pytorch-geometric - Installation,即

pip install torch_geometric

# Optional dependencies:
pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-2.0.0+cu117.html

3. 测试

数据位置:/nfs_beijing_ai/bj-common-data/ods/uw-ipd/RoseTTAFold2NA/RNA/

建立蛋白质序列库的软链接,建议使用之前的下载:

ln -s [your folder]/uniref30 uniref30
ln -s [your folder]/bfd bfd
ln -s [your folder]/pdb100_2021Mar03 pdb100_2021Mar03

RNA 库安装:

# Rfam
cp [your folder]/RoseTTAFold2NA/RNA/Rfam/Rfam.cm.gz .
cp [your folder]/RoseTTAFold2NA/RNA/Rfam/Rfam.full_region.gz .
gunzip Rfam.cm.gz
gunzip Rfam.full_region.gz
cmpress Rfam.cm

# RNAcentral
cp [your folder]/RoseTTAFold2NA/RNA/RNAcentral/rfam_annotations.tsv.gz .
cp [your folder]/RoseTTAFold2NA/RNA/RNAcentral/id_mapping.tsv.gz .
cp [your folder]/RoseTTAFold2NA/RNA/RNAcentral/rnacentral_species_specific_ids.fasta.gz .
../input_prep/reprocess_rnac.pl id_mapping.tsv.gz rfam_annotations.tsv.gz
gunzip -c rnacentral_species_specific_ids.fasta.gz | makeblastdb -in - -dbtype nucl  -parse_seqids -out rnacentral.fasta -title "RNACentral"

# nt
ln [your folder]/RoseTTAFold2NA/RNA/nt nt

模型权重:

cp [your folder]/RoseTTAFold2NA/RNA/network/RF2NA_apr23.tgz .
tar xvfz RF2NA_apr23.tgz
ll -h weights/

测试命令:

bash ../run_RF2NA.sh rna_pred rna_binding_protein.fa R:RNA.fa
# bash run_RF2NA.sh example/rna_pred example/rna_binding_protein.fa R:example/RNA.fa

执行步骤如下:

  • 第1步执行:Running HHblits
  • 第2步执行:Running hhsearch
  • 第3步执行:Creating joint Protein/RNA MSA
  • 第4步执行:Running RoseTTAFold2NA to predict structures

预测日志如下:

Running on GPU
           plddt    best
RECYCLE  0   0.799  -1.000
RECYCLE  1   0.858   0.799
RECYCLE  2   0.870   0.858
RECYCLE  3   0.875   0.870
RECYCLE  4   0.877   0.875
RECYCLE  5   0.879   0.877
RECYCLE  6   0.877   0.879
RECYCLE  7   0.880   0.879
RECYCLE  8   0.879   0.880
RECYCLE  9   0.881   0.880
Done

输出效果,包括 蛋白质部分与 RNA 部分,如下:

Img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分享99个工作总结PPT,总有一款适合您

分享99个工作总结PPT,总有一款适合您 PPT下载链接:https://pan.baidu.com/s/1ETaGRUsTRRQq3i5PJUX7tA?pwd8888 提取码:8888 Python采集代码下载链接:采集代码.zip - 蓝奏云 黑金商务路演工作汇报PPT模板 古韵中国风财务计…

JavaSE java对象的比较

目录 1 问题提出2 元素的比较2.1 基本类型的比较2.2 对象的比较 3 对象的比较3.1 覆写基类的equal3.2 基于Comparble接口类的比较3.3 基于比较器比较3.4 三种方式对比 4 集合框架中PriorityQueue的比较方式5 总结 1 问题提出 上节课我们讲了优先级队列,优先级队列在…

汇编-字符串

字符串常量是用单引号或双引号括起来的一个字符序列 当以下面例子中的方式使用时,嵌入引号也是允许的: 正如字符常量以整数形式存放一样,字符串常量在内存中的存储形式为整数字节值的序列。例如, 字符串字面量“ABCD”包含四个字…

SPSS单样本K-S检验

前言: 本专栏参考教材为《SPSS22.0从入门到精通》,由于软件版本原因,部分内容有所改变,为适应软件版本的变化,特此创作此专栏便于大家学习。本专栏使用软件为:SPSS25.0 本专栏所有的数据文件请点击此链接下…

第25期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…

GEE:GEE中实现简单计算器

作者:CSDN _养乐多_ 本文记录了在 Google Earth Engine(GEE)上实现简单计算器的代码。 APP链接:https://949384116.users.earthengine.app/view/simplecalculator 文章目录 一、完整代码二、代码链接 一、完整代码 // 定义初始…

二十、泛型(1)

本章概要 基本概念 与 C 的比较 简单泛型 一个元组类库一个堆栈类RandomList 基本概念 普通的类和方法只能使用特定的类型:基本数据类型或类类型。如果编写的代码需要应用于多种类型,这种严苛的限制对代码的束缚就会很大。 多态是一种面向对象思想的泛…

预制构建生产管理系统

在建筑施工领域,预制构件的使用越来越广泛,它能够提高工程质量和施工效率,减少施工现场对环境的影响。通过凡尔码的二维码管理平台,系统从:生产过程、生产数据、生产计划、生产管理、成品交付等多个环节、工序和流程进…

mermaid学习第一天/更改主题颜色和边框颜色/《需求解释流程图》

mermaid 在线官网: https://mermaid-js.github.io/ 在线学习文件: https://mermaid.js.org/syntax/quadrantChart.html 1、今天主要是想做需求解释的流程图,又不想自己画,就用了,框框不能直接进行全局配置&#xff0…

如何助力机构单位提升运营效率?有什么靠谱的大数据管理平台?

随着数字化时代的到来,大数据管理平台已成为机构单位提高效率、优化资源配置的关键工具。其中,工单管理系统作为大数据管理平台的重要组成部分,对于机构单位运营的优化和提升具有举足轻重的地位。本文小编将为您介绍一款优秀的工单管理系统—…

Zygote进程通信为什么用Socket而不是Binder?

Zygote进程是Android系统中的一个特殊进程,它在系统启动时被创建,并负责孵化其他应用进程。它的主要作用是预加载和共享应用进程的资源,以提高应用启动的速度。 在Android系统中,常用的进程通信方式有以下几种: Intent…

概率论和数理统计(一)基本概念

前言 生活中对于事件的发生,可以概括为 确定现象:在一定条件下必然发生,如日出随机现象:在个别试验中其结果呈现出不确定性,在大量重复试验中其结果又具有统计规律的现象,称之为随机现象。 随机现象的特点&#xff…

独家分享 | BI零售数据分析模板,可视化,更易懂

“人、货、场”是零售数据分析的三大关键,只要能又快又透彻地掌握这三大关键的数据情况,即可为零售运营决策提供关键的数据支持,提高盈利、降低成本、优化采购库存结构等。奥威BI软件这套BI零售数据分析模板套装围绕“人、货、场”预设了数十…

低代码平台如火如荼,告诉我它具体能做什么?

目录 一、前言 二、低代码平台 三、低代码平台的优劣 四、低代码能解决哪些问题? 五、好用且强大的低代码平台 六、结语 一、前言 目前低代码平台如火如荼。这一新兴技术为企业提供了一种高效、灵活、快速开发应用程序的方法,并在短时间内取得了巨大成功…

游戏中找不到d3dx9_43.dll怎么办,教你快速解决方法

在计算机的世界里,我们经常会遇到一些让人头疼的问题。比如,有一天,小明正在玩他最喜欢的游戏,突然弹出了一个错误提示:“由于找不到d3dx9_43.dll,无法继续执行代码”。小明感到非常困惑,不知道这是什么意思…

【python VS vba】(5) 在python中使用xlwt操作Excel(待完善ing)

目录 1 什么是xlwt 2 导入xlwt 3 相关语法 3.1 创建新的workbook 3.2 创建新的sheet 3.3 保存workbook 4 python里表格的形式 4.1 矩阵 4.2 EXCEL的数据形式 完全等于矩阵的数字结构 4.3 python里矩阵 5 具体代码 5.1 代码 5.2 结果 5.3 要注意的问题 5.3.1 不能…

PostgreSQL manual

set path D:\DB\PostgreSQL\16\binconnect to database –h is host name -p is port number -d is database name -U is for user name psql -h localhost -p 5432 -d postgres -U postgresexport dump file 參考 pg_dump -h 192.168.1.1 -U uesername dbname > dbna…

项目实现思路-建设工程监理现场用表管理系统

项目实现思路-建设工程监理现场用表管理系统 文章目录 项目实现思路-建设工程监理现场用表管理系统1.架构(B/S)2.主要功能3.**技术细节**3.1 总体概要3.2 **技术细节之流程审批**3.3 **技术细节之电子签名和公章** 1.架构(B/S) 系…

期中成绩怎么发布?

作为一名老师,期中考试结束后,你可能正在为如何发布成绩而烦恼。传统的纸质方式不仅耗时而且容易出错,那么有没有一种方式可以让学生自助查询成绩呢?答案是肯定的。下面就为你介绍几种实用的方法,让成绩发布变得轻松又…

2024天津理工大学中环信息学院专升本机械设计制造自动化专业考纲

2024年天津理工大学中环信息学院高职升本科《机械设计制造及其自动化》专业课考试大纲《机械设计》《机械制图》 《机械设计》考试大纲 教 材:《机械设计》(第十版),高等教育出版社,濮良贵、陈国定、吴立言主编&#…