PSP - 蛋白质真实长序列查找 PDB 结构短序列的算法

news2025/1/11 20:08:08

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/134599076

在蛋白质结构预测的过程中,输入一般是蛋白质序列(长序列),预测出 PDB 三维结构,再和 Ground Truth 的 PDB 进行比较,GT 的 PDB 是实验测出,比真实的蛋白质序列要短,需要使用算法进行查找。

满足约束:PDB 结构序列的长度 小于 蛋白质序列的长度,并且是子集关系。

  • 黄色是 PDB 官网的结构
  • 蓝色是预测的全长序列的结构
  • 粉色是通过算法,截取的子结构

即:
效果

源码:

def match_sub_seq(seq_long, seq_short):
    """
    匹配序列子串,返回区间范围,一般用于长FASTA与短PDBSeq之间的预处理
    """

    def get_seq_max_idx(seq_l, seq_s):
        """
        序列匹配结果,返回连续最大索引
        """
        np = len(seq_l)
        nf = len(seq_s)
        res = [0] * np
        i, j = 0, 0
        same = 0
        is_next, next_i = True, 0
        while i < np:
            rp = seq_l[i]  # pdb 的 残基
            rf = seq_s[j]  # fasta 的残基
            if is_next:
                next_i = i + 1
                is_next = False
            if rp == rf:
                same += 1
                j += 1
            else:
                j = 0
                same = 0
                if seq_l[i] == seq_s[j]:
                    same += 1
                    j += 1
            if i < np:
                res[i] = max(same, res[i])
            i += 1
            if j >= nf:
                j = 0
                same = 0
            # 避免 "AAABCDEFGAB" 与 "AABCDEFG" 情况
            if rp != rf:
                i = next_i
                is_next = True
        return res

    nl, ns = len(seq_long), len(seq_short)
    size = 0
    gap_list = []  # 区间范围
    tmp_seq_short = seq_short

    # print(f"[Info] seq_long: {seq_long}")
    # print(f"[Info] seq_short: {seq_short}")
    prev_idx = 0
    while size < ns:
        # print(f"[Info] tmp_seq_short: {tmp_seq_short}")
        res = get_seq_max_idx(seq_long, tmp_seq_short)
        max_val = max(res)  # 最大索引值
        max_indices = [i for i, x in enumerate(res) if x == max_val]
        for j in sorted(max_indices):
            # print(j, prev_idx)
            if j <= prev_idx:
                continue
            else:
                max_idx = j
                break
        s_idx, e_idx = max_idx-max_val+1, max_idx+1
        prev_idx = e_idx
        gap_list.append([s_idx, e_idx])

        tmp_sub_long = seq_long[s_idx:e_idx]
        tmp_short = tmp_seq_short[:max_val]
        assert tmp_sub_long == tmp_short
        tmp_seq_short = tmp_seq_short[max_val:]
        size += max_val

    # 验证逻辑
    f_seq = ""
    for gap in gap_list:
        f_seq += seq_long[gap[0]:gap[1]]
    assert f_seq == seq_short
    return gap_list

从索引中,提取 PDB:

def extract_pdb_from_gap(pdb_path, output_path, gap_list):
    """
    从残基的 gap list 提取新的 PDB 文件
    """
    d3to1 = {'CYS': 'C', 'ASP': 'D', 'SER': 'S', 'GLN': 'Q', 'LYS': 'K',
             'ILE': 'I', 'PRO': 'P', 'THR': 'T', 'PHE': 'F', 'ASN': 'N',
             'GLY': 'G', 'HIS': 'H', 'LEU': 'L', 'ARG': 'R', 'TRP': 'W',
             'ALA': 'A', 'VAL': 'V', 'GLU': 'E', 'TYR': 'Y', 'MET': 'M'}
    d1to3 = invert_dict(d3to1)

    # chain_idx = 0
    atom_num_idx = 1
    res_seq_num_idx = 0
    pre_res_seq_num = ""   # 残基可能是52A
    chain_id_list = []

    out_lines = []
    line_idx = 0
    lines = read_file(pdb_path)
    res_ca_dict = dict()
    for idx, line in enumerate(lines):
        # 只处理核心行
        record_type = str(line[:6].strip())  # 1~6
        if record_type not in ["ATOM", "HETATM"]:
            continue
        record_type = "ATOM"
        line_idx += 1

        # 重新设置 atom_serial_num
        # atom_num = int(line[6:11].strip())  # 7~11
        atom_num = atom_num_idx
        atom_num_idx += 1

        # 替换为标准氨基酸
        residue_name = str(line[17:20].strip())  # 18~20
        if residue_name not in d3to1_ex:
            continue
        if residue_name in d3to1_ex and residue_name not in d3to1.keys():
            a = d3to1_ex[residue_name]
            residue_name = d1to3[a]

        # 不修改链名
        chain_id = str(line[21].strip())  # 22
        if chain_id not in chain_id_list:  # 更换链
            chain_id_list.append(chain_id)
            pre_res_seq_num = ""
            # chain_idx += 1
        # chain_id = chr(ord("A") + chain_idx - 1)

        # 重新设置 res_seq_num
        res_seq_num = line[22:27].strip()  # 23~26 \ 23~27
        if pre_res_seq_num != res_seq_num:  # 更换残基
            pre_res_seq_num = res_seq_num
            res_seq_num_idx += 1
            res_ca_dict[res_seq_num_idx] = False
        res_seq_num = res_seq_num_idx

        # 确保只有一个CA
        atom_name = str(line[12:16].strip())  # 13~16
        if atom_name == "CA":
            if res_ca_dict[res_seq_num]:
                print(f"[Warning] PDB res {res_seq_num} has more than one CA! ")
                continue
            else:
                res_ca_dict[res_seq_num] = True

        coordinates_x = str(line[30:38].strip())  # 31~38
        coordinates_y = str(line[38:46].strip())  # 39~46
        coordinates_z = str(line[46:54].strip())  # 47~54

        occupancy = str(line[54:60].strip())  # 55~60
        temperature_factor = str(line[60:66].strip())  # 61~66
        element_symbol = str(line[76:78])  # 77~78

        # 判断残基索引是否在 gap_list 中,其余保持不变
        is_skip = True
        for gap in gap_list:
            if gap[0] <= res_seq_num-1 < gap[1]:
                is_skip = False
        if is_skip:
            continue

        out_line = "{:<6}{:>5} {:^4} {:<3} {:<1}{:>4}    {:>8}{:>8}{:>8}{:>6}{:>6}          {:>2}".format(
            str(record_type), str(atom_num), str(atom_name), str(residue_name),
            str(chain_id), str(res_seq_num),
            str(coordinates_x), str(coordinates_y), str(coordinates_z),
            str(occupancy), str(temperature_factor),
            str(element_symbol)
        )
        out_lines.append(out_line)

    create_empty_file(output_path)
    write_list_to_file(output_path, out_lines)


def truncate_pdb_by_sub_seq(pdb_path, sub_seq, output_path):
    """
    根据子序列提取新的 PDB 文件
    """
    seq_str, n_chains, chain_dict = get_seq_from_pdb(pdb_path)
    pdb_seq = list(chain_dict.values())[0]
    try:
        gap_list = match_sub_seq(pdb_seq, sub_seq)
    except Exception as e:
        print(f"[Warning] input sub_seq is not pdb sub seq! {pdb_path}")
        return output_path
    extract_pdb_from_gap(pdb_path, output_path, gap_list)

    # 验证逻辑
    seq_str, n_chains, chain_dict = get_seq_from_pdb(output_path)
    new_seq = list(chain_dict.values())[0]
    assert new_seq == sub_seq, print(f"[Error] new_seq: {new_seq}, sub_seq: {sub_seq}")

    return output_path

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1246953.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024深圳电子展,加快粤港澳电子信息发展,重点打造“湾区经济”

在“十四五”期间&#xff0c;中国电子信息产业面临着新形势和新特点。随着国家对5G、人工智能、工业互联网、物联网等“新基建”的加速推进&#xff0c;以及形成“双循环”新格局的形势&#xff0c;新型显示、集成电路等产业正在加速向国内转移。这一过程不仅带来了新的应用前…

日常生活小技巧 -- Win10 系统安装 Linux 子系统

最新要在win10系统安装linux子系统&#xff0c;看一下教程。 参看&#xff1a;Win10 系统安装 Linux 子系统教程(WSL2 Ubuntu 20.04 Gnome 桌面 &#xff09; 1、开启开发人员模式 2、适用于linux的Windows子系统 勾选下图三个选项&#xff0c;重启。 3、安装 Ubuntu 创建…

centos系统下,docker安装sqlserver并用本地Navicat连接

文章目录 一&#xff0c;centos下安装docker二&#xff0c;docker安装sqlserver20192.1 安装遇到的问题2.1.1 修改用户名进不去数据库2.1.2 安装2022版的sqlserver发现启动失败 三&#xff0c;Navicat连接centos下的sqlserver3.1 下载ODBC Driver 参考微软网址&#xff1a; 使…

ELK企业级日志分析平台——elasticsearch

集群部署 文档&#xff1a;https://www.elastic.co/guide/en/elasticsearch/reference/7.6/index.html 下载&#xff1a;https://elasticsearch.cn/download/ 主机 ip 角色 k8s1 192.168.92.11 cerebro elk1 192.168.92.31 elasticsearch elk2 192.168.92.32 elasti…

U9二次开发之轻量服务项目开发

最近公司要开发一个下载图纸的U9轻量级接口&#xff0c;轻量级接口就是restful api&#xff0c;可以直接通过get、post等方式调用&#xff0c;参数的传送和结果的返回都使用JSON格式&#xff0c;用起来比Webservice接口爽多了。 如果是开发新的接口&#xff0c;我建议都用轻量…

java springboot测试类虚拟MVC环境 匹配返回值与预期内容是否相同 (JSON数据格式) 版

上文java springboot测试类鉴定虚拟MVC请求 返回内容与预期值是否相同我们讲了测试类中 虚拟MVC发送请求 匹配返回内容是否与预期值相同 但是 让我意外的是 既然没人骂我 因为我们实际开发 返回的基本都是json数据 字符串的接口场景是少数的 我们在java文件目录下创建一个 dom…

系列二、IOC DI

一、IOC 1.1、概述 IOC的中文意思是控制反转&#xff0c;通俗地讲就是把创建对象的控制权交给Spring去管理&#xff0c;以前是由程序员自己去创建、控制对象&#xff0c;现在交由Spring去创建对象 & 管理对象&#xff08;维系对象之间的关系&#xff09;&#xff0c;使用I…

软件测试简历怎么编写项目经历?

概述 工作这10多年来&#xff0c;也经常做招聘的工作&#xff0c;面试过的人超过50人次了&#xff0c;而看过的候选人的简历则有几百份了&#xff0c;但是清晰且能突出重点的简历&#xff0c;确实很少遇到。 这里基本可以说明一个问题&#xff0c;很多候选人是不太清楚如何写…

python+gurobi求解线性规划、整数规划、0-1规划

文章目录 简单回顾线性规划LP整数规划IP0-1规划 简单回顾 线性规划是数学规划中的一类最简单规划问题&#xff0c;常见的线性规划是一个有约束的&#xff0c;变量范围为有理数的线性规划。如&#xff1a; 使用matlab的linprog函数即可求解简单的线性规划问题&#xff0c;可以参…

CentOS7磁盘挂载

1 引言 本文主要讲述CentOS7磁盘挂载相关知识点和操作。 2 磁盘挂载 步骤1&#xff1a; 查看机器所挂硬盘及分区情况 fdisk -l查询结果&#xff1a; 由上图可以看到该结果包含&#xff1a;硬盘名称、硬盘大小等信息。 属性解释说明Disk /dev/vda硬盘名称53.7G磁盘大…

代码随想录算法训练营第四十五天【动态规划part07】 | 70. 爬楼梯 (进阶)、322. 零钱兑换、279.完全平方数

70. 爬楼梯 &#xff08;进阶&#xff09; 题目链接&#xff1a; 题目页面 求解思路&#xff1a; 动规五部曲 确定dp数组及其下标含义&#xff1a;爬到有i阶楼梯的楼顶&#xff0c;有dp[i]种方法递推公式&#xff1a;dp[i] dp[i-j];dp数组的初始化&#xff1a;dp[0] 1;确…

h5小游戏-盖楼游戏

盖楼游戏 一个基于JavaScrtipt、Html5 的盖楼游戏 效果预览 点我下载源代码 Game Rule 游戏规则 以下为默认游戏规则&#xff0c;也可参照下节自定义游戏参数 每局游戏生命值为3&#xff0c;掉落一块楼层生命值减1&#xff0c;掉落3块后游戏结束&#xff0c;单局游戏无时间限…

机器学习算法——聚类算法

目录 1. 概述2. K-MEANS算法2.1 工作流程2.2 代码实践2.3 Mini Batch K-Means2.4 存在问题2.5 K-MEANS可视化 3. DBSCAN算法3.1 基本概念3.2 工作流程3.3 代码实践3.4 DBSCAN算法可视化 1. 概述 聚类算法是一种无监督学习方法&#xff0c;用于将数据集中的对象分组或聚集成具有…

今日现货白银价要素分析

现货白银市场每天走势图上的K线&#xff0c;都是由开盘价、收盘价、最高价、最低价四个价格要素组成。K线作为一种特殊的市场语言&#xff0c;不同具体的形态有不同的含义&#xff0c;当收盘价高于开盘价就形成阳线&#xff0c;反之就形成阴线。 如果阳线出现在银价盘整或行情下…

多线程Thread(初阶三:线程的状态及线程安全)

目录 一、线程的状态 二、线程安全 一、线程的状态 1.NEW Thread&#xff1a;对象创建好了&#xff0c;但是还没有调用 start 方法在系统中创建线程。 2.TERMINATED&#xff1a; Thread 对象仍然存在,但是系统内部的线程已经执行完毕了。 3.RUNNABLE&#xff1a; 就绪状态&…

红酒按照糖含量怎么分类?

我们常听人们形容葡萄酒为干型或甜型&#xff0c;这指的是葡萄酒的含糖量。不含糖就是干型&#xff0c;含糖少就是半干型&#xff0c;含糖多就是甜型&#xff0c;这是葡萄酒分类的一种——按糖量分。云仓酒庄的品牌雷盛红酒分享一般分为干型、半干型、半甜型、甜型四种。 云仓…

朋友在阿里测试岗当HR,给我整理的面试总结

以下是软件测试相关的面试题及答案&#xff0c;欢迎大家参考! 1、你的测试职业发展是什么? 测试经验越多&#xff0c;测试能力越高。所以我的职业发展是需要时间积累的&#xff0c;一步步向着高级测试工程师奔去。而且我也有初步的职业规划&#xff0c;前3年积累测试经验&…

数据结构:二叉查找树,平衡二叉树AVLTree,红黑树RBTree,平衡多路查找数B-Tree,B+Tree

二叉查找树 二叉树具有以下性质&#xff1a;左子树的键值小于根的键值&#xff0c;右子树的键值大于根的键值。 对该二叉树的节点进行查找发现深度为1的节点的查找次数为1&#xff0c;深度为2的查找次数为2&#xff0c;深度为n的节点的查找次数为n&#xff0c;因此其平均查找次…

单片DC-DC变换集成电路芯片B34063,可兼容型号MC34063A。工作电压范围宽。静态电流小,具有输出电流限制功能输出电流保护功能

B34063为一单片DC-DC变换集成电路&#xff0c;内含温度补偿的参考电压源(1.25V)、比较器、能有效限制电流及控制工作周期的振荡器,驱动器及大电流输出开关管等&#xff0c;外配少量元件&#xff0c;就能组成升压、降压及电压反转型DC-DC变换器。 主要特点&#xff1a; ● 工作…

APP软件外包开发需要注意的问题

在进行APP软件开发时&#xff0c;有一些关键问题需要特别注意&#xff0c;以确保项目的成功和用户满意度。以下是一些需要注意的问题&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 清晰的需求定义&a…