蛋白质功能预测论文阅读记录2025(DPFunc、ProtCLIP)

news2025/4/21 15:34:24

前言

最近研究到瓶颈了,怎么优化都提升不了,遂开始看点最新的论文。

DPFunc

2025.1.2 Nature Communication 中南大学

论文地址:DPFunc: accurately predicting protein function via deep learning with domain-guided structure information | Nature Communications

github仓库:CSUBioGroup/DPFunc

数据集:PDB(被认为test与train的序列相似度较高,在review中被指出)、CAFA3(在论文中说的是large_scale dataset)

使用蛋白质序列、结构、结构域数据

模型结构:

非常清晰的模型结构,序列特征用的ESM-1b,结构特征提取用的GCN,结构域用的Embedding,最后使用MLP分类

建图依然是接触图

融合的交叉注意力是值得关注的地方,这里用的domain作为Q,序列+结构作为K、V,主观感觉十分合理

另一个值得关注的地方是关键残基的预测算法:(论文中还有几个蛋白质的实例分析,非常细节)

 简单来说就是,先按照每个残基位置的注意力得分进行排序,然后根据下图的方法选择。

结果:

PDB数据集:(虽然总标签数少,但结果也相当不错了)

CAFA3数据集:(结果有所下降,毕竟标签数有28000+个)

ProtCLIP

2024.12.28 还在arxiv上AAAI  浙江大学

论文地址:[2412.20014] ProtCLIP: Function-Informed Protein Multi-Modal Learning

github仓库:diaoshaoyou/ProtCLIP

该模型是利用蛋白质序列和蛋白质相关的描述文本进行对比学习预训练,然后再做下游任务预测,在22个下游任务中都取得了sota,相当nb

使用的数据是自己整理的两个数据集,ProtAnno-S和ProtAnno-D。

其中S数据集是量比较少,数据置信度高,D数据集是数据密集,但置信度稍低于S

模型结构:

序列特征提取用的ESM2-650M,蛋白质文本描述特征提取使用的PubMed-BERT

论文中定义了一个蛋白质簇u的Property属性P,C表示置信度、R表示覆盖率(文中的这个覆盖率定义还不是很清晰,看起来就是某个簇在总集中的占比吧)、N表示簇的大小

在选取训练数据时,根据这个P值作为概率分布来进行数据采样

预训练有四个任务loss,GC、MLM、PDA和BSR

GC就是普通的CLIP对比学习损失,MLM就是对文本mask重建的损失。

PDA(Property-Grouped Dynamic Segment Alignment)

直译就是根据文本属性(比如蛋白质名、功能、用途之类的描述)分组,然后动态区间对齐。按照论文的意思,就是蛋白质的每个氨基酸和文本中的原型(大概就是聚类的文本含义)求相似度,过一个阈值,把每个原型对应的相似度和蛋白质氨基酸求点积,得到每个原型的得分,最后再来对齐。

大致公式如下:(其实和对比学习损失差不多)

 这里的公式似乎有些问题,不是求集合,而是求点积(按照示例图的含义)

BSR(Biotext-guided Static Segment Reconstruction)

直译就是基于生物文本引导的静态区间重建

它首先在蛋白质序列上进行区间采样,每次选一个长度为L(在5~10之间均匀分布)的区间(与之前的区间不重叠),直到采样区间总长度达到蛋白质序列总长度的15%。

然后把这些采样的区间mask之后,用生物文本的特征来重建这些区间,使用的交叉注意力+MLP+GELU,最后重建结果用以下的损失函数:

其实就是对每个mask位置的预测做一个交叉熵损失,求一个平均值。

下游任务表现

各个下游任务的模型结构:

蛋白质功能预测

相当恐怖的结果,在BP上能够达到0.567的AUPR,但在CC上却没有特别高,之前的论文在CC的Fmax一般都能上0.6(例如Domain-PFP),可能是下游模型比较简单,所以结果并不高。

另外一个值得注意的点,论文并没有明确指出使用的GO数据集,因为其本身的训练数据也很大,不好说是否训练集是否包含测试信息。

前SOTA ProtST论文地址2301.12040,用的方法和数据也是和这篇论文类似的,具有可比性。

突变效应预测

既然都看了这么多了,就不拘泥于蛋白质功能预测这一个任务指标,看看其他任务的表现

突变效应预测属于回归任务,使用的数据集是two vs many和human(与FLIP论文相同)

使用的是5个landscape的Spearman相关系数来衡量预测结果,分别是:

β-lactamase酶相关的特性、腺病毒相关特性、热力学特性、荧光性、稳定性

根据图例,应该是找一个位点,突变成不同的氨基酸,然后预测各个突变的fitness值

不过确实没看懂这个预测的是什么东西,怎么来的数据,论文也没细讲(我也没怎么了解过,之后多看点这方面的论文吧)

跨模态转移

这个就相对好懂一些,也是比较类似对比学习的相似性计算,不过这个衡量标准是MRR(推荐系统的常用指标)(这个图的match就是MRR的计算)。

(右图来自poe)

语义相似性预测

这个是检测biotext-encoder性能的实验

通过biotext-encoder对GO标签计算embedding,然后计算他们之间的曼哈顿距离

然后和GO标签之间的林相似度作比较,计算spearman系数(没想到之前IC值计算里面的困惑居然在这里解决了

(图来自poe)

由于出现了太多次spearman系数,还是复习一下:

(图来自poe)

在这里是用来计算预测值和ground truth值的相关性的

计算两个相似度矩阵的spearman相关系数流程其实也是一样的,求得每个矩阵位置的预测值、真实值各自的大小排名,然后把每个位置的排名差值平方加起来,最后归一化。

至于归一化系数为什么是6/(n(n^2-1))

考虑最坏情况,两个序列完全相反,1~n对应n~1,Σdi^2则是Σ(i-(n-i+1))^2   (i -> 1~n)

=Σ(n-2i+1)^2

=2n(n+1)(2n+1)/3​−(n^3+2n^2+n)  (这里跳过了一大堆运算化简)

=(4n^3+6n^2+2n-3n^3-6n^2-3n)/3 = (n^3-n)/3 = n*(n^2-1)/3

Σdi^2最大取值就是上述式子,所以为了把spearman系数转换到[-1,1]区间中,我们用公式1-6/(n(n^2-1))*Σdi^2进行了归一化和转换,1表示正相关性,-1表示负相关性

PPI预测

这个就是连接预测任务了,没什么好说的

用的数据集是SHS27K、SHS148K、STRING,其实提升并不大

消融实验

这里的下游指标就只用了EC标签分类和Prot2MF模态跨转移

消融的目标是预训练数据集和预训练任务,可以看到PDA任务影响很大,ProtAnno-S(高质量数据集)的影响也较大。

有点奇怪的是这里的EC分类效果比前面对比实验的效果低了许多

最后还对loss权重进行了消融,没想到loss权重对训练效果的影响这么大

个人总结

这篇论文确实很好,可惜代码还没有开源,只有一个空仓库

用protein-biotext的预训练完成了下游任务的各项提升,尤其对类别众多的bp标签分类任务提升很大,已经跳出了用蛋白质本身信息端到端地预测蛋白质功能的传统方法。

除此之外,各种预训练的任务设计也很巧妙(或许这些方法在多模态学习领域已经见怪不怪了,但是对于我这种只在一个领域研究的来说,确实开拓了我的视野。只能说,不要闭门造车,还得多读、多看、多实践

缺点就是,64张V100跑了10000个GPU小时,可能很少有实验室有复现的算力资源,而且如此繁杂的数据搜集整理以及下游任务,感觉一个人很难完成吧,应该是一个团队合力做出来的项目。

另外使用的下游蛋白质功能预测的数据集还不知道具体情况,等出了代码看看能不能对比。

本来说简写一点,结果快写成ProtCLIP的专门介绍了

后续有空会继续更新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2314737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

主流向量数据库对比

在 AI 的 RAG(检索增强生成)研发领域,向量数据库是存储和查询向量嵌入的核心工具,用于支持高效的语义搜索和信息检索。向量嵌入是文本或其他非结构化数据的数值表示,RAG 系统通过这些嵌入从知识库中检索相关信息&#…

54.HarmonyOS NEXT 登录模块开发教程(八):测试与调试技巧

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT 登录模块开发教程(八):测试与调试技巧 文章目录 HarmonyOS NEXT 登录模块开发教程(…

在Simulink中将Excel数据导入可变负载模块的方法介绍

文章目录 数据准备与格式要求Excel数据格式MATLAB预处理数据导入方法使用From Spreadsheet模块(直接导入Excel)通过MATLAB工作区中转(From Workspace模块)使用1-D Lookup Table模块(非线性负载映射)Signal Builder模块(变载工况导入)可变负载模块配置注意事项与调试在S…

动手学强化学习-记录

3.5 蒙特卡洛方法 统计每一个状态s出现的总次数和总回报,用大数定律,总回报/总次数≈状态s的期望回报 第4章 动态规划算法 策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数,这是一个动 态规划的过程;而价值迭代直接使用贝尔曼最…

阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台

阿里云操作系统控制台评测:国产AI运维 一站式运维管理平台 引言 随着云计算技术的飞速发展,企业在云端的运维管理面临更高的要求。阿里云操作系统控制台作为一款集运维管理、智能助手和系统诊断等多功能于一体的工具,正逐步成为企业高效管理…

C++中的const与类型转换艺术

目录 强制转换 static_cast const_cast reinterpret_cast dynamic_cast const关键字 修饰内置类型* 修饰指针类型* 类比 数组指针 指针数组 函数指针 指针函数 强制转换 C语言中的强制转换在C代码中依然可以使用,这种C风格的转换格式非常简单 TYPE a …

特辣的海藻!10

基础知识点 1.清除换行符 scan.nextInt()要加scan.nextLine()清楚换行符。 2.Map.Entry<K, V> Map.Entry是Map接口的嵌套接口&#xff0c;表示一个键值对&#xff08;Key-Value&#xff09; 常用方法&#xff1a; entry.getKey()&#xff1a;获取键 …

sqli-lab靶场学习(八)——Less26-28

前言 25关已经出现了初步的一些关键字过滤&#xff0c;通过双写可以绕过。后面的关卡&#xff0c;我们会遇到更多关键字过滤&#xff0c;需要各种技巧绕过。 Less26 第26关写了会过滤空格和注释符。有很多的答案&#xff0c;会用%a0替代空格&#xff0c;但据说这是sqli-labs部…

双指针算法专题之——复写零

文章目录 题目介绍思路分析异地复写优化为就地复写 AC代码 题目介绍 链接: 1089. 复写零 思路分析 那么这道题我们依然可以使用双指针算法来解决 异地复写 先不考虑题目的要求&#xff0c;直接就地在原数组上修改&#xff0c;可能不太好想&#xff0c;我们这里可以先在一个…

python-leetcode-子数组最大平均数 I

643. 子数组最大平均数 I - 力扣&#xff08;LeetCode&#xff09; 可以使用滑动窗口&#xff08;Sliding Window&#xff09;的方法来解决这个问题。具体步骤如下&#xff1a; 先计算数组 nums 中前 k 个元素的和 sum_k&#xff0c;作为初始窗口的和。然后滑动窗口&#xff0…

【度的数量——数位DP】

题目 分析 数位DP可以解决“区间内满足某种性质的数的个数”的问题 通常按照数位分支&#xff0c;形成一颗数位树 最左分支的值由上界值决定&#xff0c;右分支可以直接计算权重 有可能最左分支会有一个权重 代码 #include <bits/stdc.h> using namespace std;cons…

搭建阿里云专有网络VPC

目录 一、概述 二、专有网络vpc 2.1 vpc基本信息 2.2 vpc资源管理 2.3 vpc网段管理 三、交换机 四、NAT网关 4.1 绑定弹性公网IP 4.2 NAT网关信息 4.3 绑定的弹性公网IP 4.4 DNAT 4.5 SNAT 五、弹性公网IP 六、访问控制ACL&#xff08;绑定交换机&#xff09; 6…

windows系统,pycharm运行.sh文件

博主亲身试验过&#xff0c;流程简单&#xff0c;可用。 需要pycharm &#xff0c;git。 注意需要Git Bash.exe &#xff0c;也就是Git Bash的应用程序&#xff0c;而不是快捷方式。 需要把这个应用程序的路径复制一下。可以通过右键&#xff0c;复制文件地址的方式。 接着在…

论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】

本文主要介绍主流代码生成模型&#xff0c;总结了基于代码生成的大语言模型&#xff0c;按照时间顺序排列。 在了解代码大语言模型之前&#xff0c;需要了解代码相关子任务 代码生成 文本生成代码(Text to code):根据自然语言描述生成代码 重构代码&#xff08;Refactoring …

Unity Timeline 扩展

这里认为大家已经会timeline的基本使用了&#xff0c;只介绍怎么自定义扩展。 第一步.自定义Track 首先要自定义一条轨道。剪辑是要在轨道里跑的&#xff0c;系统自带的轨道我们加不了自定义剪辑&#xff0c;得新建自己用的。这个很简单。 [TrackClipType(typeof(TransformTw…

qt介绍信号槽一

信号和槽时qt框架中事件处理的一种机制&#xff0c;qt是基于窗口框架的程序&#xff0c;基于窗口框架额程序都是基于事件的&#xff0c;本质信号对应的就是一个事件&#xff0c;槽对应事件处理的动作。信号槽机制类似于设计模式力的观察者模式。观察者模式就是我一直观察是否有…

【linux】解决 Linux 系统中 root 用户无法打开图形界面问题

【linux】解决 Linux 系统中 root 用户无法打开图形界面问题 问题描述&#xff1a; 在 Linux 系统中&#xff0c;当我们远程SSH尝试以 root 用户身份运行需要图形界面的应用程序时&#xff0c;可能会遇到以下错误信息&#xff1a; MoTTY X11 proxy: Unsupported authorisati…

【开源项目-爬虫】Firecrawl

看到其他项目引用了这个项目 Firecrawl 用免费额度试了一下&#xff0c;这个项目和之前的 https://r.jina.ai/ 很像&#xff08;类似的还有 https://www.scrapingbee.com/&#xff1f;&#xff09;&#xff0c;将爬取到的网页转换为 markdown 格式&#xff0c;这样大语言模型用…

【已解决】电脑空间告急?我的 Ollama、Docker Desktop软件卸载清理全记录

一、卸载 Ollama、Windows SDK 和 Docker Desktop的原因 最近电脑总提示空间不足&#xff0c;前段时间想本地部署大模型而安装的 Ollama、多个 Windows SDK 以及暂时用不到的 Docker Desktop 占用了不少空间。果断动手卸载&#xff0c;现在把过程整理成博客&#xff0c;分享给同…

便利店商品推荐数字大屏:基于python和streamlit

基于python和streamlit实现的便利店商品推荐大屏&#xff0c;针对选择困难症消费者。 import streamlit as st import pandas as pd import numpy as np import altair as alt from datetime import datetime, timedelta import time# 模拟数据生成 def generate_data():np.ra…