上海交大周冰心博士:锚定稀缺生物数据挑战,图神经网络重塑蛋白质理解与生成

news2024/11/15 10:58:21

8 月 12 日,上海交通大学 AI for Bioengineering 暑期学校正式开幕,吸引了来自国内外 30 余所高校和 27 家企业的百余名业内人士。在为期 3 天的学习交流中,多位行业专家、企业界代表及优秀青年学者,围绕 AI 与生物工程的融合与创新发展带来了深度分享。

12 日上午,上海交通大学自然科学研究院 & 上海国家应用数学中心(上海交通大学分中心)助理研究员周冰心以「人工智能的前世今生」为主题, 生动形象地为大家梳理了 AI 的发展历程,并总结了里程碑模型的特点。

下午,在「人工智能前沿进展」的特邀专家报告中,周冰心博士还以「图神经网络与蛋白质结构表征」为主题, 向大家分享了图神经网络的定义、优势、及其在蛋白质预测与生成等领域的前沿应用。HyperAI超神经在不违原意的前提下,对周冰心博士的这个主题分享进行了整理汇总,以下是演讲实录。

经过几十年的高速发展,深度学习已经出现了卷积神经网络、递归神经网络、Transformer 等各种模型,可被用于处理具有不同特征的数据。其中,由于可以输入和处理结构数据,图神经网络被广泛应用到社交网络、轨迹预测、分子建模等多种场景。

然而,很多人认为图神经网络就是图卷积网络 (GCN),它无法拟合复杂的函数,多叠几层还会出现过平滑问题,存在很多局限性。此外,既然基于 Transformer 的大模型在大数据集上具有强大的学习能力,那为什么还要持续研究和发展图神经网络?

对于这些疑问,我把答案总结为:「It’s SEXY」。

第一「S」,基于图神经网络的研究是健康、可持续的。 如下图所示,对比人类各种行为的碳消耗可以得到,大模型拥有强大能力的前提是巨大的能源消耗。另外,过分集中计算资源和研究重心到大模型上,也会挤占其他模型研究的生存空间,长此以往,只有那些垄断计算资源或话语权的大公司才能维持人工智能研发,非大公司研究人员的科研空间将受到极大限制。

在这里插入图片描述

第二「E」,自然科学数百年的积累不应被人工智能的快速发展所忽视,图神经网络除了学习特征表示,还能优雅地加入来自人类的先验知识(归纳偏差)。 此外,和其他数据驱动的模型相比,图神经网络背后还有更多的理论支持,比如信号处理、社会动力学等。

第三「X」,图神经网络有助于推动深度学习网络的可解释性。 随着人工智能的发展,人们越来越关注模型结果的意义与合理性,通过深入研究图神经网络可解释性,能够更好地理解模型决策背后的逻辑与依据,提升模型的可靠性与信任度。

第四「Y」,图神经网络作为一个年轻且快速发展的领域,仍存在大量未解决的问题与挑战,为研究人员提供了广阔的探索空间。 此外,就像卷积神经网络对于图像处理,自注意力机制对于自然语言处理,图神经网络在也将为生物学上的很多问题(尤其是数据量不足、先验知识重要的问题)提供好的解决方案。

接下来我将从分子数据与图表征、经典图神经网络简介、图神经网络与更多生物学问题这 3 个方面来给大家分享图神经网络的具体应用价值。

分子数据与图表征:生物数据图形化的 3 个组成元素

想要把一个生物学数据转换成图表示,首先要回答:图是什么,它由哪些基本元素组成。通常来说,一个图包含 3 个元素:节点;边(节点之间的连接关系);图(由节点和边共同构成的完整主体)。

我们如何使用这 3 个元素来定义生物学中的研究对象呢?下图有 4 个案例:

在这里插入图片描述

对于一个小分子(图), 每个原子可定义为一个节点,原子间的距离关系或化学键关系可用边来表示。

如果从氨基酸层面观察蛋白质, 可以把蛋白质整体视为一个图,每个氨基酸作为图中的一个节点。当不同氨基酸在空间位置上较为接近时,可假定它们之间存在某种相关性,并通过边将这些空间上相近的氨基酸节点连接起来。

类似地,如果以二级结构为基本单元来观察蛋白质, 则每个二级结构在蛋白质图中可作为一个节点,其相邻或空间距离较近的二级结构通过边来连接。

最后,对于疾病知识图谱, 不同疾病、基因、用药及患者等元素均可视为节点,节点之间的连接代表它们之间的复杂关系,如某种药物能治疗特定疾病,或某个基因导致某种疾病等。

在定义出一个图之后,下一步需要考虑如何描述图上的信息,比如节点和边的特征?

如下图所示,4 个节点间存在一定的相互关系,为准确刻画这些关系,可以定义一个邻接矩阵 A。 在处理不同生物数据时,邻接矩阵可用来表征原子之间是否存在共价键,或确定某一氨基酸的 k 阶邻居。

在这里插入图片描述

此外,每个节点和边都可以附带一系列属性。 以氨基酸节点为例,节点属性可包括其类型、物理化学性质等特征信息。边作为连接节点的桥梁,同样可以承载特征信息,比如每条边上的特征向量,涵盖 2 个氨基酸间的距离(包括序列距离和空间距离)、边建立的依据(基于空间结构或原子化学键等),这些边特征为理解节点间关系提供了更细致和深入的视角。

总结来说,每一个有结构的主体(比如一个蛋白质)都可以被表示成一个图, 如下图所示:可以使用 G 表示图,v 表示节点,ε 表示边,Xv 表示节点上的特征,邻接矩阵 A 表示节点连接情况,Xe 表示边的特征。

在这里插入图片描述

基于图的 3 个基本元素(节点、边、图),可以对图上的向量表征和预测任务进行分类,如下:

  • 节点预测 (node-level prediction)。 比如做蛋白质序列设计,即在已知蛋白质图的情况下,预测图中每个节点所代表的氨基酸类型。

  • 连接预测 (link prediction)。 在给定图和所有节点的前提下,推断节点间是否存在相互关系,比如基因调控网络、药物知识图谱等预测任务。

  • 图预测 (graph-level prediction)。 在节点与边均确定的情况下,同步对多个图进行学习和分析,从而对每个图的标签进行预测。

什么是图神经网络:不止GCN,还有GAT、GraphSAGE、EGNN,以及更多

图神经网络是在给定节点间连接关系的基础上,去寻找每个节点隐层表示,给每个节点找一个向量表示。相较于其他类型的数据,图最大的特征是它能够明确指示哪些节点之间存在直接关联,以及不同节点间关系的紧密程度。所以图神经网络的本质就在于运用这些归纳偏差,并在相连节点之间进行消息传递,离得越近的邻居节点对中心节点影响力越大。

接下来我向大家分享几个经典的图卷积神经网络。

第一个是图卷积神经网络 GCN, 如下图所示,其核心是每一层 GCN 会把 1 阶邻居的信息平均聚合到中心节点上,并用聚合后的信息作为中心节点的全新的表示。

在这里插入图片描述

从表达式可以看出,GCN 和 MLP 的区别是,GCN 加入邻接矩阵,并使用一阶邻居信息更新节点表示。此外,它在聚合信息时会加入自连接 (self-loop) 来强化自己本身的信息,并根据每个邻居节点的邻居数量进行加权平均。

  • 一阶邻居:中心节点直接和其他节点连接,即经过 1 条边即可到达的点被称作 1 阶邻居

第二个是图注意力网络 GAT。 相较于 GCN,GAT 的主要变化是在聚合邻居信息时权重的计算方式上。GCN 使用基于邻接矩阵计算的权重,而 GAT 根据邻居节点的特征算出一个可以学习的权值。

在这里插入图片描述

以上两种方法是 transductive methods 的典型代表,它们在输入时需要给出完整的图,导致计算复杂度增加。对此,GraphSAGE 提出 inductive 方式, 每次信息传导只需要了解中心节点的一阶邻居,且只随机选择一部分的邻居信息作聚合。

在这里插入图片描述

上面 3 种方法是对二维拓扑结构图进行节点上的表征更新,后续消息传递网络 (MPNN) 再把这一类信息聚合方法整合成一个框架。但生物上的很多数据(比如分子)还要考虑三维空间结构,为了整合空间信息,可以采用等变图神经网络 (EGNN)。 如下图所示,该方法的核心在于,除了节点本身的特征信息外,还引入了节点之间的相对位置关系,保证学习表征的旋转等变和平移不变性。

在这里插入图片描述

此外,还有很多先进的图神经网络设计,有些设计不仅能够提升模型的预测性能,还会聚焦提升效率、降低过平滑、加入多尺度表征等需求,通过引入连续消息传递、谱图卷积方法等,还能为具体问题提供表达能力更强的图神经网络。

图神经网络的重要应用:以蛋白质性质预测和序列生成为例

接下来,我将向大家分享图神经网络在蛋白质表征学习方面的应用,这里我分成预测类模型和生成类模型两大类。

蛋白质的特征编码与属性预测

在预测类任务上,我们考虑突变体性质预测、溶解度预测、以及子图匹配 3 类任务,具体有 4 个工作。

第一个工作,在突变任务预测上, 如下图所示,我们曾使用等变图神经网络去刻画蛋白质氨基酸的内部空间关系,其中每个节点代表一个氨基酸,在点位上表示该氨基酸的类型、理化性质等特征,图上的边连接体现氨基酸之间的相互关系,比如共同进化潜力与互相作用力影响。

在这里插入图片描述

随后,我们使用预测模型给不同的突变体打分,并识别出最有可能优化蛋白质性质的高分突变组合,这种轻量图神经网络通过整合氨基酸以及氨基酸之间的相互关系,能够显著降低训练成本与数据成本,在保持高效能的同时,实现了模型的小而美。另外,在多种蛋白质性质上进行湿实验验证,可证明这种模型能够显著提升定向进化效果和成功率。该研究以「Protein Engineering with Lightweight Graph Denoising Neural Networks」为题,发表在 ACS JCIM 上。

论文地址:

https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036

第二个工作,在结构编码的基础上进一步加入蛋白质序列编码。 这是因为,结构信息假设邻近氨基酸间相互作用更强,而距离远的相互关系极其微弱,这种假设并不能完全贴切实际情况,因此需要序列信息补充对远程相互作用的考量。另外,不同生物学特性的信息侧重不同,对于结合能与热稳定性来说,结构信息占据主导地位,但在涉及催化活性等性质时,氨基酸的类型信息更为关键。

如下图所示,我们在 ProteinGym 上的 200 多种 assay 上进行实验测试,获得了非 MSA 方法的最好表现。该研究以「Semantical and Geometrical Protein Encoding Toward Enhanced Bioactivity and Thermostability」为题,发表在 eLife 上。

论文地址:

https://elifesciences.org/reviewed-preprints/98033

在这里插入图片描述

第三个工作的氨基酸层面编码模块与第二个工作一致, 基于蛋白质序列和结构进行信息整合,区别在于还整合了多种基于先验知识的蛋白质层面信息,如蛋白质的长度、20 种氨基酸的比例分布等。

如下图所示,我们测试了模型对于蛋白质溶解度的预测效果,并在基于计算和实验的几千条测试数据上达到了 SOTA 效果。该研究以「ProtSolM: Protein Solubility Prediction with Multi-modal Features」为题,已被 IEEE BIBM2024(CCF B类会议)接收。

预印版论文地址:

https://www.arxiv.org/abs/2406.19744

在这里插入图片描述

第四个工作是探索蛋白质结构的局部相似性。 如下图所示,尽管蛋白质整体庞大,但其核心可能在于某些局部结构特征,另外,从宏观视角观察,两个蛋白质可能在序列和结构层面截然不同,但却拥有相似甚至相同的核心功能模块。

在这里插入图片描述

因此,我们为每个蛋白质的局部结构找到一个隐式表达,并计算这些向量之间的相似度,除了比较结构间的一对一相似关系外,还评估了 2 个完整蛋白质间是否存在可对齐的局部结构片段。该研究以「Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance?」为题,已被 IEEE BIBM2024 接收。

预印版论文地址:

https://arxiv.org/abs/2406.19755

序列生成

接下来向大家分享两个工作,即为蛋白质结构设计合适的氨基酸序列,这两项工作的核心模型都是扩散概率模型 (Diffusion)。

第一个工作,根据已知氨基酸骨架设计完整的蛋白质序列,提升蛋白质性能, 模型框架如下图所示。和定向进化不同,我们一次性修改几百个氨基酸,得到了更高多样性的蛋白质序列。一方面,这种方式可能找到全新的进化起点,避免定向进化中常见的局部最优、负向上位效应等问题;另一方面,通过修改更多氨基酸来获取更低序列相似度但相同功能的蛋白质,使得打破专利封锁成为可能。

在这里插入图片描述

我们以两种 Argonaute 蛋白质(分别在中温和超高温下工作)为设计模板,生成的 40 余条蛋白质大都可以在室温环境下进行 DNA 剪切,其中最好的设计比野生型剪切活性提升 10 倍以上,热稳定性也显著提升。研究以「Conditional Protein Denoising Diffusion Generates Programmable Endonucleases」为题,发表在 Cell Discovery 上。

预印版论文地址:

https://www.biorxiv.org/content/10.1101/2023.08.10.552783v1

第二个工作,如下图所示,在不严格限制氨基酸骨架结构的情况下,根据二级结构自主决定氨基酸的填充数量及位置。 相比较基于骨架的生成方式,这种更加粗粒度的生成条件能够为生成序列引入序列多样性,也能满足改造和全新设计蛋白质的具体需求(如对于跨膜蛋白质而言,仅约束跨膜部分为 helix 结构,但不严格限制这部分的长度和具体骨架)。该研究以「Secondary Structure-Guided Novel Protein Sequence Generation with Latent Graph Diffusion」为题,被 ICML AI4Science 接收,全文在审稿中。

预印版论文地址:

https://arxiv.org/html/2407.07443v1

在这里插入图片描述

以上两个基于 Diffusion 的蛋白质序列设计工作,既可以根据蛋白质骨架生成一整条序列,也可以固定部分关键氨基酸和骨架结构,并以此为生成条件,填充未固定部分的氨基酸序列。

图神经网络在更多生物问题上的应用

除了常规的分子图建模,图神经网络还可以应用到其他类型的数据和问题上,推动更多生物问题的研究,接下来我将分享两个例子。

第一个例子是生物社交网络分析与简化。 类似于人类社交网络的复杂关系,各种层级的生物社交网络(比如微生物网络、基因网络等)都存在很多值得探索的内容。

我们曾以基因共现网络进行社交网络简化研究。如下图所示,a, b 两图分别是来自深海和高山的相同基因的不同网络,其原始形态复杂且杂乱无章,通过构建类似人类社交网络的图神经网络,我们对两个网络进行简化,识别出占据绝对主导地位的基因,并区分哪些基因间存在更为紧密的联系,哪些基因间的联系相对较弱。简化后的网络能够帮助生物学家利用专业知识对网络及生物群落进行分析。该研究的初步版本题为「A unified view on neural message passing with opinion dynamics for social networks」。

预印版论文地址:

https://arxiv.org/abs/2310.01272

在这里插入图片描述

第二个例子是基于图神经网络的可解释性研究, 一个直观的例子是,图神经网络可以帮助识别分子内的关键局部结构。这个结果一方面可用于检验模型的合理性,例如,在预测蛋白质功能时,若模型能在一定程度上将关键原子或氨基酸定位至活性中心附近,则表明该模型具备一定的合理性,反之,若模型的注意力随机离散分布在蛋白质表面的多个氨基酸上,则模型可能存在问题。另一方面,在理想情况下,一个合理、强大的解释性模型,通过分析各节点对于功能预测的作用,在未来甚至可能帮忙识别出全新蛋白的口袋区域。

尽管大模型在很多应用场景中提供了丰富的成功经验,但它并不是所有问题的唯一解,作为天然存在各种结构性数据的领域,图神经网络在生物学中的很多问题都能提供可能的解决方案。无论是分子、复合物、基因、微生物网络,或是更大更复杂的系统,图神经网络通过植入归纳偏差,即使在少量数据情况下也能通过最大化借助人类先验知识,提供一个简洁的解决方案。

关于周冰心

在这里插入图片描述

周冰心

周冰心目前任上海交通大学,国家应用数学中心(上海交大分中心)助理研究员。她于 2022 年在澳大利亚悉尼大学获得博士学位,后出访英国剑桥大学访问学者。其研究主要关注利用深度学习(特别是几何深度学习)解决生物学中的挑战,如酶工程、代谢基因网络和蛋白质结构组进化分析。开发的深度学习算法用于处理静态、动态、异质和噪声图等,部分发表在 IEEE TPAMI、JMLR、ICML、NeurIPS 等国际顶级期刊和会议上;用于蛋白质工程和序列设计的通用的深度学习框架能够有效设计并显著提升复杂蛋白活性,部分成果发表于 eLife、Chem. Sci.、ACS JCIM 等期刊。

个人主页:
https://ins.sjtu.edu.cn/peoples/ZhouBingxin

Google Scholar:

https://scholar.google.com/cita

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前缀和算法】--- 一维和二维前缀和模板

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 算法Journey 本文开始,博主开始讲解有关前缀和的算法,本篇博客我们先来了解一下有关前缀和的两个模板。 🏠 一维前缀和模板 &…

CPU内部单总线数据通路各阶段的微操作序列利控制信号

1.内部总线与系统总线 内部总线是指同一部件,如CPU内部连接各寄存器及运算部件之间的总线; 系统总线是指同一台计算机系统的各部件,如CPU、内存、通道和各类/0接口间互相连接的总线。 2.寄存器之间数据传送 比如把PC内容送至MAR&#xff…

利用多Lora节省大模型部署成本|得物技术

一、背景 近期,我们在大模型集群的部署过程中遇到了一些挑战。公司有多个业务场景,每个场景都基于自身的数据进行微调,训练出相应的大模型并上线。然而,这些场景的调用量并不高,同时大模型的部署成本较为昂贵&#xf…

从0到1!如何利用GPT创作高质量的儿童绘本故事?(附提示词)

儿童绘本故事需要有趣、富有教育意义,并且简单易懂。利用GPT来创作这样的故事,可以让创意过程变得轻松且高效。以下是一份详细教程,帮助你用GPT创作出吸引孩子们的高质量绘本故事。 1. 明确故事目标和受众 在开始创作之前,明确故事…

Synchronized重量级锁原理和实战(五)

在JVM中,每个对象都关联这一个监视器,这里的对象包含可Object实例和Class实例.监视器是一个同步工具,相当于一个凭证,拿到这个凭证就可以进入临界区执行操作,没有拿到凭证就只能阻塞等待.重量级锁通过监视器的方式保证了任何时间内只允许一个线程通过监视器保护的临界区代码. …

Linux基础环境开发工具gcc/g++ make/Makefile

1.Linux编译器-gcc/g使用 1. 预处理(进行宏替换) 预处理功能主要包括宏定义,文件包含,条件编译,去注释等。 预处理指令是以#号开头的代码行。 实例: gcc –E hello.c –o hello.i 选项“-E”,该选项的作用是让 gcc 在预处理结束后停止编译过程。 选项“-o”是指目标…

第2章-01-网站中的资源介绍

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲。 🎉欢迎 👍点赞✍评论⭐收…

代码随想录算法训练营第二十一天| 669. 修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树 题目: 给你二叉搜索树的根节点 root ,同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树,使得所有节点的值在[low, high]中。修剪树 不应该 改变保留在树中的元素的相对结构 (即,如果没有被移除&…

类与对象(中(2))

开头 大家好啊,上一期内容我们介绍了类与对象中六大默认成员函数中的两种--->构造函数与析构函数,相信大家多少都形成了自己的独到见解。那么今天,我将继续就拷贝构造函数与运算符重载函数来展开讲解,话不多说,我们…

在 Vue.js 中使用 Ant Design 实现表格开关功能:详细教程

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

秃姐学AI系列之:池化层 + 代码实现

目录 池化层 二维最大池化层 Max Pooling 池化层超参数 平均池化层 Mean Pooling 总结 代码实现 池化层 卷积对位置非常敏感的,但是我们在实际应用中我们需要一定程度的平移不变性。比如照明、物体位置、比例、外观等因素会导致图片发生变化。所以卷积对未…

【WebSocket】websocket学习【二】

1.需求:通过websocket实现在线聊天室 2.流程分析 3.消息格式 客户端 --> 服务端 {"toName":"张三","message":"你好"}服务端 --> 客户端 系统消息格式:{"system":true,"fromName"…

pygame开发课程系列(5): 游戏逻辑

第五章 游戏逻辑 在本章中,我们将探讨游戏开发中的核心逻辑,包括碰撞检测、分数系统和游戏状态管理。这些元素不仅是游戏功能的关键,还能显著提升游戏的趣味性和挑战性。 5.1 碰撞检测 碰撞检测是游戏开发中的一个重要方面,它用…

【C语言】字符函数与字符串函数(下)

字符函数与字符串函数(下) 文章目录 字符函数与字符串函数(下)1.strncpy的使用和模拟实现1.1使用示例:1.2模拟实现 2.strncat的使用和模拟实现2.1使用示例:2.2模拟实现 3.strncmp的使用和模拟实现3.1使用示…

方法汇总 | Pytorch实现常见数据增强(Data Augmentation)【附源码】

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 👍感谢小伙伴们点赞、关注! 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发…

目标检测 | yolov10 原理和介绍

相关系列: 目标检测 | yolov1 原理和介绍 目标检测 | yolov2/yolo9000 原理和介绍 目标检测 | yolov3 原理和介绍 目标检测 | yolov4 原理和介绍 目标检测 | yolov5 原理和介绍 目标检测 | yolov6 原理和介绍 目标检测 | yolov7 原理和介绍 目标检测 | yolov8 原理和…

JS TypeError: Cannot read properties of null (reading ‘getAttribute’) 解决

JS TypeError: Cannot read properties of null (reading ‘getAttribute’) 解决 在JavaScript开发中,TypeError: Cannot read properties of null (reading getAttribute) 是一个常见的错误,它表明你尝试从一个值为null的对象上调用getAttribute方法。…

【AI学习】人工智能的几种主义

无意翻开了杨立昆的《科学之路》,书前有好多人作序,数了一下,八个人的序言,说明,至少有八个人读过这本书。其中黄铁军教授讲到了机器学习的发展历程。 人工智能发展历程中的各种主义,对于外行人大概都是如我…

微信好友恢复,分享4大技巧,快速恢复微信好友

在微信的社交网络中,好友关系的维护至关重要。但有时候,由于误操作或其他原因,我们可能会不小心删除了某些重要联系人。那么,如果想再度找回这些好友,我们应该使用什么方法呢? 别担心,本文将分…

4-1-4 步进电机原理1(电机专项教程)

4-1-4 步进电机原理1(电机专项教程) 4-1-4 步进电机原理1步进基本工作原理步进电机优点步进电机主要部件步进电机基本原理步进电机分类双极性单极性步进电机 4-1-4 步进电机原理1 如何使用arduino控制步进电机 步进电机从原理和工作方法上都更加复杂一些…