西湖大学利用 Transformer 分析百亿多肽的自组装特性,破解自组装法则

news2024/11/19 15:40:12

多肽是两个以上氨基酸通过肽键组成的生物活性物质,可以通过折叠、螺旋形成更高级的蛋白质结构。多肽不仅与多个生理活动相关联,还可以自组装成纳米粒子,参与到生物检测、药物递送、组织工程中。

然而,多肽的序列组成过于多样,仅 10 个氨基酸就可以组成超过百亿种多肽。因此,人们很难对其自组装特性进行全面系统的研究,进而优化自组装多肽的设计。

为此,西湖大学的李文彬课题组利用基于 Transformer 的回归网络,对百亿种多肽的自组装特性进行了预测,并分析得到了不同位置氨基酸对自组装特性的影响,为自组装多肽的研究提供了强力的新工具。

作者 | 雪菜
编辑 | 三羊

多肽是两个以上氨基酸通过肽键组成的生物活性物质。多肽合成便利、可生物降解、生物相容性强,且具有丰富的化学多样性,可以组成具有荧光、半导体导电性或是磁性的纳米物质。正因为此,多肽得到了科研界的广泛关注。

然而,也正是因为多肽的多样性,人们暂缺乏预测其自组装倾向 (AP, Aggregation Propensity) 的方法,很难将其转变为有序结构。目前只有极少的多肽能够自组装,形成满足需求的超分子结构,并投入到工业应用中。

在这里插入图片描述

图 1:不同自组装探针对 hCA、抗生物素和胰蛋白酶的特异性荧光

过去数十年间,自组装多肽主要是通过生物实验发现的。然而,实验往往需要很长的周期,而且存在一定的倾向性,不利于对大量多肽进行全面的系统研究。

近年来,计算筛选 (Computational Screening) 被广泛用于自组装多肽的设计中。2015 年,Frederix 等人利用粗粒度分子动力学 (CGMD) 分析了三肽的 AP。然而,随着氨基酸数量的增加,多肽序列数量会指数级增长,使 CGMD 的成本大幅增加。

因此,有研究者结合 AI 和 CGMD ,以降低传统方法的分析成本。然而,AI-CGMD 需要大量的训练数据。据推测,十肽 (decapeptide) 的序列超过百亿种,需要 320 万个多肽序列数据。基于上述原因,目前尚无对 5 个以上氨基酸组成多肽 (pentapeptide) 的 AP 预测。

为解决这些问题,西湖大学的李文彬课题组利用基于 Transformer 的回归网络 (TRN),结合 CGMD,对百亿种多肽的自组装特性进行了预测,得到了五肽和十肽的 AP,并得到了不同位置的氨基酸对多肽 AP 的影响。这一成果已发表于「Advanced Science」。

在这里插入图片描述

相关成果已发表于「Advanced Science」

论文链接:

https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202301544

实验过程

训练集:拉丁超立方采样

首先,利用拉丁超立方采样筛选出 8,000 个多肽序列。筛选出的多肽序列通过 CGMD 模型分析得到其 AP。

模型构建:编码与解码

研究人员基于 TRN 构建了 AP 预测模型。模型包括 Transformer 编码器和多层感知机 (MLP) 解码器。Transformer 编码器由输入嵌入层 (Input Embedding)、位置编码器 (Positional Encoding) 和编码块 (Encording Block) 组成。

输入嵌入层用于将多肽的组成单元(即氨基酸)映射到 512 维的连续空间中,位置编码器会输出氨基酸的位置信息。编码块包括自注意网络和前馈神经网络。

Transformer 编码器最终输出一个隐藏层表示的多肽序列。这一序列经过 MLP 降维 5 次后,被压缩为一维向量。MLP 解码器的最后一层会输出多肽的 AP。

在这里插入图片描述

图 2:TRN 模型的工作流

a:α-螺旋和 β-折叠的原子模型及 α-螺旋的 CG 模型;

b:通过 CGMD 输出训练数据的流程;

c:TRN 模型示意图。

实验结果

模型预测:提升 54.5%

研究人员对比了 TRN 模型和其他非深度学习模型(支持向量机 SVM、随机森林 RF、临近算法 NN、贝叶斯回归 BR 和线性回归 LR)的 AP 预测表现。

在仅有 8,000 个训练数据时,模型的决定系数 R2 就超过了 0.85,较 SVM 提升了 11.8%,较 RF 提升了 54.5%

在这里插入图片描述

图 3:TRN 模型和其他非深度学习模型的性能对比

随着训练数据的增加,TRN 模型的表现随着增加。 当训练数据达到 54,000 时,TRN 模型的平均绝对误差 (MAE) 为 0.05,R2 为 0.92。

在这里插入图片描述

图 4:训练数据对 TRN 模型性能的影响

上述结果说明,相比非深度学习模型,TRN 模型可以用较少的训练数据达到较高的预测率。同时,随着训练数据的增加,TRN 模型的表现随之提升。

亲水性:APHC 修正

据报道,除 AP 外,多肽的亲水性 (log P) 也会对多肽的自组装产生影响

当 AP 自低向高增长时,log P 的中位数随之降低,说明亲水性强的多肽聚集能力较差。然而,log P 位于 0.25-0.75 之间的多肽 AP 跨度很大,分布在 0-1 之间,说明二者的联系并不密切,还有其他因素会影响多肽的 AP。

在这里插入图片描述

图 5:AP 与 log P 的关系

a:320 万种五肽的 AP 与 log P 的相关性;

b:AP 在不同区间的分布;

c:log P 在不同 AP 区间的分布。

为找出 AP 和 log P 对多肽自组装的影响,研究人员利用 log P 对 AP 进行了修正,得到了 APHC。修正后的 APHC 能够分辨出多肽自组装和沉淀,筛选出可以形成水凝胶的多肽。

在这里插入图片描述

图 6:APHC 与 log P 的关系

a:320 万种五肽的 APHC 与 log P 的相关性;

b:APHC 在不同区间的分布;

c:log P 在不同 APHC 区间的分布。

自组装法则:不同位置的氨基酸影响

在分析了五肽中不同位置的 20 种氨基酸对 APHC 的影响后,研究人员总结得到了不同氨基酸及其分布对多肽自组装特性的影响,并将其分成了 5 组。

第一组氨基酸包括苯丙氨酸 (F)、酪氨酸 (Y) 和色氨酸 (W)。这组氨基酸中存在 π-π 堆叠且疏水性强,对多肽自组装贡献最大。其中 W 的疏水性最强,对 APHC 的影响最大,这与 WWWWW 的观察结果一致。

在这里插入图片描述

图 7:不同 AP 区间中,20 种氨基酸在不同位置的分布比例

F、Y、W 在 3-5 号位,尤其是 3 号位时,对多肽自组装贡献最强。可能是因为在 3 号位上,氨基酸的自由度较高,更易通过 π-π 作用驱动多肽自组装。

在这里插入图片描述

图 8:π-π 堆叠示意图

然而,这些芳香类氨基酸在 5 号位时,是强质子接受体,会与其他多肽相互作用,拉大苯环的距离,削弱分子内的 π-π 作用。

第二组氨基酸包括异亮氨酸 (I)、亮氨酸 (L)、缬氨酸 (V) 和半胱氨酸 ©由于这些氨基酸的侧链和水之间相互排除,疏水性强,对多肽自组装贡献较强。这组氨基酸常分布在多肽的两端,尤其是自组装多肽的 N 端。

在这里插入图片描述

图 9:氨基酸的疏水作用

第三组氨基酸包括组氨酸 (H)、丝氨酸 (S) 和苏氨酸 (T)。这组氨基酸有极化侧链,可以通过氢键提升多肽的自组装能力。然而,氢键的作用相比于 π-π 堆叠较弱,因此在高 APHC 的多肽中,第三组氨基酸含量较少。

T 和 S 倾向于占据多肽的两端,尤其是 N 端,这有利于氢键的形成。而 H 会远离多肽的两端。

在这里插入图片描述

图 10:极性侧链对多肽结构的影响

第四组氨基酸包括蛋氨酸 (M) 和脯氨酸 §M 和 P 在不同 APHC 的多肽中分布基本一致,仅对多肽的特定指标有微弱的影响。

第五组氨基酸不利于多肽的自组装,包括带负电的天冬氨酸 (D) 和谷氨酸 (E)、带正电的赖氨酸 (K) 和精氨酸 ®、强极性的天冬酰胺 (N) 和谷氨酰胺 (Q)、无侧链的丙氨酸 (A) 和甘氨酸 (G)。

然而,C 端的 D 和 E、N 端的 R 和 K 可以形成带双电荷的头基,通过异性电荷相互吸引、形成盐桥促进多肽的自组装。N 和 Q 由于极性太强,会促进多肽的溶解。而 A 和 G 缺乏明显的相互作用,不利于多肽自组装。

在这里插入图片描述

图 11:库仑作用对多肽结构的影响

实验验证:与 CGMD 和 TEM 结果基本一致

为确认 TRN 模型的预测结果,研究人员用 CGMD 对五种多肽的自组装特性进行了验证。CGMD 的计算结果与 TRN 模型的预测结果基本一致。

同时,NRMMR、DMGID、NRMMRDMGID 和 NRMMR + DMGID 的自组装特性还得到了实验的验证。透射电子显微镜 (TEM) 的结果与 CGMD 的结果基本一致。

在这里插入图片描述

图 12:CGMD (a) 和 TEM (b) 观察到的多肽自组装结果

上述结果说明,TRN 模型可以准确预测五肽、十肽和混合五肽的自组装特性,为自组装多肽的研究提供了强力的新工具。

自组装多肽:生物医药新方向

虽然人们对多肽的自组装特性研究还不够深入,但自组装多肽已经广泛用于组织工程、药物递送和生物传感当中。此外,细胞的收缩和舒张、内吞囊泡的移动、细菌和病毒的跨膜传输都离不开多肽的自组装,阿尔兹海默症、帕金森氏病和II型糖尿病等疾病也与蛋白质的错误折叠有关。

在这里插入图片描述

图 13:自组装多肽用于抗肿瘤药物的递送

随着 AI 的发展,科研人员对于大批量数据的处理能力不断增强。生物研究从传统的实验研究,走向计算研究,再走向 AI 研究的同时,研究的规模也从以往的几十上百种可能,逐渐迈向了百亿种。在 AI 的帮助下,人类正在推进生物研究的边界,相信未来人们能对生物有更精细更全面的研究,让 AI + 生物普惠大众。

参考链接:

https://pubs.rsc.org/en/content/articlelanding/2014/CS/C4CS00161C

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1109553.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

瞬态抑制二极管TVS的工作原理?|深圳比创达电子EMC(上)

TVS二极管具有响应速度快、漏电流小、钳位电压稳以及无寿命衰减的特性,从小到信号线静电防护,大到电力系统抗雷击浪涌,TVS都发挥着至关重要的作用。本章对瞬态抑制二极管TVS工作机理展开分析,供产品选型参考。接下来就跟着深圳比创…

用git stash暂存修改

git stash命令用于保存当前工作目录的临时状态,包括暂存区和已修改但未暂存的文件。它会将这些修改保存在一个临时区域(即“堆栈”)中,让你能够回到一个干净的工作目录,可以进行其他操作。等到你完成其他任务后&#x…

立即报名 | 云原生 + AI Meetup 成都站 11.4 正式开启

2023 年,KubeSphere 社区已经在深圳、杭州、上海三个城市各组织了一场线下 Meetup。第四站,我们将走进天府成都。 11 月 4 日,云原生 AI Meetup 成都站将正式开启! 此次 Meetup,我们邀请到了蚂蚁集团、云猿生数据、…

系列十二、Redis的主从复制

一、概述 主从复制架构仅仅用来解决数据的冗余备份,从节点仅仅用来同步数据。 二、架构图 三、搭建主从复制 # 1、准备3台机器并修改配置 -- master port 7379-- slave1 port 7380 slaveof masterip masterport-- slave2 port 7381 slaveof masterip masterpor…

美创科技入选“内蒙古自治区第一届网络安全应急技术支撑单位”

近日,内蒙古自治区党委网信办、国家网络应急技术处理协调中心内蒙古分中心评选“内蒙古自治区网络安全应急技术支撑单位”结果公布。 经自治区各地区、各部门和单位推荐各单位自主申报,资料审查和专家评审等环节,美创科技成功入选“内蒙古自治…

win10下yolov7 tensorrt模型部署

TensorRT系列之 Win10下yolov8 tensorrt模型加速部署 TensorRT系列之 Linux下 yolov8 tensorrt模型加速部署 TensorRT系列之 Linux下 yolov7 tensorrt模型加速部署 TensorRT系列之 Linux下 yolov6 tensorrt模型加速部署 TensorRT系列之 Linux下 yolov5 tensorrt模型加速部署…

【数据结构】排序--归并排序

目录 一 基本思想 二 代码实现 三 非递归归并排序 一 基本思想 归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并&#xff…

linux常见命令-文件目录类

9.4 文件目录类 (1)pwd 指令:显示当前工作目录的绝对路径 (2)Is指令:查看当前目录的所有内容信息 基本语法: ls [选项,可选多个] [目录或是文件] 常用选项:-a:显示当前目录所有的文件和目录,包括隐藏的…

02Nacos和Feign及Gateway配置

一、Nacos配置管理 1.统一配置管理 配置更改热更新 ①在Nacos中添加配置信息: ②在弹出表单中填写配置信息: 2.配置获取的步骤如下 配置文件bootstrap.yml的优先级比application.yml优先级高。把nacos地址放入bootstrap.yml。 ①在userservice中引入N…

Python —— Reference | hou

Houdini有非常多的Python模块可使用,不止一个hou,如hutil、toolutils、husd、kramautils等,只是帮助文档并没有提起,可从源代码docstring中查询; //查询有效的模块 help(modules) hou模块按功能可分为三类:…

windows 10下安装Pytorch的操作文档与避坑指南

前言 PyTorch3D 是 Facebook AI Research (FAIR) 开发的一个用于 3D 计算机视觉任务的开源深度学习库。它是建立在 PyTorch 框架之上的,并旨在为研究人员和工程师提供处理 3D 数据、渲染和几何计算的工具和模块。 PyTorch3D的用途: 3D 几何操作&#x…

Linux 内核启动分析

Linux 内核启动分析-BugMan-ChinaUnix博客 通过《Linux应用程序elf描述》,我们了解到一个应用程序编译后,最终会按照指定方式进行链接,而我们通过ld --verbose可以查看对应应用的默认链接方式。那么对于Linux内核呢?毫无疑问&…

大模型背景下软件工程的机遇与挑战

点击链接了解详情 本文作者:汪晟杰 导语:AISE(AI Software Engineering)有人说是软件工程 3.0,即基于大模型(LLM - Large Language Model)时代下的软件工程。那么究竟什么是 AISE,他的发展历程对…

Java学习入门偏(2)

⭐简单说两句⭐ 作者:后端小知识 CSDN个人主页:后端小知识 🔎GZH:后端小知识 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 Hello,亲爱的各位友友们,好久不见&#xff0…

官媒代运营:内容营销是什么?为什么要做内容营销?

在当今数字化时代,信息传播的速度和途径前所未有地广泛,企业们正在寻找新的方法来吸引潜在客户并保持现有客户的忠诚度。在这个背景下,内容营销崭露头角,成为了企业推广和营销的一项重要策略。 今天媒介易来跟大家分享干货知识&am…

Mini小主机All-in-one搭建教程6-安装苹果MacOS系统

笔者使用的ESXI7.0 Update 3 抱着试试的态度想安装一下苹果的MacOS系统 主要步骤有2个 1.解锁unlocker虚拟机系统 2.安装苹果MacOS系统 需要下载的文件 unlocker 这一步是最耗时间的,要找到匹配自己系统的unlocker文件。 https://github.com/THDCOM/ESXiUnloc…

VMware vCenter Server 6.7安装过程记录

0、前言 最近由于一些原因需要安装测试VMware ESXi,无奈所有服务器都是十几年前的,配置低也不支持。后来通过VMware兼容性列表查询,快要放弃的时候发现唯一一台Dell R420,如获至宝。通过查询得知最高支持到6.5 U3,好在…

214. Devu和鲜花

214. Devu和鲜花 - AcWing题库 如果每个盒子里的花的数量是无限的,用隔板法可以得出答案是 现在每个盒子中区的花数要满足n个条件 我们可以求答案的补集,用全部方案数减去补集方案数 每一个不符合条件的要求为,设为Bi 补集方案数为就成了…

内存卡怎么格式化?2个方法就足够!

“我是一名摄影业余爱好者,之前的内存卡里存了很多的文件,导致容量满了。我想将内存卡格式化后继续使用,但是不知道应该如何操作,谁能给些建议吗?” 内存卡格式化是维护存储设备性能和数据安全的关键操作之一。当我们发…

CRM系统在销售目标管理中的作用是什么?

销售管理者为了激励销售人员、评估业绩、进行奖励,往往需要建立一个基本标准,就是人们常说的销售目标。设定销售目标时,既要激励到员工,又不能把标准定得过高。CRM系统在销售目标管理中起到什么作用?该如何通过CRM销售…