Science | 华盛顿大学Baker团队提出AI新范式设计全新蛋白复合物

news2024/11/13 15:06:39

蛋白质的结构形态和生物学功能是由氨基酸序列决定的。 人工蛋白质设计的目标就是创造可以折叠成特定结构以实现特定功能的新型氨基酸序列。 当然,这并不是一个简单的问题,因为它需要了解蛋白质如何在细胞中折叠,而这一过程在很大程度上仍不为生物物理学家们所知。 近年来,人工智能和深度学习技术的最新进展,已经让计算生物学家们可以利用神经网络,来建立蛋白质序列和结构之间的定量关系。同时,因为人工智能的发展,蛋白质人工设计也取得了长足的进步。

华盛顿大学 David Baker 教授团队最近在 《科学》期刊发表了题为:“Top-down design of protein architectures with reinforcement learning”(基于强化学习的自上而下的蛋白质结构设计)的研究论文。该研究提出了一种“自上而下”的蛋白设计新范式,从而研发了一种基于强化学习的蛋白质设计软件,并证明了它有能力创造有功能的高阶蛋白质复合物。这一突破将开启蛋白质设计的新时代,对癌症治疗、再生医学、强效疫苗和可生物降解日用品都有积极影响。

蛋白质设计原理和新范式

Baker实验室发表的这项工作主要基于两个基于 AI 的工具,一是Baker实验室以前开发的用于蛋白质设计的 ProteinMPNN,第二个是谷歌DeepMind团队2年前开发的用于蛋白质结构预测的 AlphaFold2。

虽然在该领域(包括Baker团队)在设计单个蛋白质折叠单元方面取得了许多成功,但 Baker 及其同事的这篇论文试图应对设计包含许多对称链的蛋白质-蛋白质复合物的挑战。 这种天然的对称性正是有许多生物病毒形成其蛋白质外壳(称为衣壳)以执行特定功能的原因。

此前的蛋白复合物的研究,大多都是通过首先设计单个组件链,然后将组件链组装成对称的复杂结构来设计蛋白质复合物。 这种所谓的bottom-up(“自下而上”)设计范式的一个问题是单体的设计过程不能考虑最终复合物的对称性,这可能导致单体设计的形状匹配不完美。

Bake实验室这项工作的主要技术创新是通过称为蒙特卡罗树搜索 (MCTS) 的过程同时设计复合体的组件和全局对称性。 这就是文章中所谓的top-down(“自上而下”)的设计范式,它将有助于提高设计复合体的效率和质量,并可能导致设计单元的紧密包装。

Baker实验室提出的自上而下的蛋白质设计范式 

设计具体高度对称性的蛋白质复合物

近年来,人工智能(Artificial Intelligence,AI)已经在多个领域大放异彩并深入到我们的日常生活中。从围棋领域的 AlphaGo 到预测蛋白质结构的 AlphaFold,从 AI 绘画再到火遍全网的 ChatGPT,人工智能作为一种新兴的颠覆性技术,正在逐步释放科技革命和产业变革积蓄的巨大能量,并将深刻改变人类的生活和思维方式。

AlphaGo 之所以能够战胜人类顶尖职业围棋选手,依赖于一种名为强化学习的机器学习系统,其计算机程序通过不断地尝试并同时接受反馈来学习如何做出最正确的决策。

回到蛋白质设计上,如果将蛋白质比作一张张围棋谱,那么蛋白质结构域就是一个个围棋定式。从这一点来看,基于强化学习的人工智能软件也能应用到蛋白质的从头设计上来——通过大量的训练,最终获得一个功能强大的新蛋白质设计软件。

自上而下设计范式设计的具有天然对称性的蛋白纳米颗粒。 

为了创造这样一个可用于蛋白质设计的AI软件,Baker团队给计算机输入了数百万个简单蛋白质的序列、结构信息,然后,这一AI软件进行了上万次尝试,并且每次都进行反馈改进,以达到预定的目标——从头设计全新的蛋白质。在这个过程中,计算机以特定的方式延长或弯曲蛋白质,直到学会如何将它们折叠成想要的形状。

研究团队通过这种强化学习软件设计了数百种蛋白质,并在实验室中进行基因克隆、蛋白表达和结构测定。为了衡量软件的准确性,他们通过电子显微镜等设备测定了这些AI设计的蛋白质的实际结构,并发现其与软件预测的蛋白质结构非常一致。

研究团队专注于设计由许多蛋白质分子组成的新型纳米级结构,这要求他们设计的蛋白质具有允许纳米结构自组装的化学界面。因此,研究团队观察了AI设计蛋白质的纳米结构,并发现其中每个原子都在预定的位置上。换句话说,这种强化学习软件具有原子精度的设计能力,其预期和实际实现的纳米结构之间的偏差平均小于单个原子的宽度。

此外,研究团队还通过血管细胞的原代细胞模型表明,这种强化学习软件还可以对蛋白质支架结构进行优化。例如,通过使细胞受体更密集地聚集在更紧凑的支架上,从而在促进血管稳定性方面更有效。

冷冻电镜的成像结果显示,计算机设计蛋白复合物的实验结构与最初预定设计的结构高度一致 

这篇《科学》论文通讯作者 David Baker 教授表示,这项研究表明强化学习可以做的不仅仅是掌握棋盘游戏。当训练解决蛋白质科学中长期存在的难题时,它还擅长于创造有用的蛋白质分子。如果将这种方法被应用到正确的研究问题上,就可以加速各种科学领域的进步。

小结与评论

总体来讲,这项工作的主要创新点就是提出了一种蛋白质复合物设计新的范式,即在设计蛋白质复合物的时候,同时考虑单体结构以及单体结构之间的高阶对称性。除此之外,该工作的所用的其他工具(ProteinMPNN和AlphaFold2)都是以前发表过的。其所使用的强化学习的概念,也来自此前提出的蒙特卡洛搜索树 (Monte Carlo tree search,MCTS)算法(--这个算法的本质被认为是强化学习的一种)。尽管如此,将这个设计范式运用在高质量蛋白质复合物设计上,如人工病毒衣壳,具有许多重要的生物医学用途。 除了作为信号蛋白和疫苗蛋白的设计应用之外,该工作还可以用于帮助基因治疗。

如所周知,基因治疗的目标就是修改患者的基因以治疗或治愈疾病,而基因治疗的关键步骤是将工程基因货物安全地递送至靶细胞。 大多数基因治疗方法使用腺相关病毒 (AAV) 作为基因载体。 但 AAV 是一种人类经常接触的天然病毒,许多患者携带抗 AAV 的抗体。 Baker实验室的这项工作中报告的方法也可用于重新设计新的类 AAV 笼子,这对于更安全的基因传递非常有帮助,并可大大改进基因治疗的效率。

参考文献

I. Lutz et al. Top-down design of protein architectures with reinforcement learning. Science,  Apr 20, 2023. Vol 380, Issue 6642. pp. 266-273.

(https://www.science.org/doi/10.1126/science.adf6591).

​​​​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/448598.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【微服务】- 分布式系统的流量防卫兵 - sentinel

Sentinel流量防卫兵 😄生命不息,写作不止 🔥 继续踏上学习之路,学之分享笔记 👊 总有一天我也能像各位大佬一样 🏆 一个有梦有戏的人 怒放吧德德 🌝分享学习心得,欢迎指正&#xff0…

代码优化- 中间表示上的优化

中间表示上的代码优化依赖于具体所使用的中间表示:控制流图(CFG)、控制依赖图(CDG)、静态单赋值形式(SSA)、后续传递风格(CPS)等 共同的特点是需要进行程序分析&#xf…

7 ADC(一)

7 ADC ADC简介 ADC(Analog-Digital Converter)模拟-数字转换器 ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁 12位(0-2^(12-1))逐次逼近型ADC,1us转换时间…

HTTP连接要考虑超时,重试和并发之原因

一、原因(why) 连接超时配置得特别长,比如 60 秒。一般来说,TCP 三次握手建立连接需要的时间非常短,通常在毫秒级最多到秒级,不可能需要十几秒甚至几十秒。如果很久都无法建连,很可能是网络或防火墙配置的…

光纤网卡传输速率和它的应用领域有哪些呢?通常用会到有哪些型号网络变压器呢?

Hqst盈盛(华强盛)电子导读:常有客户问起光纤网卡该如何选用到合适的产品,选用时要注意到哪些事项,这节将结合配合到的网络变压器和大家一起探讨,希望对大家有些帮助。 1.光纤网卡传输速率与网络…

AlgoC++第三课:C++世界观

目录 C世界观前言1. 程序逻辑2. 内存的逻辑3. 调度的逻辑4. 编译的逻辑5. 作用域的逻辑6. 命名空间的逻辑7. 生命周期的逻辑8. C类的逻辑9. 编译时和运行时的逻辑总结 C世界观 前言 手写AI推出的全新面向AI算法的C课程 Algo C,链接。记录下个人学习笔记&#xff0c…

如何查看CPU的L2、L3缓存的容量

可以用CPU-Z,不过需要下载。 可以用命令: wmic cpu get L2CacheSize,L3CacheSize结果:

Golang微服务一把嗦 用户微服务集成主流最新go技术栈

声明:此文章为博主个人学习记录,仅供学习和交流,如有侵权请联系博主。 前言 前段时间,因为本地k8s环境一直出问题,线上云环境也用不起,(后面搞定了再慢慢学习)所以就暂时搁置了k8s学…

SQL Server基础 第二章 表结构管理

目录 一、数据类型 1,字符类数据类型 2,数值型数据类型 3,日期/时间型数据类型 二、主键(Primary key) 三、默认值 四、唯一键(Unique) 五、自增标识 六、约束 七、外键 一、数据类型 …

node+vue+mysql+java健身房网站管理系统

通过大数据管理的方法对健身房管理系统进行了详细的设计说明以及介绍,对健身房管理系统进行了开发和实践。作为一个健身房网站,它为用户提供了一个良好的求知平台。让用户能更好地了解健身带来的好处。前端技术:nodejsvueelementui,视图层其实…

3D智能四向穿梭车在电商物流中的应用|HEGERLS箱式四向穿梭车系统在服装制造仓的创新应用

四向穿梭车技术是物流仓储系统中的革命性技术,也由于四向穿梭车对于场地的适应性非常强的特性,可实现前后、左右、上下六维运行,结合提升机的布置和输送系统的布局,灵活调整四向车的空间布局,使某些不规则场地和闲置空…

NXP公司LPC21xx+热敏电阻实现温度检测

LPC2131/32/34/36/38微控制器基于16位/32位Arm7TDMI-S™CPU,支持实时仿真和嵌入式跟踪,具有尺寸小,功耗低,多个32位定时器、单/双10位8通道ADC、10位DAC、PWM通道、47个GPIO线(它们拥有多达9个边沿或电平触发的外部中断…

SpringCloud 项目如何方便 maven 打包以及本地开发

一、背景 springcloud-alibaba ,使用 nacos 做配置中心,maven 作为构建工具。为了防止 test 、prod 环境配置文件覆盖问题,使用 mvn -P 命令。 二、项目 pom 文件 1. 利用 resources 标签来指定目录,build > resources 标签&a…

【轴承故障检测】滚动轴承中进行基于振动的故障诊断研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

110.【十万字带你深入学习23种设计模式】

Java 23种设计模式 (一)、设计模式相关内容介绍1.软件设计模式概述(1).软件设计模式的产生背景(2).软件设计模式的概念(3).学习设计模式的重要性(4).设计模式分类 2.UML图(1).类图概述(2).类图的作用(3).类图表示法 3.软件设计原则(1).开闭原则 (重写不修改)(2).里氏代换原则 (…

Node内置模块 【https模块】

文章目录 🌟前言🌟https模块🌟https原理🌟SSL🌟使用https🌟搭建HTTPS服务器🌟写在最后 🌟前言 哈喽小伙伴们,新的专栏 Node 已开启;这个专栏里边会收录一些N…

不得不说的结构型模式-组合模式

组合模式是一种结构型设计模式,它允许您将对象组合成树形结构,并以统一的方式处理它们。该模式基于递归组合的想法,其中一个组件可以由许多更小的组件组成,这些更小的组件可以由更小的组件组成,以此类推。 在组合模式中…

Latex安装与简介

文章目录 Latex一.步入Latex的两种方式:1.下载安装与Vscode集成2.在线的编辑器: overleaf 二.解决中文输入的问题三.简单介绍 Latex 一.步入Latex的两种方式: 1.下载安装与Vscode集成 texlive下载与安装参考: https://blog.csdn.net/weixin_47581344/article/details/1243560…

Midjourney 提示词工具(10 个国内外最好最推荐的)

Midjourney,是一个革命性的基于人工智能的艺术生成器,可以从被称为提示的简单文本描述中生成令人惊叹的图像。Midjourney已经迅速成为艺术家、设计师和营销人员的首选工具(包括像我这样根本不会设计任何东西的无能之辈)。 为了帮…

前端优化的分析

前端优化的分析 目录概述需求: 设计思路实现思路分析渲染层性能更好的API 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,cha…