蛋白质的结构形态和生物学功能是由氨基酸序列决定的。 人工蛋白质设计的目标就是创造可以折叠成特定结构以实现特定功能的新型氨基酸序列。 当然,这并不是一个简单的问题,因为它需要了解蛋白质如何在细胞中折叠,而这一过程在很大程度上仍不为生物物理学家们所知。 近年来,人工智能和深度学习技术的最新进展,已经让计算生物学家们可以利用神经网络,来建立蛋白质序列和结构之间的定量关系。同时,因为人工智能的发展,蛋白质人工设计也取得了长足的进步。
华盛顿大学 David Baker 教授团队最近在 《科学》期刊发表了题为:“Top-down design of protein architectures with reinforcement learning”(基于强化学习的自上而下的蛋白质结构设计)的研究论文。该研究提出了一种“自上而下”的蛋白设计新范式,从而研发了一种基于强化学习的蛋白质设计软件,并证明了它有能力创造有功能的高阶蛋白质复合物。这一突破将开启蛋白质设计的新时代,对癌症治疗、再生医学、强效疫苗和可生物降解日用品都有积极影响。
蛋白质设计原理和新范式
Baker实验室发表的这项工作主要基于两个基于 AI 的工具,一是Baker实验室以前开发的用于蛋白质设计的 ProteinMPNN,第二个是谷歌DeepMind团队2年前开发的用于蛋白质结构预测的 AlphaFold2。
虽然在该领域(包括Baker团队)在设计单个蛋白质折叠单元方面取得了许多成功,但 Baker 及其同事的这篇论文试图应对设计包含许多对称链的蛋白质-蛋白质复合物的挑战。 这种天然的对称性正是有许多生物病毒形成其蛋白质外壳(称为衣壳)以执行特定功能的原因。
此前的蛋白复合物的研究,大多都是通过首先设计单个组件链,然后将组件链组装成对称的复杂结构来设计蛋白质复合物。 这种所谓的bottom-up(“自下而上”)设计范式的一个问题是单体的设计过程不能考虑最终复合物的对称性,这可能导致单体设计的形状匹配不完美。
Bake实验室这项工作的主要技术创新是通过称为蒙特卡罗树搜索 (MCTS) 的过程同时设计复合体的组件和全局对称性。 这就是文章中所谓的top-down(“自上而下”)的设计范式,它将有助于提高设计复合体的效率和质量,并可能导致设计单元的紧密包装。
Baker实验室提出的自上而下的蛋白质设计范式
设计具体高度对称性的蛋白质复合物
近年来,人工智能(Artificial Intelligence,AI)已经在多个领域大放异彩并深入到我们的日常生活中。从围棋领域的 AlphaGo 到预测蛋白质结构的 AlphaFold,从 AI 绘画再到火遍全网的 ChatGPT,人工智能作为一种新兴的颠覆性技术,正在逐步释放科技革命和产业变革积蓄的巨大能量,并将深刻改变人类的生活和思维方式。
AlphaGo 之所以能够战胜人类顶尖职业围棋选手,依赖于一种名为强化学习的机器学习系统,其计算机程序通过不断地尝试并同时接受反馈来学习如何做出最正确的决策。
回到蛋白质设计上,如果将蛋白质比作一张张围棋谱,那么蛋白质结构域就是一个个围棋定式。从这一点来看,基于强化学习的人工智能软件也能应用到蛋白质的从头设计上来——通过大量的训练,最终获得一个功能强大的新蛋白质设计软件。
自上而下设计范式设计的具有天然对称性的蛋白纳米颗粒。
为了创造这样一个可用于蛋白质设计的AI软件,Baker团队给计算机输入了数百万个简单蛋白质的序列、结构信息,然后,这一AI软件进行了上万次尝试,并且每次都进行反馈改进,以达到预定的目标——从头设计全新的蛋白质。在这个过程中,计算机以特定的方式延长或弯曲蛋白质,直到学会如何将它们折叠成想要的形状。
研究团队通过这种强化学习软件设计了数百种蛋白质,并在实验室中进行基因克隆、蛋白表达和结构测定。为了衡量软件的准确性,他们通过电子显微镜等设备测定了这些AI设计的蛋白质的实际结构,并发现其与软件预测的蛋白质结构非常一致。
研究团队专注于设计由许多蛋白质分子组成的新型纳米级结构,这要求他们设计的蛋白质具有允许纳米结构自组装的化学界面。因此,研究团队观察了AI设计蛋白质的纳米结构,并发现其中每个原子都在预定的位置上。换句话说,这种强化学习软件具有原子精度的设计能力,其预期和实际实现的纳米结构之间的偏差平均小于单个原子的宽度。
此外,研究团队还通过血管细胞的原代细胞模型表明,这种强化学习软件还可以对蛋白质支架结构进行优化。例如,通过使细胞受体更密集地聚集在更紧凑的支架上,从而在促进血管稳定性方面更有效。
冷冻电镜的成像结果显示,计算机设计蛋白复合物的实验结构与最初预定设计的结构高度一致
这篇《科学》论文通讯作者 David Baker 教授表示,这项研究表明强化学习可以做的不仅仅是掌握棋盘游戏。当训练解决蛋白质科学中长期存在的难题时,它还擅长于创造有用的蛋白质分子。如果将这种方法被应用到正确的研究问题上,就可以加速各种科学领域的进步。
小结与评论
总体来讲,这项工作的主要创新点就是提出了一种蛋白质复合物设计新的范式,即在设计蛋白质复合物的时候,同时考虑单体结构以及单体结构之间的高阶对称性。除此之外,该工作的所用的其他工具(ProteinMPNN和AlphaFold2)都是以前发表过的。其所使用的强化学习的概念,也来自此前提出的蒙特卡洛搜索树 (Monte Carlo tree search,MCTS)算法(--这个算法的本质被认为是强化学习的一种)。尽管如此,将这个设计范式运用在高质量蛋白质复合物设计上,如人工病毒衣壳,具有许多重要的生物医学用途。 除了作为信号蛋白和疫苗蛋白的设计应用之外,该工作还可以用于帮助基因治疗。
如所周知,基因治疗的目标就是修改患者的基因以治疗或治愈疾病,而基因治疗的关键步骤是将工程基因货物安全地递送至靶细胞。 大多数基因治疗方法使用腺相关病毒 (AAV) 作为基因载体。 但 AAV 是一种人类经常接触的天然病毒,许多患者携带抗 AAV 的抗体。 Baker实验室的这项工作中报告的方法也可用于重新设计新的类 AAV 笼子,这对于更安全的基因传递非常有帮助,并可大大改进基因治疗的效率。
参考文献
I. Lutz et al. Top-down design of protein architectures with reinforcement learning. Science, Apr 20, 2023. Vol 380, Issue 6642. pp. 266-273.
(https://www.science.org/doi/10.1126/science.adf6591).