NBT - Foldseek快速准确搜索结构相似的蛋白,AlphaFold蛋白质数据库提供了一个快速的搜索工具
AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?
对蛋白结构的大规模分析揭示了蛋白质中前所未见的结构单元和蛋白蛋白之间出乎意料的关联关系。
Google DeepMind利用AlphaFold神经网络预测了几乎所有已知蛋白的结构(超过2亿条记录),并存储于数据库AlphaFoldDB (https://alphafold.ebi.ac.uk/)。两篇Nature工作对该数据库进行了深度挖掘,揭示了全新的蛋白质结构、蛋白质在生命机器中惊奇的连接关系以及其他在几年前难以想象的洞见。
“多亏了AlphaFold,我们现在可以探索之前一无所知的整个蛋白质家族。” 西班牙巴塞罗那Josep Carreras白血病研究所(IJC)的计算生物学家Eduard Porta Pardo说,他并未参与2023年9月13日在《Nature》(IF2022=64.8)杂志发表的两项研究[1,2]。
去年Google DeepMind利用AlphaFold从具有基因组序列的物种中预测了几乎所有已知蛋白的结构,在AlphaFold数据库(AlphaFold Protein Structure Database)中积累了近2.14亿条结构信息。该数据库由位于英国欣克斯顿的欧洲分子生物学实验室欧洲生物信息学研究所(EMBL-EBI)托管。
结构簇(Sructure cluster)
首尔国立大学的计算生物学家Martin Steinegger表示,很快科学家们发现AlphaFold数据库资源的使用非常方便,但其中很多科学家仅关注单一的蛋白质结构或某一家族的蛋白结构。而Martin Steinegger则对绘制整个数据库中的蛋白质的关联关系非常感兴趣,他说:“我认为探索蛋白质的结构宇宙到底有多大将非常有趣。”
为此,由Steinegger和瑞士苏黎世联邦理工学院(ETH Zurich)的计算生物学家Pedro Beltrao领导的团队开发了基于结构相似性的蛋白质快速比对工具,实现了对AlphaFold数据库中的蛋白结构比对,并鉴定了超过2百万个结构相似的蛋白“簇”[1]。
研究人员通常利用蛋白的氨基酸序列进行结构的比对。但与结构相比,在进化过程中,氨基酸序列更易于改变,这就限制了寻找远源蛋白的能力。Steinegger等分析发现通过比对蛋白质的结构识别出的蛋白“簇”的数量是利用序列比对所得“簇”的数量的10倍。
尽管研究人员才刚刚开始探索蛋白“宇宙”中这些新发现的“星系”(galaxies),但他们已经发现了惊人的蛋白质连接关系。例如,他们发现,用于检测人类和其他复杂生物体内的病毒DNA且可引发快速免疫反应的蛋白质与来自单细胞的细菌和古菌的蛋白质属于同一个蛋白簇,这种蛋白关系以前从未被揭示,Steinegger说。
对于超过三分之一的蛋白质簇,目前几乎一无所知。“我真的希望生物学家能为这个未知领域的研究贡献一份力量,”斯坦格尔说道。
未知的结构(Never-before-seen shape)
另一个团队采用了略有不同的方法来揭示蛋白质宇宙中的“暗物质”。瑞士巴塞尔大学的计算生物学家Joana Pereira,Janani Durairaj,Torsten Schwede和SIB瑞士生物信息学研究所及其同事为AlphaFold数据库中超过5000万最准确预测的蛋白结构创建了一个关系网络。他们利用这些分组来鉴定蛋白宇宙中的神秘角落[2]。
蛋白质的β桶结构。来源:Laguna Design/Science Photo Library
令人惊喜的是,他们发现了一种新型蛋白结构。由于该结构包含了一系列的发卡翻转(这种发卡翻转结构在β桶(Beta-barrel)结构中也存在)类似于一朵花的花瓣,因此研究人员将其称为“β花”(Beta-flower)。具有“β花”结构的蛋白质之间亲缘关系疏远,目前对他们的功能尚不清楚,研究该结构的Pereira表示。
蛋白质的β花结构。来源:Durairaj, J. et al.
“这项工作实际上打开了蛋白质研究的潘多拉魔盒,我们必须决定优先考虑哪些项目。” Pereira 补充道。她和她的同事期望其他研究人员能够利用他们创建的网络来分析他们最感兴趣的蛋白如何适应更广泛的分子宇宙。
伦敦大学学院的计算生物学家Christine Orengo很高兴有新的方法来探索蛋白质宇宙。但她提醒道,有些高度准确的AlphaFold预测结构不一定是研究人员感兴趣的功能蛋白或功能域。Orengo表示,抛开这些异常,该方法仍然为研究者提供了探索新的蛋白质家族的宝库,“这一点非常令人兴奋。”
Google DeepMindAlphaFold团队的负责人John Jumper尽管没有参与这两项研究,但他很高兴看到研究人员开发出新的方法来探索他和他的同事们所释放的宇宙。他认为这些研究标志着一个新的、前所未有的蛋白质结构领域的开始,“我希望我们将看到更深入的研究成果。”
参考文献:
[1]. Barrio-Hernandez, I. et al. Nature(2023)
[2]. Durairaj, J. et al. Nature(2023).
阅读原文内容:
https://doi.org/10.1038/d41586-023-02892-z
往期精品(点击图片直达文字对应教程)
机器学习