疫情高峰期,研究人员竞相开发一些首批有效的COVID-19治疗方法:从已经康复的人的血液中分离出来的抗体分子。
现在,科学家已经证明,生成式人工智能(AI)可以通过一些繁琐的过程提供捷径,提出增强抗病毒(如SARS-CoV-2和埃博拉病毒)抗体效力的序列。上周在《自然·生物技术》杂志上发表的一项研究是日益增长的努力的一部分,这些努力是应用类似于ChatGPT人工智能平台背后的“神经网络”来进行抗体设计。
包括乳腺癌和类风湿性关节炎在内的疾病的抗体药物每年在全球销售额超过1000亿美元。研究人员希望生成式人工智能——能够根据学习的模式创建文本、图像和其他内容的神经网络——将加速开发并有助于解锁对传统设计方法进行抵抗的靶向抗体药物。
“人们对发现和工程化抗体以及如何使抗体更好的兴趣非常浓厚,”斯坦福大学的生物化学家彼得·金(Peter Kim)说。
免疫武器
抗体是免疫系统抵御感染的关键武器之一。这些蛋白质已经成为生物技术行业的宠儿,部分原因是它们可以被工程化以附着于几乎任何想象得到的蛋白质上以操纵其活性。但是生成具有有用特性的抗体和改进这些特性需要“大量的暴力筛选”,斯坦福大学的计算生物学家布赖恩·海(Brian Hie)说,他也是该研究的共同主导者。
为了查看生成式人工智能工具是否可以减少一些麻烦工作,Hie, Kim和他们的同事使用了名为蛋白质语言模型的神经网络。这些模型类似于ChatGPT等工具的“大语言模型”。但是,蛋白质语言模型不是输入大量文本,而是在数千万个蛋白质序列上进行训练。
其他研究人员已经使用这样的模型设计全新的蛋白质,并帮助高精度地预测蛋白质的结构。Hie, Kim的团队使用了由总部位于纽约的科技巨头Meta旗下的Meta AI研究人员开发的蛋白质语言模型,来提出一些针对抗体的小数量的突变建议。
该模型仅仅在几千个抗体序列上进行了训练,而其中学习的近1亿个蛋白质序列。尽管如此,该模型的建议中有令人惊讶的高比例增强了抗体对SARS-CoV-2、埃博拉病毒和流感病毒等病毒结合其靶标的能力。
针对治疗埃博拉的疗法和治疗COVID-19的疗法的改进提高了这些分子识别和阻断这些病毒感染细胞所使用的蛋白质的能力。
Hie, Kim说,许多建议针对抗体的变化发生在与其靶标相互作用的蛋白质区域之外,而这通常是工程努力的重点。“这个模型正在探索完全或大部分对抗体工程专家来说甚至是非常不明显的信息,”。
全新的蛋白质
“这是人们将用来改进其抗体的工具,”英国牛津大学免疫信息学研究员夏洛特·迪恩说。“我认为这非常棒。”但她补充说,许多研究人员希望与其仅仅改进现有的抗体,生成式人工智能将能够创建全新的抗体来结合特定的靶标。
这种能力可以帮助研究人员开发针对其他抗体设计方法无法攻克的分子靶点的药物,位于马萨诸塞州波士顿的公司Nabla Bio的联合创始人Surge Biswas表示。
例如,人工智能可以帮助解决G蛋白偶联受体(G-protein-coupled receptors)这类蛋白质的设计,这是一类嵌入到细胞膜中的蛋白质,涉及神经学疾病、心脏病和无数其他疾病。Biswas称,生成式人工智能还可以帮助设计能够结合多个目标(例如,肿瘤蛋白和能够杀死该肿瘤的免疫细胞)的抗体药物。
斯坦福大学生物工程师Possu Huang表示,蛋白质语言模型非常强大,能够优化现有的蛋白质,包括抗体。但是,仅基于蛋白质序列进行训练的模型可能难以设计出真正新颖的抗体来识别指定的蛋白质。
研究人员表示他们正在取得进展。今年3月,华盛顿州温哥华的生物技术公司Absci的科学家在bioRxiv服务器上发布了一篇预印本文章,报告了他们使用了包含蛋白质序列和实验数据的模型,生成了用于治疗乳腺癌的抗体药物的几个重要区域的新设计,他们称这是使用人工智能制造新型抗体的第一步。
设计全新的抗体的一个关键挑战是它们识别特定目标的能力取决于抗体结构中的弯曲环。研究人员表示,这些相互作用很难用人工智能建模。
参考资料
Hie, B. L. et al. Nature Biotechnol.
https://doi.org/10.1038/s41587-023-01763-2 (2023).
Shanehsazzadeh, A. et al. Preprint at BioRxiv
https://doi.org/10.1101/2023.01.08.523187 (2023).
Eguchi, R. R. et al. Preprint at BioRxiv
https://doi.org/10.1101/2022.12.22.521698 (2022).
https://www.nature.com/articles/d41586-023-01516-w