科学家们创建了一个能够从头合成人工酶的人工智能系统。实验测试发现,一些酶与自然界中发现的酶具有相同的功效,即使人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。
实验表明,尽管自然语言处理是为了阅读和编写语言文本而开发的,但它也可以学习生物学的一些基本原理。Salesforce Research开发了名为ProGen的AI程序,该程序使用next-token预测将氨基酸序列组装成人工蛋白质。
科学家们表示,这项新技术可能会比获得诺贝尔奖的定向进化蛋白质设计技术更强大,它将通过促进新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力,这些蛋白质将被广泛应用于医学治疗甚至塑料降解等领域。
“人工设计比受进化过程启发的设计具备更好的优势,”加州大学旧金山分校药学院生物工程和治疗科学的教授James Fraser博士说,他是这项工作的作者之一,该工作于2023年1月26日发表在《Nature Biotechnology》杂志。
“语言模型可学习进化的各个方面的知识,但它与正常的进化过程不同,”Fraser说。“我们现在有能力调整这些属性的生成以获得特定效果。例如,可以合成一种非常耐热或耐酸性环境或不与其他蛋白质相互作用的酶。
为了创建该模型,科学家们需将28亿种不同蛋白质的氨基酸序列输入机器学习模型,花几周的时间学习蛋白质的相关信息。然后,他们通过用来自五个溶菌酶家族的56000条序列以及有关这些蛋白质的特征信息对模型进行微调。
该模型会迅速生成一百万条序列,研究小组根据这些序列与天然蛋白质序列的相似程度以及AI蛋白质的氨基酸“语法”和“语义”,选择100条序列进行测试。(注:这里的选择就有很大随机性了??)
利用Tierra Biosciences体外筛选的第一批100种蛋白质,研究小组合成了五种人工蛋白质并在细胞中进行试验,将其活性与鸡蛋蛋白中发现的母蛋清溶菌酶(HEWL)进行了比较。在人类的眼泪、唾液和牛奶中也发现了类似的溶菌酶,它们可以抵御细菌和真菌。
其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列仅有18%是相同的。这两个序列与任何已知蛋白质的相似度分别约为90%和70%。
天然蛋白质中存在一个突变即可使其失活,但在另一轮筛选中,研究小组发现,尽管仅有31.4%的序列与任何已知的天然蛋白质相同,AI生成的酶依然表现出活性。
人工智能甚至能够通过研究原始序列数据来学习酶的晶体结构。用X射线晶体学测量发现,人造蛋白质的原子结构看起来就像它们本来的样子,尽管序列是以前从未见过的。
Salesforce Research 基于他们的研究人员最初开发的一种自然语言编程 于2020 年开发了英语版本的ProGen。
依据他们先前的工作经验,人工智能系统可以自学语法和单词的含义,以及其他润色写作的基本规则。
“当你用大量数据训练基于序列的模型时,它们在结构和规则学习方面非常强大,”Salesforce Research人工智能研究总监、该论文的资深作者Nikhil Naik博士说。“他们学会了哪些单词可以同时出现,并且符合语义。
对于蛋白质,设计方案几乎是无限的。溶菌酶和蛋白质一样小,最多约300个氨基酸。但是如果有 20 种可能的氨基酸,就会有有大量的 (20300) 可能的组合方式。这比把所有生活在古往今来的人类乘以地球上的沙粒数,再乘以宇宙中的原子数还要大。
鉴于无限的可能性,该模型可以如此容易地产生活性酶是非常了不起的。
“从头合成功能蛋白质的能力表明我们正在进入蛋白质设计的新时代,”Profluent Bio创始人,Salesforce Research前研究科学家,该论文的第一作者Ali Madani博士说。“这是蛋白质工程师可以使用的多功能新工具,我们期待看到它在治疗领域的应用。
AI模型详情参见: https://github.com/salesforce/progen
深度学习语言模型在各种生物技术应用中表现出很大的潜力,包括蛋白质设计和工程领域。本文描述了一个语言模型ProGen,利用该模型可以生成蛋白质家族中具有可预测功能的蛋白质序列,类似于在不同主题上生成语法和语义正确的自然语言句子。该模型利用了超过19,000个家族的2.8亿个蛋白质序列进行训练,采用蛋白质特异性控制标签加强了模型的准确性。通过对ProGen的训练序列集和标签进行微调,可进一步改善具有充足同源样本家族蛋白质的可控生成性能。尽管微调后的人造蛋白质与天然蛋白质的序列相似性低至31.4%,但在五个不同的溶菌酶家族中均显示出类似于天然溶菌酶的催化效率。正如我们在分支酸变异酶(chorismate mutase)和苹果酸脱氢酶(malate dehydrogenase)中所演示的那样,ProGen可以轻松合成不同蛋白质家族中成员。
点击阅读原文:
https://www.sciencedaily.com/releases/2023/01/230126124330.htm
查看原文信息:
http://dx.doi.org/10.1038/s41587-022-01618-2
往期精品(点击图片直达文字对应教程)
机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集