【NB 2023】从一般蛋白质语言模型中高效进化人类抗体

news2025/1/19 6:52:02

Efficient evolution of human antibodies from general protein language models

哈佛大学化学与化学生物学系和圣路易斯华盛顿大学的研究人员共同完成的一篇论文,发表在Nature Biotechnology上。

抗体是一种大分子,属于免疫球蛋白家族,它们的分子量通常在150 kDa以上,具有高度特异性的结合能力,可以与抗原结合并进行免疫反应。 


这篇文章介绍了一种使用通用蛋白质语言模型来加速人类抗体进化的方法。研究人员训练了一种基于大规模蛋白质序列数据的语言模型,该模型可以预测蛋白质序列的下一个氨基酸。然后,他们使用这个模型来预测在人类抗体的可变区域中进行的突变,并针对这些突变进行计算机模拟,以确定哪些突变可能会增加抗体的亲和力。最终,他们使用这种方法成功地改进了三种抗体的亲和力。这种方法可以提高人类抗体的快速进化,并有望在药物开发中发挥重要作用。

近年来,抗体的制备技术在医学领域的应用越来越广泛。然而,高亲和力的抗体的制备仍然是一项具有挑战性的任务。为了提高抗体的亲和力,科学家们通常会利用定向进化技术,但这种方法需要大量的实验操作和时间。本项研究不依赖于特定的抗体序列或结构信息,而是利用通用的蛋白质语言模型,根据自然界的进化规律,筛选出符合要求的氨基酸替换,从而提高抗体的亲和力。这种方法为开发更有效的抗体提供了新思路。下面我们将对这项研究进行详细介绍。


 Fig. 1 | Guiding evolution with protein language models. a,b, Two possible models for relating the space of mutations with high evolutionary plausibility (for example, mutations seen in antibodies) to the space with high fitness under specific selection pressures (for example, mutations that result in high binding affinity to a specific antigen). Both models assume that mutations with high fitness make up a rare subset of the full mutational space and that, in general, high-fitness mutations are also evolutionarily plausible. Under the first model (a), mutations with high fitness are rare within the subset of mutations that are evolutionarily plausible. Under the second model (b), when restricted to the regime of plausible mutations, improvements to fitness become much more common. c, Protein language models, trained on millions of natural protein sequences learn amino acid patterns that are likely to be seen in nature. We hypothesized that most mutations with high language model likelihood would also be evolutionarily plausible. Assuming that this is true, and if the second model (b) better describes nature, then a language model with no information about specific selection pressures can still efficiently guide evolution.

通过广义语言模型获得氨基酸替代方案的方法

该研究分别使用多个蛋白质语言模型预测目标抗体中可能进行的突变,并使用多个模型一致推荐的预测方案得到符合要求的氨基酸替换策略。

我们将一个给定的原始序列x作为输入

,其中,\chi 是一组氨基酸序列,N代表该序列的长度。另外我们还需要一组经过预训练的masked language models用以产生条件似然概率。为了指导基于特定语言模型的进化,我们首先计算语言模型可能性高于野生类型的替换集,其公式可表示如下:

其中 p_{j} 表示其中一个语言模型,表示野生型抗体的一个氨基酸残基,并且.为了进一步过滤仅具有最高可能性的替换方案,我们选择多个模型一致推荐的预测方案作为最终的替换方案,其中,对于新的氨基酸,我们计算

然后,我们在多个语言模型中获得比野生型更高可能性的替换集,该替换集可用公式表示如下:

其中是截止值,其控制要测量的对应变体的数量。

在这篇文章中使用了六个大规模的masked language models,即来自 https://github.com/facebookresearch/esm 的ESM-1b模型和五个模型,它们组合在一起形成ESM-1v20。ESM-1b是在UniRef50的2018-03版本上进行训练的,该版本包含约2700万个序列,而ESM-1v中的五个模型则分别在UniRef90的2020-03版本上进行训练,该版本包含约9800万个序列。

通过使用语言模型得到符合要求的氨基酸替换后,再从这些方案中筛选出可能会增加抗体亲和力的替换方案。然后,他们使用计算机模拟来评估这些替换方案的效果,并选择最优的替换进行实验验证。

实验结果

作者通过在语言模型的指导下进行抗体的模拟进化来验证文章中的假设,以亲和力成熟的七种抗体作为本次实验的对象,这七种抗体分别是MEDI8852,MEDI8852 UCA,mAb114,mAb114 UCA,S309,REGN10987,C143。作者使用ESM-1b语言模型和ESM-1v五种语言模型的集合(总共六种语言模型)进行了进化。作者使用这些语言模型来计算对重链(VH)或轻链(VL)的抗体可变区的所有单个氨基酸替换的可能性,并选择其中具有更高进化可能性的替换。这些替换在六个语言模型的一致结果下高于野生型。在第一轮进化中,通过含有一个单个氨基酸替换的变异体的生物膜干涉技术(BLI)来测量抗体与抗原相互作用强度。在第二轮中,测量了经过替换组合后的变体,并根据第一轮的结果选择原抗体或经过氨基酸替代的变异体。作者对所有七种抗体进行了这两轮进化,每种抗体在第一轮中测量了8-14个变体,在第二轮中每种抗体测量了1-11个变体,实验结果如下图a所示。另外,下图b说明了从野生型到每种抗体的最高亲和力变体的进化轨迹。经过这两轮的进化之后得到的最高亲和力的变体与原抗体的对比如下图c所示。

另外,作者还对进化后抗体的附加特征进行了详细的分析,作者发现,在推荐的31种语言模型中,有21种的Fabs,测试的亲和力增强变体比野生型具有更高的熔化温度(Tm),并且所有变体都保持热稳定性(Tm > 70 °C)。当S309进化为具有更高的亲和力时,最佳的Tm为72.8 °C,相比之下野生型为72.5°C,而sotrovimab中引入VH N55Q取代策略将Tm降低至69.6°C,如上图b所示。mAb114、mAb114-UCA、REGN10987和C143的进化变体也保留或改善了Tm;当进化出mAb114 UCA时,作者观察到的最高变化是从74.5 °C增加至82.5°C。然而,热稳定性的改善并不能完全解释亲和力成熟结果,因为作者观察到MEDI8852及其UCA的亲和力成熟变体的Tm有所降低,尽管这些Fab仍然是热稳定性的。

此外,作者还测试了亲和力成熟设计的多种可能的特异性结合,因为在治疗环境中结合非预期的靶标可能会导致不良的副作用。对于七种抗体中的每一种,作者使用评估与可溶性膜蛋白非特异性结合的多特异性测定法测试了野生型和三种亲和力成熟的变体。作者观察到所有七种抗体的任何变体的多特异性没有实质性变化,并且所有测试的抗体的多特性值都在治疗可行范围内,如下图a所示。

另外,本文还研究了亲和力成熟变体是否具有更好的病毒中和活性。作者使用灭话病毒中和试验(方法)测试了四种抗体的亲和力增强变体,在所有情况下,变体的半最大抑制浓度值(IC50)有了显著的改善,包括针对埃博拉假病毒的最佳mAb114变体也发生了1.5倍的提升;针对严重急性呼吸系统综合征冠状病毒2β灭活病毒的最佳REGN10987变体发生了两倍提升;针对贝塔灭活病毒的最佳C143变体提高了32倍,如下图b所示。此外,与野生型相比,mAb114 UCA的亲和力成熟变体在>100倍的低浓度下表现出可检测的中和作用。一般来说,结合亲和力的变化与中和作用的变化很好地相关,如下图c所示。

结论

本研究通过基于通用蛋白质语言模型的方法实现了人类抗体的高效进化,成功地提高了抗体的亲和力和特异性。研究结果表明,通用蛋白质语言模型可以作为一种有效的工具来指导抗体亲和力成熟的研究,有望在生物医药领域发挥重要作用。

Nat. Biotechnol. | 从一般蛋白质语言模型中高效进化人类抗体

仅从蛋白质语言模型和序列信息中高效地进化人类抗体 - 哔哩哔哩

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/532491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot 启动后,调用接口时报错404问题汇总(层层推进、超全面)

线上环境 确保项目启动成功 看到这条日志才能判定项目是启动成功的 确保controller类被成功注册到了springboot容器中 首先,按springboot的类扫描规则来说,启动类和被扫描的组件类应该要在同一包下的 验证策略 从springboot容器中尝试去获取到contro…

【Springboot】yaml配置文件多环境切换

关于配置文件的详细说明可以看官方文档: 24. Externalized Configuration 以下是个人学习过程中的笔记,如有错误,请多指教! 目录 (一)配置文件 (二)yaml的概述及基本使用 yaml基本…

TCP与UDP相关知识(详细)

目录 一、UDP 和 TCP 的特点与区别 二、UDP 与TCP 首部格式 三、TCP 的三次握手和四次挥手 四、TCP 短连接和长连接的区别 五、TCP粘包、拆包及解决办法 六、TCP 可靠传输 七、TCP 滑动窗口 八、TCP 流量控制 九、TCP 拥塞控制 十、提供网络利用率 一、UDP 和 TCP 的特…

yolov8 pycharm运行(predict,不用command line)

yolov8就不介绍了,见主页 这里说下用pycharm运行。 代码参考segment页 from ultralytics import YOLO# Load a model model YOLO(yolov8n-seg.pt) # load an official model# Predict with the model results model(test_img.jpg) # predict on an image不通过…

Cube Map 系列之:手把手教你 实现 环境光贴图

什么是环境光贴图 下面先看两个例子: 使用左侧的纹理 渲染茶壶,得到茶壶对真实空间的反射效果 同样使用左侧的纹理,得到中心的球对四周物体的反射效果 所以,环境光贴图指的是通过构建物体周围世界的纹理,使用纹理贴…

25的大学生转行学云计算,能拿到10k+的月薪,是真的吗?

25的大学生转行学云计算,能拿到10k的月薪,是真的吗? 对于IT行业来说,月薪上万并不少见,毕竟互联网常年占据行业薪资排行榜首。作为技术行业,由于其发展的前沿性,引导性,也是作为其他…

26-2 vue-router

原始的方式好多东西需要我们自己去写,vue-router是一个集成好了的路由包,vue-router 官网 Vue Router | Vue.js 的官方路由 并非原始的东西就不好,只要是包就可能存在版本兼容问题,如果是简单的需求就建议用原始的方法 目录 1 …

如何进行远程控制电脑

电脑在我们日常生活中的作用是非常大的,尤其是在信息时代地位非常高。 其中,最常见、最具代表性的功能是实现远程控制功能。它可以直接解决一些问题,而不需要去现场,在一定程度上提高了工作效率。但是有很多朋友不知道如何实现远…

边缘计算盒子有哪些?边缘计算应用场景

边缘计算(Edge Computing)是一种分布式计算模型,旨在将数据处理和计算功能从中心数据中心移到数据源附近的边缘设备上。它的目标是在接近数据生成的地方进行实时数据处理和分析,减少数据传输延迟和网络拥塞,提高应用程…

计算机图形学-GAMES101-2

Vectors向量 一、向量的介绍 表示一个方向。计算向量的方法:AB (B-A)。向量对应的单位向量 AB / ||AB|| 。向量具有平移性,我们不关心它的开始位置。向量求和:三角形法则和平行四边形法则。在代数上计算直接把向量的…

如何防止网站被黑客攻击?黑客是怎样炼成的?

现在的黑客网站可谓是多如牛毛,不管在哪里只要你愿意学,都可以学到一招半式。看过别人的个性签名:卖菜的王大妈是黑客,烤红薯的李大爷也是黑客,对面成人用品店的老板,挖日,还是黑客-_-~!..黑客还真多啊!!!据…

关于对自动化测试的理解:目的与本质!(新手必看)

其实自动化测试很好理解,由两部分组成,“自动化”和“测试”,所以我们要理解自动化测试,就必须理解“自动化”和“测试”,只有理解了这些概念,才能更轻松的做好的自动化测试。其中“自动化”可以想象成通过…

晶飞FLA5000光谱仪.FlaSpec格式解析批处理导出CSV文件

引言 首先说明下晶飞上位机软件存在的问题,实验所采用的FLA5000型号光谱仪,光谱波段从280-970nm,FWHM值为2.4nm。 1、上位机软件中的光谱数据复制功能基本是废的,最多只能到599.9nm,后面的数据全部消失。 2、上位机软…

2023系统分析师---软件工程、系统规划高频错题

系统规划---成本效益分析 评价信息系统经济效益常用的方法主要有成本效益分析法,投入产出分析法和价值工程方法。盈亏平衡法常用于销售定价; 可行性分析 系统规划是信息系统生命周期的第一个阶段,其任务是对企业的环境、目标以及现有系统的状况进行初步调查,根据企业目标…

示波器的数据处理怎么记录?

示波器的使用 - 记录和保存示波器测试结果 安泰测试为您分享如何记录示波器的数据。 "从您把示波器探头连接到器件的那一刻起,信号就开启了一次瞬间即可完成的重大旅程。它必须 跨过五个不同的“模块”,才能完成从器件到示波器,最后返回…

Vue电商项目--开发floor模块

获取floor组件mock数据 开发floor组件 在开发之前,说一下之前存在的一些小毛病 那就是在开发vue中还需要通过dom这种方式来操作元素吗? 我们用ref来做这个 我们先写api 然后去找仓库 getFloorList这个action在哪里触发,是需要在Home路由组件…

计算机组成原理硬件实验 - 计算机组成实验FAQ作业

一、 Quartus II 9.0 (32-Bit) 使用问题: Q1【示例】: 显示【未授权】或者【编译成功不能生成SOF文件】 A1: 在quartus中点击【TOOLS】→【license setup】,在license.DAT中修改“HOSTID”后的字段,设置为“你的电脑最新显卡ID” Q2【示例】…

怎么学习网络安全?这篇文带你从入门级开始学习网络安全

随着网络安全被列为国家安全战略的一部分,这个曾经细分的领域发展提速了不少,除了一些传统安全厂商以外,一些互联网大厂也都纷纷加码了在这一块的投入,随之而来的吸引了越来越多的新鲜血液不断涌入。 不同于Java、C/C等后端开发岗…

网络安全学什么

由于我之前写了不少网络安全技术相关的故事文章,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人在微信里问我: 我刚入门网络安全,该怎么学?要学哪些东西?有哪些方向?怎么选&#xff…

卷麻了,可别再为难软件测试人了

前言 有不少技术友在测试群里讨论,近期的面试越来越难了,要背的八股文越来越多了,考察得越来越细,越来越底层,明摆着就是想让我们徒手造航母嘛!实在是太为难我们这些测试工程师了。 这不,为了帮大家节约时…