模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

news2025/1/12 1:53:07

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞。

在这里插入图片描述

能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。
继AlphaFold 3更新后,我们又看到了一个生命科学领域的大模型ESM3。

模型开发团队来自于名为Evolutionary Scale AI的初创公司,团队负责人Alex Rives在推特上官宣了模型发布的消息。

这个令人振奋的消息也得到了Yann LeCun的转发,他表示,你们这个公司有点「闷声发大财」的意思。

在这里插入图片描述

相比AlphaFold系列,ESM3有什么竞争优势?

首先就是Meta团队轻车熟路的——开源。

虽然模型API仍处于内测阶段,需要申请试用资格,但模型代码已经放到了GitHub上。而且公司还会与AWS和英伟达云计算平台合作,方便开发者使用和部署。

仓库地址:https://github.com/evolutionaryscale/esm

但比较遗憾的是,目前在HuggingFace仓库中还没有公开模型权重。英伟达官方博客显示,ESM3将在Nvidia BieNeMo平台提供一个小型开源版本的代码和权重,但仅限于非商业用途。

仓库地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3与不同于模拟多种生物分子的AlphaFold 3,只专注于蛋白质,但可以同时推理其序列、结构和功能,这种多模态能力属于领域首创。

更让人耳目一新的是,ESM3在自然界中27.8亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看,ESM的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟5亿年进化」的标语。

或许你已经注意到了,ESM这个名字和Meta之前的蛋白质模型ESMFold非常类似。

这并不是有意擦边。事实上,Evolutionary Scale这家初创公司就是Meta-FAIR蛋白质小组的前成员创办的,公司的首席科学家Alex Rives正是这个已解散团队的前负责人。

去年8月,在Meta的「效率年」中,扎克伯格选择解散了只有十几名科学家的蛋白质小组,让公司专注于更有盈利前景的研究。

但Rives并没有被Meta的这种举动吓倒,而是决定自立门户,他们目前已经筹集了1.42亿美元的种子资金。

那么就来仔细看看,这次的ESM3具体有哪些新内容?

ESM3:生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化,但是它的合成遵循严密的算法与流程。如果把它看成一门技术,其先进程度远远超过任何人类创造的工程。

生物学,就是一个厚厚的密码本。

只不过,这个密码本是用我们尚未理解的语言写就的,即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读,甚至是书写「生命代码」,就能使生物学变得可编程。试错法将被逻辑取代,费力的实验将被模拟所取代。

ESM3就是朝这个宏伟愿景迈出的一步,是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中LLM的突飞猛进,也让ESM团队发现了Scaling Law的威力,他们发现,同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大,模型会加深对生物学基本原理的理解,并能更好地预测、设计生物结构和功能。

因此,ESM3的开发思路也与Scaling Law一脉相承,其规模比上一代ESM大大扩展,数据量提高了60倍,训练计算量提高了25倍,并且是具有原生多模态的生成模型。

ESM3的训练过程囊括了地球自然环境的多样性——数十亿种蛋白质,从亚马逊雨林到海洋深处,小到土壤中的微生物,极端到深海热泉。

HuggingFace上的模型卡显示,训练集中天然蛋白质数量达到27.8亿,并通过合成数据增强到31.5亿个序列、2.36个结构以及5.39亿个带有功能注释的蛋白质,token总数达到7710B。

模型训练参数总量达到98B,使用了超过1024 FLOPS的算力。团队似乎与英伟达紧密合作,训练使用了Andromeda集群,是当今吞吐量最高的GPU集群之一,部署了最先进的H100 GPU和Quantum-2 InfiniBand网络。

在这里插入图片描述

网页来源:https://andromeda.ai/
他们表示「相信ESM3的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能
处理文本的语言模型一般以token作为基本单位,但多模态的蛋白质模型更加复杂,需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力,ESM3使用的词汇在同一语言模型中能够很好地连接序列、结构和功能,进行联合推理。

不同于GPT等语言模型,ESM3的训练目标继承于掩码语言模型(masked language modeling objective)。

每个蛋白质的序列、结构、和功能的部分位置会被掩码,模型在训练过程中需要逐渐理解三者之间的深层联系,从而预测掩码位置。如果遮蔽所有位置的标记,就相当于执行生成任务。

由于在蛋白质的序列、结构和功能上联合训练,对这三种模态可以任意进行掩码和预测,因此ESM3实现了「全对全」预测或生成(all to all)。

也就是说,模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值,科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。

比如,可以提示模型结合结构、序列和功能,提出PET酶活性位点的潜在支架结构。PET是一种常用的塑料,如果PET酶设计成功,就能用于高效分解塑料废物。

在这里插入图片描述

ESM3通过序列、结构和功能的多模态提示设计PET酶活性位点的支架

Evolutionary Scale的联合创始人兼兼工程副总裁Tom Sercu表示,在内部测试中,ESM在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题,创造一种新型绿色荧光蛋白。ESM3能够帮助科学家加速工作,开辟新的可能性——我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置,具有丰富的多样性时,模型还能学到模拟进化的能力。

能力随规模涌现
正如LLM在规模扩展中「涌现」出了语言理解、推理等能力,在解决有挑战性的蛋白质设计任务时,ESM3也随规模增加逐渐显现能力,其中一个重要的能力就是原子级协调。

比如,提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近,但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要,而ESM3解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此,在训练完成后,ESM3的能力还有进一步提升的空间,其机制类似于LLM常用的RLHF方法。

但区别在于,ESM3并不是从人类那里接受反馈,而是可以评估自身的生成质量,进行自我改进,也可以结合已有的实验数据和湿实验结果,让ESM3的生成与生物学结果保持对齐。

在这里插入图片描述

模拟5亿年的进化

在发表的论文中,ESM3团队详细介绍了他们在模型上观察到的「模拟进化」功能。

论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

绿色荧光蛋白(Green Fluorescent Protein,GFP)及其荧光蛋白家族是自然界中最美丽的蛋白质之一,但它们只存在于「生命之树」的几个分支中。

但GFP不仅仅是美丽而已,它包含一种荧光发色团(fluorescent chromophore)。这种分子可以吸收短波长的单色光子、捕获部分能量,再释放出波长较长的另一种单色光子。比如,自然界存在的GFP可以吸收蓝光并发出绿光。

由于这种特性,GFP能够作为标记,帮助科学家在细胞内观察蛋白质,成为了生物学中最广泛使用的工具之一,GFP的发现也因此获得了诺贝尔奖。

GFP的功能如此独特且有用,结构也是非常罕见:由十一条链组成的桶状结构,中间穿过一条螺旋。折叠后进行自发反应,在蛋白质中心的分子会重新排列,产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团,这表明即使在自然界中,产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用,科学家们尝试添加突变或改变颜色,进行人工合成。最新的机器学习技术能够搜索到序列差异高达20%的变体,但功能性GFP的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单,因为新荧光蛋白的进化需要漫长的时间——GFP所属家族的历史相当久远,它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在ESM3这里得到解决。

将天然GFP核心结构中几个位点的信息作为提示,并使用CoT技巧,ESM3成功生成了新型GFP的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索,因为可能的序列和结构的组合起来会达到天文数字——20229 x 4096229 ,比可见宇宙中所有的原子数加起来还要多。

在首次实验中,团队测试了ESM3生成的96个候选蛋白,其中出现了成功的发光样本,而且存在一种十分独特的结构,与自然界中任何蛋白质都相差甚远。

在另一组96个候选样本中,发现了几种亮度与天然GFP相似的蛋白质,其中一种亮度最高的蛋白质被命名为esmGFP,与最接近的天然荧光蛋白相比有96个突变(在229个氨基酸组成的序列中,有58%的相似部分)。

与自然进化不同,蛋白质语言模型并不在进化约束内明确工作。

但为了让ESM3解决其预测下一个掩码token的训练任务,模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说,ESM3生成与天然蛋白十分相似的esmGFP的过程,可以被视为一种进化模拟器。

对esmGFP进行传统的进化分析是自相矛盾的,因为它是在自然过程之外创造的,但仍可以从进化生物学的工具中获得洞见,了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此,研究团队使用进化生物学的方法,把esmGFP当成自然界新发现的蛋白质进行分析。他们估计,esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。

在这里插入图片描述

开放模型

自成立以来,ESM项目(ESM project)一直致力于通过发布代码和模型来实现开放科学。目前仍能在GitHub和HuggingFace上找到团队在几年前发布的代码和模型权重。

仓库地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main
看到ESM模型在研究和工业领域的创造性和有影响力的应用,可谓是令人惊叹:

  • Hie等人使用ESM-1v和ESM-1b来进化抗体,改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。
  • BioNTech和InstaDeep微调了一个ESM语言模型,用于检测COVID刺突蛋白中的变异,成功地在WHO指定之前标记了所有16种关注变异。
  • Brandes等人使用ESM-1b来预测突变的临床效果,目前这仍是完成该重要任务的最强方法。
  • Marsiglia等人使用ESM-1v来设计新的抗CRISPR蛋白变体,这些变体在保持目标编辑功能的同时,减少了对非目标副作用。
  • Shanker等人使用ESM-IF1引导多样蛋白的进化,包括实验室验证的对SARS-CoV-2高效抗体。
  • Yu等人微调了ESM-1b来预测酶的功能,包括稀有和研究不足的酶,并通过实验验证了预测结果。
  • Rosen等人使用ESM2嵌入来构建单细胞基础模型中的基因表示。
  • Høie等人微调了ESM-IF1在抗体结构上的表现,在CDR区域的序列恢复中达到了最先进的性能,设计出了高结合亲和力的抗体。
    而这些,只是建立在ESM平台上的惊人工作的一小部分!

如今,团队正式宣布,将发布一个ESM3 1.4B参数版本的权重和代码,以便科学家和开发人员能够基于ESM3的理念和架构进行构建。

参考资料:
https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/

https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

https://www.evolutionaryscale.ai/blog/esm3-release

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1896169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搞了个 WEB 串口终端,简单分享下

每次换电脑总要找各种串口终端软件,很烦。 有的软件要付费,有的软件要注册,很烦。 找到免费的,还得先下载下来,很烦。 开源的软件下载速度不稳定,很烦。 公司电脑有监控还得让 IT 同事来安装&#xff0…

基于FreeRTOS+STM32CubeMX+LCD1602+AD5621(SPI接口)的DAC控制输出Proteus仿真

一、仿真原理图: 二、运行效果: 三、STM32CubeMX配置: 1)、GPIO配置: 2)、freertos配置: 四、软件部分: 1)、main主函数: /* USER CODE BEGIN Header */ /** ****************************************************************************** * @file …

华为ENSP防火墙+路由器+交换机的常规配置

(防火墙区域DHCP基于接口DHCP中继服务器区域有线区域无线区域)配置 一、适用场景: 1、普通企业级网络无冗余网络环境,防火墙作为边界安全设备,分trust(内部网络信任区域)、untrust(外部网络非信…

算法思想总结:优先级队列

一、最后一块石头的重量 . - 力扣(LeetCode) 我们每次都要快速找到前两个最大的石头进行抵消,这个时候用优先级队列(建大堆),不断取堆顶元素是最好的!每次删除堆顶元素后,可以自动调整&#xf…

前端面试题10(js多位数组变一维数组)

1. 使用concat()和递归 function flatten(arr) {return arr.reduce((acc, val) > Array.isArray(val) ? acc.concat(flatten(val)) : acc.concat(val), []); }let multiDimArray [[1, 2, [3]], 4]; let flatArray flatten(multiDimArray); console.log(flatArray); // 输…

GTest和Catch2单元测试学习(附Cmake测试代码库)

kevin_CTest CTest 单元测试学习 Gitee库: https://gitee.com/bigearrabbit/kevin_ctest.git 示例多是从网页文章上摘取的,大部分记录在下面,或者源码内。供学习参考。 CTest 学习Catch2 框架 单个文档的测试架构,使用方便&am…

【SQL】已解决:SQL错误(15048): 数据兼容级别有效值为100、110或120

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决SQL错误(15048): 数据兼容级别有效值为100、110或120 在数据库开发和管理过程中,我们经常会遇到各种各样的错误。本文将详细分析SQL错误(15048)的背景、可能原因、…

转型AI产品经理前需要搞懂的9个问题

笔者近10年来一直工作于AI领域技术和产品一线,今天分享9个大家普遍关注却少有人系统回答的问题。 1.下一个10年,AI产业在国内的发展和职业发展的机遇如何? 从四方面看: (1)技术角度:逐步成熟…

将代码转为Mac窗口风格的图片

前言 在写博客的时候总觉得默认的代码样式不好看,希望用类似Mac窗口那种三个小圆点的风格转成图片贴出来,所以自己动手做了一个。 一、效果展示 二、在线使用 代码图片生成工具:有码高清 三、源码

【Python机器学习】算法链与管道——利用网格搜索选择使用哪个模型

我们可以进一步将GridSearchCV和Pipeline结合起来:还可以搜索管道中正在执行的实际步骤(比如用StandardScaler还是用MinMaxScaler)。这样会导致更大的搜索空间,应该予以仔细考虑。 尝试所有可能的解决方案,通常并不是…

MySQL—创建查看删除备份恢复数据库

创建数据库 创建数据库 LLF_DB01CREATE DATABASE LLF_DB01删除数据库DROP DATABASE LLF_DB01创建一个使用utf8字符集的数据库并带校对规则的数据库CREATE DATABASE hsp_db03 CHARACTER SET utf8 COLLATE utf8_bin 查看、删除数据库 显示所有的数据库SHOW DATABASES显示数据库…

C++和Python蚂蚁搬食和蚊虫趋光性和浮标机群行为算法神经网络

🎯要点 🎯机器人群行为配置和C行为实现:🖊脚底机器人狭隘空间导航避让障碍物行为 | 🖊脚底机器人使用摄像头耦合共振,实现同步动作 | 🖊脚底机器群使用相机,计算彼此间“分子间势能…

opencv实现目标检测功能----20240704

早在 2017 年 8 月,OpenCV 3.3 正式发布,带来了高度改进的“深度神经网络”(dnn)模块。 该模块支持多种深度学习框架,包括 Caffe、TensorFlow 和 Torch/PyTorch。这次我们使用Opencv深度学习的功能实现目标检测的功能,模型选用MobileNetSSD_deploy.caffemodel。 模型加载…

Linux 文件系统以及日志管理

一、inode 与block 1. inode 与block详解 在文件存储硬盘上,硬盘的最小存储单位叫做“扇区”,每个为512字节。 操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取…

传感器标定(一)摄像头内参标定

一、使用ROS进行手动标定安装 1、安装 image-view &usb_cam ⽤于驱动相机 sudo apt-get install ros-melodic-image-view sudo apt-get install ros-melodic-usb-cam2、查看系统视频设备 v4l2- ctl -d /dev/video0 --all 查询所有相机具体的参数包括width和height ls /…

JavaScript原型对象和对象原型、原型继承、原型链

目录 1. 原型对象和对象原型2. 原型继承3. 原型链 1. 原型对象和对象原型 作用: 以前通过构造函数实例化的对象,每个实例化的对象的属性和方法都是独立的,会造成内存浪费。通过prototype对象原型能实现不同实例化对象共享公用的属性和方法,减…

macos下搭建minikube dashboard的启动

背景 最近在复习一下k8s环境相关的知识,需要在自己电脑上搭建一个minikube的环境供自己使用。但是因为docker的镜像仓库最近被墙了,因此在执行minikube dashboard的时候,拉不到相应的镜像,就导致页面看不到相应的一些信息因此本文…

嵌入式上gst rtsp server opencv mat

0 安装gstreamer sudo apt install libgstreamer1.0-0 gstreamer1.0-plugins-base gstreamer1.0-plugins-good gstreamer1.0-plugins-bad gstreamer1.0-plugins-ugly gstreamer1.0-libav gstreamer1.0-doc gstreamer1.0-tools gstreamer1.0-x gstreamer1.0-alsa gstreamer1.0-…

如何用手机拍出高级感黑白色调照片?华为Pura70系列XMAGE演绎黑白艺术

在影像的世界里,色彩可以让画面更丰富,更具有表现力,往往也能带来更多的视觉冲击。但有时候,黑白却有着一种独特的魅力。华为Pura 70系列XMAGE黑白风格,则给我们了一把通过纯粹艺术大门的钥匙。 XMAGE黑白并非简单的色…

水利行业的智慧化转型实践:结合具体案例,探讨智慧水利在提升水资源利用效率、改善水生态环境方面的实际效果

目录 一、引言 二、智慧水利的定义与意义 三、智慧水利在提升水资源利用效率方面的实践 1. 智慧灌溉系统 2. 智慧供水系统 3. 智慧水务管理平台 四、智慧水利在改善水生态环境方面的实践 1. 智慧水质监测系统 2. 智慧水生态修复系统 3. 智慧防洪减灾系统 五、具体案例…