1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模

news2024/12/27 14:07:48

近年来,大规模预训练模型正在引领新一轮人工智能浪潮。「大模型」通过从大规模、多来源的数据中提取深层次规律,进而能够作为「基础模型」服务不同领域的多样化任务。例如,大语言模型通过学习大量文本数据,掌握了理解和识别语言的能力,革新了自然语言处理领域的范式。

同理,在生命科学领域,生物体也有其「底层语言」——细胞是人体的基本结构和功能单位,如果将 DAN、RNA、蛋白质和基因表达值比作「词语」,其组合在一起就连成了「细胞」这个句子。 所以,如果能够基于细胞「语言」开发人工智能细胞大模型,将有望为生命科学和医学提供全新的研究范式和革命性的研究工具。

然而,当前训练大规模单细胞数据主要存在以下三点挑战:

  • 基因表达预训练数据需要涵盖不同状态和类型的细胞景观,目前大多数单细胞 RNA 测序 (scRNA-seq) 数据组织松散,全面完整的数据库仍然缺失;

  • 在训练过程中,传统的 Transformer 难以处理近 2 万个蛋白质编码基因构成的「句子」;

  • 不同技术和实验室的 scRNA-seq 数据在测序深度上存在差异,这妨碍了模型学习统一且有意义的细胞和基因表示。

为了解决这些挑战,清华大学自动化系生命基础模型实验室主任张学工教授、电子系/AIR 马剑竹教授和百图生科宋乐博士合作开展研究, 于 2024 年 6 月在 Nature Methods 上发表了题为「Large-scale foundation model on single-cell transcriptomics」的研究论文。

论文介绍了名为 scFoundation 的细胞大模型,能够同时处理约 2 万个基因。 作为基础模型,它在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等多种生物医学下游任务中,表现出卓越的性能提升,提供了人工智能在单细胞研究中的新范式。

研究亮点:

scFoundation 细胞大模型基于 5 千万个细胞的基因表达数据进行训练,拥有 1 亿参数,能够同时处理约 2 万个基因* 该模型采用非对称设计减少计算和内存挑战* 该模型为基因网络推断和转录因子识别提供了新的研究思路

论文地址:
https://www.nature.com/articles/s41592-024-02305-7

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,还提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:构建全面的单细胞数据集

研究人员通过收集所有公开可用的单细胞资源数据,构建了一个全面的单细胞数据集。 其中包括 Gene Expression Omnibus (GEO),Single Cell Portal,HCA,人类基因组计划 (hECA),深度整合人类单细胞组学数据 (DISCO),欧洲分子生物学实验室-欧洲生物信息学研究所数据库 (EMBL-EBI) 等。

GEO 下载地址: https://www.ncbi.nlm.nih.gov/geo/

Single Cell Portal 下载地址https://singlecell.broadinstitute.org/single_cell
HCA 下载地址: https://data.humancellatlas.org/

EMBL-EBI 下载地址: https://www.ebi.ac.uk/

研究人员将所有数据与 HUGO 基因命名委员会确定的 19,264 个蛋白质编码和常见线粒体基因的基因列表对齐。经过数据质量控制,获得了超过 5 千万个用于预训练的人类 scRNA-seq 数据。

研究收集了 5 千万个单细胞基因表达谱

丰富的数据来源构建了富含生物模式的预训练数据集。在解剖学上,它跨越了 100 多种组织类型,涵盖了各种疾病、肿瘤和正常状态,如上图所示,几乎包括了所有已知的人类细胞类型和状态。

模型架构:构建 1 亿参数的 scFoundation 模型

研究人员开发的 scFoundation 模型具有约 1 亿参数,其参数规模、基因覆盖率和数据规模在单细胞领域均「名列前茅」。

模型设计

研究人员开发了 xTrimoGene 模型作为 scFoundation 的 backbone 模型,这是一个可扩展的基于 Transformer 架构的模型,包括一个向量模块 (embedding module) 和一个非对称的编码器-解码器结构。

其中,向量模块将连续的基因表达标量值转换为可学习的高维向量,确保完全保留原始表达值;编码器以非零 (nonzero) 和非掩码 (nonmasked) 的表达基因为输入,使用了 vanilla transformer 块并具有较大的参数量;解码器以所有基因为输入,使用了 performer 块并具有相对较小的参数量。

与其他架构相比,这种非对称设计减少了计算和内存挑战。 数据显示,该模块在保持相同参数规模的情况下,所需的计算量仅为传统语言模型 Transformer 的 3.4%。

预训练任务

研究人员设计了一种名为 RDA (read-depth-aware) 建模的预训练任务, 这是掩码语言模型的扩展,考虑了大规模数据中测序深度的高方差。

预训练过程概要

在 RDA 建模中,模型根据细胞的上下文基因预测被掩码的基因表达。研究人员将总计数视为一个细胞的测序深度,并定义了两个总计数指标:T(目标)和 S(来源),分别表示原始样本和输入样本的总计数。研究人员随机掩码输入样本中的零表达和非零表达基因,并记录它们的索引。

然后,模型使用掩码输入样本和两个指标来预测原始样本在掩码索引处的表达值。这使得预训练模型不仅能够捕捉细胞内的基因关系,还能协调不同测序深度的细胞。在推断过程中,研究人员将细胞的原始基因表达输入预训练模型,并设置 T 高于其总计数 S,以生成增强测序深度的基因表达值。

简单来说,RDA 能够对测序深度进行降采样,使得模型在预训练阶段除了完成传统的掩码恢复任务外,还能够由低质量细胞恢复高质量细胞的基因表达信息。

预训练为下游任务提供便利

预训练完成后,研究人员进一步将 scFoundation 模型应用于多个下游任务。scFoundation 编码器的输出被汇总为细胞级向量,用于细胞级任务,包括 (数据集内和跨数据集的) 聚类、批量和单细胞水平的药物反应预测以及细胞类型注释。scFoundation 解码器的输出是基因级上下文向量,用于基因级任务,如扰动预测和基因模块推断。

研究结果:scFoundation 模型具备卓越性能

在实际应用中,scFoundation 模型支持「开箱即用」和「微调」两种模式。 在「开箱即用」模式下,得益于其独特的预训练任务,该模型能直接用于提升细胞数据的质量,在不需要进一步调整的情况下便可达到或超越现有方法的效果。此外,用户可以利用 scFoundation 提取细胞的预训练表征,该表征可以用于识别细胞类型特异基因模块和转录因子,并可广泛应用于下游任务中。

可扩展的无微调测序深度增强模型

研究人员分别训练了参数量为 3M、10M 和 100M 的三个模型,并记录了它们在验证数据集上的损失。

不同参数大小和 FLOPs 下的训练损失绿色曲线代表 3M 模型,橙色曲线代表 10M 模型,红色曲线代表 100M 模型

随着模型参数和浮点运算次数 (FLOPs) 的增加,验证数据集上的损失呈现出幂律下降。然后,研究人员估算了各种规模的 xTrimoGene 架构模型的性能,并与 scVI 进行比较。如上图所示,具有 1 亿参数的 scFoundation 模型在所有模型中表现最佳。 研究人员进一步在细胞类型注释任务上评估了 3 个模型,观察到随着模型规模的增加,性能有所提升。

研究人员在从验证数据集中随机抽取的 1 万个细胞的独立测试数据上评估了这种能力,其将总计数降采样到原始数据的 1%、5%、10% 和 20%,生成了 4 个具有不同总计数变化的数据集。对于每个数据集,其使用未微调的 scFoundation,测量了预测值与实际非零基因表达之间的平均绝对误差 (MAE)、平均相对误差 (MRE) 和皮尔逊相关系数 (PCC)。

对未知数据集上读深度增强性能的评估使用 MRE 和 PCC 来评估恢复的基因表达性能,较低的 MRE 和较高的 PCC 表明性能更佳

如上图所示,即使在降采样率低于 10% 的情况下,scFoundation 的 MAE 和 MRE 也显著减少了一半。这些结果展示了 scFoundation 在总计数极低的情况下增强基因表达的能力。

下游任务——癌症药物反应预测任务

癌症药物反应 (CDRs) 旨在研究肿瘤细胞在药物干预下的反应,计算预测 CDR 对于指导抗癌药物设计和理解癌症生物学至关重要。在本研究中,研究人员将 scFoundation 与 CDR 预测方法 DeepCDR 结合,预测多个细胞系数据中药物的半数抑制浓度 IC50 值,以验证 scFoundation 能否为基于单细胞训练的整体基因表达数据提供有用的嵌入信息。

研究人员评估了基于 scFoundation 的结果与基于基因表达的结果在多个药物和癌症细胞系上的表现,结果显示大多数药物和所有癌症类型使用 scFoundation 嵌入都取得了更高的皮尔逊相关系数 (PCC), 如下图所示:

使用 scFoundation 嵌入进行药物反应预测

  • 注:皮尔逊相关系数是一种衡量变量之间线性关系强弱的统计量,取值范围在 -1 到 1 之间。相关系数接近 1,表明两个变量之间存在完全正向的线性关系;接近 -1,说明存在完全负向的线性关系;接近 0,表示两个变量之间没有线性关系。

这说明,尽管 scFoundation 在单细胞转录组数据上进行了预训练,但学习到的基因关系可以转移到整体水平的表达数据上, 生成压缩的向量,促进更准确的 IC50 预测。因此 scFoundation 在扩展对癌症生物学中药物反应的理解,以及指导更有效的抗癌治疗设计中具备一定潜力。

下游任务——单细胞药物反应分类任务

在单细胞水平上推断药物敏感性有助于识别表现出不同药物耐药特征的特定细胞亚型,从而提供有关潜在机制和新疗法的宝贵见解。因此,研究人员将 scFoundation 应用于单细胞药物反应分类这一关键任务,基于一个称为 SCAD 的下游模型。

研究人员重点研究了四种药物 (索拉非尼、NVP-TAE684、PLX4720 和足叶乙甙),它们在原始研究中表现出较低 AUC (Area Under Curve) 值。其将基于 scFoundation 的模型与以所有基因表达值作为输入的基线 SCAD 模型进行了比较,结果显示,基于 scFoundation 的模型在所有药物的 AUC 值上,都取得了更高的分数,对于 NVP-TAE684 和索拉非尼尤为显著,AUC 值增加了超过 0.2,如下图所示。

基于 scFoundation 细胞嵌入的单细胞药物反应分类任务

注:AUC 可以用来衡量模型的性能,AUC 的取值范围是 0 到 1,值越大代表模型分类性能越好。

这些结果验证了使用 scFoundation 嵌入具有捕捉药物敏感性生物标志物信号的潜力。

下游任务——细胞扰动预测任务

理解细胞对扰动的响应对于生物医学应用和药物设计至关重要,有助于识别不同细胞类型间的基因-基因相互作用和潜在的药物靶点。研究人员将 scFoundation 与一个高级模型 GEARS 结合起来,以预测单细胞分辨率的扰动响应,并计算了前后基因表达轮廓差异显著的前 20 个差异表达 (DE) 基因的平均均方误差 (MSE),作为评估标准。

结果显示,与原始 GEARS 基线模型相比,基于 scFoundation 的模型取得了更低的 MSE 值。 下图展示了双基因扰动 ETS2 + CEBPE 的前 20 个基因表达变化:

组合扰动 (ETS2 + CEBPE) 后,前 20 个 DE 基因的预测基因表达量高于对照

这些结果表明,通过提取单个细胞的基因表征来构建特定的基因共表达网络,scFoundation 成功捕捉了不同条件下的细胞和基因表征,显著提高了单/双扰动预测的准确度。

综上所述,scFoundation 模型为建立细胞预训练大模型的模型架构、训练框架,和下游示范应用体系都提供了新的思路和方法,为生物医学任务的学习提供了基础功能,拓展了单细胞领域基础模型的边界。

探究性能更优的生命科学大模型

全球领先的人工智能企业 DeepMind 首席执行官兼创始人 Demis Hassabis 曾经表示:「从最基本的层面来看,生物学可以被看作是一个非常复杂且动态的信息处理系统。就像数学被证明是物理学的正确描述语言一样,生物学可能会成为完美的人工智能应用领域。」

然而,传统的人工智能方法需要大量的标记数据才能作出准确的预测。但在生命科学领域,高质量的标记数据往往供不应求。想要在更少数据的基础上构建更准确的下游任务模型,就意味着底层基础模型需要具有更好的表征或通用能力。因此,越来越多研究人员开始致力于设计更优的生物领域垂直大模型。

2023 年 5 月,多伦多大学研究团队发布首个单细胞生物学基础大型语言模型 scGPT, 其在超 1 千万个细胞上进行预训练,该模型可实现跨各种下游任务的迁移学习。同年 7 月,该团队进一步尝试对超过 33,00 万个细胞进行生成预训练来更新 scGPT,结果表明,scGPT 可以有效地提炼有关基因和细胞的关键生物学见解,并在各种下游任务中实现先进的性能,包括 multi-batch 整合、多组学整合、细胞类型注释、遗传扰动预测和基因网络推断等。

该研究以「scGPT: toward building a foundation model for single-cell multi-omics using generative AI」为题,发表于 Nature Methods 上。
论文链接: https://www.nature.com/articles/s41592-024-02201-0

2023 年 9 月,由中国科学院多学科交叉研究团队组成的「指南针联盟」 (Xcompass Consortium) 成功构建了世界首个跨物种生命基础大模型——GeneCompass。 该模型集成了人和小鼠超过 1.26 亿个单细胞的转录组数据、融合了包括启动子序列和基因共表达关系等四种先验知识、基础模型参数量达到 1.3 亿,实现了对基因表达调控规律的全景式学习理解,同时支持细胞状态变化预测及多种生命过程的精准分析。

该研究以「GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Mode」为题,发布在 bioRxiv 上。

  • 论文链接: https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1

2023 年 10 月,全球制药巨头赛诺菲宣布与 BioMap 百图生科达成大型战略合作,双方将基于百图生科的生命科学大模型 (Life Science AI Foundation Model),共同开发用于生物治疗药物发现的前沿模型。

展望未来,将大语言模型所拥有远超人类想象的复杂理解能力和创新生成能力,应用在更加复杂的生命 「自然语言」上,将有望真正改变生命科学的研究范式。

参考资料:
1.https://www.jiqizhixin.com/articles/2023-9-29
2.https://www.tsinghua.edu.cn/info/1175/112118.htm
3.https://hope.huanqiu.com/article/4FYZxnpu88J
4.https://www.jiqizhixin.com/articles/2023-7-5-26

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1864898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 列表去重方法解析与使用详解

概要 在 Python 编程中,列表是非常常用的数据结构之一。由于在实际使用中,我们经常会遇到包含重复元素的列表,因此对列表进行去重操作是一个常见的需求。本文将详细介绍多种 Python 列表去重的方法,并提供相应的示例代码,帮助更好地掌握这些技术。 使用集合(set) 集合…

充电桩现场安装施工流程

摘要:在化石能源日益紧缩的今天,新能源车辆逐渐走进了千家万户,与传统化石能源车辆相比,以电驱动的新能源车辆能源利用率高,缩短了能源传递过程,实现了能源有效利用。根据能量守恒定律可知,任何…

一文读懂RSTP流媒体传输原理

什么是流? 流(Streaming):近年在Internet上出现的新概念,定义非常广泛,主要是指通过网络传输多媒体数据的技术总称。 流式传输分为两种:顺序流式传输 (Progressive Streaming)和实时流式传输 (R…

2024挣大钱的机会来了!入职这一行,也能“一飞冲天”

不知不觉我们已经走过了疫情笼罩的三年。如今,已经全面放开,自12月起核酸检测也将彻底取消,对于我们每个人来说这也将是一场长期的战役。 然而在疫情的常态化下,国民经济也将逐渐恢复。对于我们普通人来说如何抓住机遇&#xff…

【渗透测试】小程序反编译

前言 在渗透测试时,除了常规的Web渗透,小程序也是我们需要重点关注的地方,微信小程序反编译后,可以借助微信小程序开发者工具进行调试,搜索敏感关键字,或许能够发现泄露的AccessKey等敏感信息及数据 工具…

模拟题解析:

攻击树方法可以被Red Team用来进行渗透测试,同时也可以被Blue Team用来研究防御机制。攻击树的优点:能够采取专家头脑风暴法,并且将这些意见融合到攻击树之中去;能够进行费效分析或者概率分析;能够建模非常复杂的攻击…

ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

先前的关于机器人操作的预训练工作表明,从大量人类操作数据中学习到的内容, 可以很好地泛化到新的操作任务以及操作环境当中。然而, 先前的方法主要集中在人类视觉或者自然语言方面, 忽视了触觉反馈。在本文中, 作者探索了如何使用人类的视觉和触觉数据来训练机器人操作的预训练…

【启明智显技术分享】MOEDL3芯片通用接口如CAN、I2S、I2C、SPI、UART、USB、emac的介绍和比较

启明智显MODEL3芯片提供的通用接口包括CAN、I2S、I2C、SPI、UART、USB和emac,每种接口都有其独特的功能和应用场景。 以下是这些接口的介绍和比较: CAN接口 功能: 支持CAN2.0A和CAN2.0B协议。支持11位标识符(标准格式&#xf…

RT-Thread Studio实现动态线程

1创建项目 我的板子为STM32F03ZET6 点击RT-Thread项目 2选择板子(根据自己的板子选择) 3找到主函数 4编写代码 4-1创建函数入口 // 线程入口函数 static void thread_entry(void *parameter) {rt_uint32_t count 0;while (1){// 线程执行的代码rt_k…

windows下以服务方式安装prometheus和grafana

grafana 找到confi下的defaults.ini&#xff0c;找到http_port修改端口号 # The HTTP port to use http_port 3000启动 grafana-server.exe访问localhost:8601即可 下载winsw https://github.com/winsw/winsw 新建grafanaservice.xml <service><id>grafana&…

(四十六)Vue Router组件所独有的两个钩子activate、deactivated

文章目录 activated钩子函数deactivated钩子函数demo 上一篇&#xff1a;&#xff08;四十五&#xff09;Vue Router之编程式路由导航 Vue Router提供了两个钩子函数&#xff0c;分别是activated和deactivated。 这两个钩子函数可以用于在路由组件的激活状态发生变化时执行相…

远程过程调用协议gRPC及在go环境下的使用

1. 远程过程调用协议 1.1 定义 远程过程调用(Remote Procedure Call&#xff0c;PRC是一种进程间通信技术&#xff0c;它使得程序可以像调用本地函数一样调用远程服务器上的函数。RPC 屏蔽了底层的通信细节&#xff0c;让开发者能够更专注于业务逻辑&#xff0c;而无需关心网络…

无限下拉菜单效果实现

无限下拉菜单效果实现 代码 <style>.nav_main{width: 600px;margin: 0 auto;}.nav ul{margin: 0;padding: 0;}.nav ul li{list-style: none;}.nav ul li a{text-decoration: none;color: #000;display: block;background: #ccc;margin: 10px 0px;padding: 10px;} i {bo…

react开发嵌入react-monaco-editor代码编辑器的方法

Next.js中使用react开发嵌入react-monaco-editor代码编辑器的方法&#xff08;支持语法高亮&#xff09; 安装 (base) PS D:\ai-ui> npm install react-monaco-editoradded 1 package, changed 1 package, and audited 1030 packages in 6s273 packages are looking for f…

qt for android 工程添加AndroidManifest.xml 文件

1.选择左边图形栏目中的Projects&#xff0c;在Build steps下的Build Android APK中Details 2.点击Create Templates&#xff0c;并勾选 此时在工程下面会多出一个文件夹android 3.将这个android的中所有文件加入工程中&#xff0c;编辑.pro 4.通过QT 图形化编辑设置属性&#…

深入理解计算机系统 CSAPP 家庭作业7.8

A:a main1 b main2 B:a 未知 b 未知 C:a 错误 b 错误

Qt客户案例 | 西门子医疗-满足最高要求的医疗软件和源代码检查的架构合规性

西门子医疗是全球领先的医疗技术公司之一&#xff0c;在70多个国家拥有约66&#xff0c;000位员工。除其他产品以外&#xff0c;他们还为诊断和治疗成像、实验室诊断和分子医学等领域提供产品。公司在全球各地的开发者设计、开发和维护这些产品的软件。为了让这个分布式团队持续…

基于 Spring Boot 的健康咨询系统

1 项目介绍 1.1 摘要 本项目旨在通过构建一个对用户更加友好的健康咨询平台&#xff0c;帮助用户方便、快捷地获取专业并且准确的健康咨询服务&#xff0c;同时为医疗机构提供一个高效易用的可以提供信息管理的服务平台。 项目采用了Spring Boot框架作为主要的开发平台。本系…

黑马苍穹外卖8 Spring Task+WebSocket 来单提醒和客户催单

Spring Task Spring提供的任务调度工具&#xff0c;按照约定时间自动执行代码。【以前的都是基于请求(http)响应的】 cron表达式 通过cron表达式可以定义任务触发时间。 cron表达式生成器 &#xff08;1&#xff09;导入spring-context &#xff08;2&#xff09;EnableSc…

IEEE-Trans系列!版面稀缺,现在投稿可加急处理,代表作神刊!

【SciencePub学术】今天小编给大家推荐一本计算机领域的SCI&#xff0c;隶属于IEEE出版社旗下&#xff0c;现已稳定检索49年&#xff01;影响因子4.0-5.0之间&#xff0c;JCR1区&#xff0c;中科院2区&#xff0c;质量口碑甚誉&#xff01; 有论文发表需求的学者可以后台联系张…