Geneformer AI 模型,有限数据也能解锁基因网络

news2024/9/24 3:29:05

目录

类似于 BERT 的单单元数据参考模型

NVIDIA Clara 工具组合用于药物研发

用于疾病建模的基础 AI 模型


Geneformer 是最近推出的 和功能强大的 AI 模型,可以通过从大量单细胞转录组数据中进行迁移学习来学习基因网络动力学和相互作用。借助此工具,研究人员可以在数据有限的情况下准确预测基因行为和疾病机制,从而加速药物目标的发现,并提高对各种生物学背景下复杂基因网络的理解。

AI 模型 Geneformer 由麻省理工学院和哈佛大学博德研究所的研究人员及其合作者开发,该模型使用 sc-RNA 表达数据中表达最高的基因生成每个细胞的密集表示,这些表示可以用作各种下游预测任务的特征。然而,Geneformer 的独特之处在于其架构所支持的功能,即使在使用很少的数据进行训练时也是如此。

类似于 BERT 的单单元数据参考模型

Geneformer 具有类似 BERT 的 Transformer 架构,并基于来自各种人体组织中大约 3000 万个单细胞转录组的数据进行了预训练。其注意力机制使其能够专注于输入数据中最相关的部分,以便更好地捕捉关键信息。借助这种上下文感知方法,模型可以通过考虑基因之间的关系和依赖性来做出预测。

在预训练阶段,模型采用了一种蒙版语言建模技术。这种技术将部分基因表达数据蒙版,然后模型根据周围环境学习预测蒙版基因。这项方法不需要标记数据,而是使模型能够理解复杂的基因相互作用和调节机制。

这种架构和训练 使模型能够在处理有限的数据时持续提高与染色质和基因网络动力学相关的各种任务的预测准确性。 例如,Geneformer 能够使用仅 5000 个数据细胞重建心脏内皮细胞中的重要基因网络,这与之前使用超过 30000 个数据细胞进行训练时使用的先进方法一样准确。

它还可以在特定细胞类型分类任务中实现超过 90% 的准确度,这是基因表达基础模型的最常见用例之一。我们使用了克罗恩病小肠数据集对 NVIDIA BioNeMo 模型进行评估,在准确性 (图 1) 和 F1 评分 (图 2) 方面,与基准模型相比,性能有所提高。

Two Geneformer models in the BioNeMo platform show improved performance in cell annotation accuracy over baseline controls.

图 1. Geneformer 模型的参数为 10M 和 106M 时,细胞标注准确率比基准模型有所提高

Two Geneformer models in the BioNeMo platform show improved cell annotation F1 score performance over baseline controls.

图 2. Geneformer 模型的参数为 10M 和 106M 时,细胞标注 F1 得分比基准模型有所提高

图 1 和图 2 中的比较使用了一个基准 Logp1 PCA+RF 模型,该模型使用包含 10 个组件的 PCA,并使用归一化和对数转换的表达式计数训练随机森林模型。基准随机权重模型经过大约 100 步的训练,使用近似随机的权重。具有 1000 万个参数的模型是 6 层模型,具有 106M 个参数的模型具有 12 层,这两种模型都在 BioNeMo 文档中进行了描述。

我们的实验 和原始 Geneformer 出版物中的数据表明,将 Geneformer 扩展到目前生成的 10.6M 参数 12 层模型是有价值的。

为了支持新一代基于 Geneformer 的模型,我们在 BioNeMo 框架中提供了两项新功能。首先,BioNeMo 模型版本具有数据加载器,其数据加载速度比发布方法快 4 倍,同时保持与原始出版物中使用的数据类型的兼容性。其次,Geneformer 现在允许实现张量和管线并行,只需简单地更改训练配置。这有助于管理内存限制并减少训练时间,从而能够利用多个 GPU 的总计算能力训练具有数十亿参数的模型。

NVIDIA Clara 工具组合用于药物研发

Geneformer 可以在 BioNeMo 框架内访问,是 NVIDIA Clara 套件中不断增长的加速单细胞和空间组学分析工具目录的一部分(图 3)。这些工具可以在用于药物研发的互补研究工作流中实施,如 转化基因组学研究院(TGen)的研究。

RAPIDS 编程库套件(包括 RAPIDS-SINGLECELL 工具包和 ScanPy 库)专为基于 Python 的组学数据预处理、可视化、集群、轨迹推理和差分表达测试而构建。当用于分析单细胞表达数据时,其输出可以使用传统的生物信息学方法来分析表达数据,对细胞类型标注和微扰预测的成像和基础模型方法进行补充。借助 NVIDIA RAPIDS 数据分析库,RAPIDS SINGLE-CELL 可加速 Scanpy 中最计算成本极高的工作负载。

对于空间分辨率方法,MONAI 中的 VISTA-2D 模型专为处理和分析细胞图像而设计。它提供高质量的分割掩膜,用于识别和量化细胞形态以及组织内的空间组织。通过 VISTA-2D 生成的分割掩膜,可以生成表达数据,并将其输入到基础模型中,如 Geneformer。

AI models like VISTA 2D, Geneformer, and RAPIDS-SINGLECELL can use cell images and expression data to provide complementary downstream analyses, such as cell type annotation and predicting the effects of cell perturbation.

图 3. Geneformer 在 NVIDIA Clara 套件中补充了 BioNeMo 之外的其他单细胞资源,以加速获得见解。

用于疾病建模的基础 AI 模型

正如其各种应用所展示的那样(图 4),Geneformer 可以作为生物学基础模型,这些用例涵盖了从分子到有机体规模的问题,使其成为生物学研究中一种广泛实用的工具。

模型论文中描述了其中许多用例。该模型现已开源,可供研究使用。 图 4 展示了 Geneformer 可以使用零样本学习处理的用例,其中包括一些下划线的项目。零样本学习意味着 Geneformer 可以预测其以前从未见过或明确训练过的数据类,即使没有相关的训练数据。

This image illustrates the problems that Geneformer can solve in three categories, including gene regulation, cell type and cell state annotation, and predictive biological modeling for therapeutics.

图 4. Geneformer 用例涵盖多个生物复杂性级别,从基因调节到治疗性疾病建模。

在基因调控研究中,Geneformer 可以对测量基因表达变化的数据集进行微调,这些变化是响应不同水平的转录因子的结果。这使得可以准确预测不同剂量的转录因子如何影响基因表达和细胞表型,从而帮助了解基因调控和潜在的治疗干预措施。

通过在数据集上微调 Geneformer,捕捉细胞在微分过程中的状态转换,可以实现细胞状态的精确分类,从而帮助理解微分过程和发展。该模型甚至可以用于一-shot 识别转录因子之间的协同作用。这可以增强对复杂调节机制的理解,以及转录因子如何协同工作来调节基因表达。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2138660.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ICPC网络赛 以及ACM训练总结

一、训练反思 关于我自己暑假期间训练的反思,我承认无论是因为什么原因,我自己浪费我整整一个暑假的时间,暑假期间正是我们集训的关键时期,这期间没有任何的事情来打扰我们学习,而我却熬夜,白天训练懈怠&a…

C++类与对象(二)超详细

目录 1.类的6个默认成员函数 2..构造函数 2.1概念 2.2 特征 3.析构函数 3.1 概念 3.2 特性 4.拷贝构造函数 4.1 概念 4.2 特征 5.赋值运算符重载函数 5.1 运算符重载(是否重载这个运算符是看这个运算符对这个类是否有意义) 5.2 赋值运算符重…

嵌入式单片机程序运行基本机理

1. 程序各种要素说明 大家好,今天用一个最简单的程序跟大家讲清楚程序的构成。 1.1. 概述 硬件首先要知道硬件的组成。 在前面章节我们说过,芯片包含Flash和RAM。 他们虽然不是相同的东西,但是都属于同一个地址空间,32位芯片的地址空间大小是4G。 比如ST32,FLASH通常从…

在 FlexSim 中使用 OpenUSD 分析、可视化和优化现实世界的流程

对于制造和工业企业而言,效率和精度至关重要。为了简化运营、降低成本和提高生产力,各公司正在转向数字孪生和离散事件模拟。 离散事件模拟使制造商能够通过试验不同的输入和行为来优化流程,这些输入和行为可以逐步进行建模和测试。 FlexSi…

基于Python实现的一个电影知识库QA系统

1. 实现效果 1. 图形展示 这是使用echarts.js 来实现的自定义页面的图谱展示,当然还有其他的库也能实现类似的效果,这里看各位的选择。 这里我在每个实体之间都实现了双层关系的绑定,这对于后面实现检索会有点帮助 2. 实体搜索展示 这里…

中断门+陷阱门

中断门: 中断描述符在IDT表里面 kd> dq idtr 80b95400 83e48e000008bfc0 83e48e000008c150 80b95410 0000850000580000 83e4ee000008c5c0 80b95420 83e4ee000008c748 83e48e000008c8a8 80b95430 83e48e000008ca1c 83e48e000008d018 80b95440 000085000050…

回溯-重新安排行程

1.排序 Collections.sort(list,(o1, o2)-> o1.get(0).compareTo(o2.get(0))); 2.返回值 3.往集合添加元素 Arrays.asList(元素) List<List<String>> list new ArrayList<>();List<String> path new ArrayList<>();// 将[["JFK"…

沉浸式体验和评测Meta最新超级大语言模型405B

2024年7月23日&#xff0c; 亚马逊云科技的AI模型托管平台Amazon Bedrock正式上线了Meta推出的超级参数量大语言模型 - Llama 3.1模型&#xff0c;小李哥也迫不及待去体验和试用了该模型&#xff0c;那这么多参数量的AI模型究竟强在哪里呢&#xff1f;Llama 3.1模型是Meta&…

idea激活页面怎么打开

打开Help------选择Register 然后就可以选择激活方式了

Vue2学习笔记(01计算属性和监视属性)

1、事件修饰符 2、计算属性-computed 要显示的数据不存在&#xff0c;要通过计算得来。在computed对象中定义计算属性。在页面中使用{{方法名}}来显示计算的结果。 3、监视属性-watch 通过vm对象的$watch()或watch配置来监视指定的属性当属性变化时,回调函数自动调用,在函数内…

Games101图形学笔记——光栅化

这里写目录标题 Rasterization光栅化屏幕空间隔行扫描三角形采样采样产生的问题反走样处理方法&#xff1a;采样前模糊 频率&#xff0c;时域傅里叶级数展开傅里叶变换 滤波高通滤波低通滤波 卷积卷积的一些定理 反走样MSAA&#xff08;Multisample Anti-Aliasing&#xff09;多…

C++_20_多态

多继承会造成 菱形继承** 使用虚继承来解决 不是给爷爷类加 也不是给子类加 是给父类加 虚基指针和虚基表 多态 概念&#xff1a; 概念&#xff1a; 一个事物的多种形态&#xff0c;简称多态 如&#xff1a; 对象的多态 ​ 张三 ​ 在对象面前 怂 ​ 在朋友面前 谄媚 ​ 在父…

Axure科技感大屏系统设计:智慧农场管理平台

在数字化转型的浪潮中&#xff0c;数据可视化作为连接现实世界与数字世界的桥梁&#xff0c;正以前所未有的速度改变着各行各业的面貌。智慧农业作为现代农业的重要发展方向&#xff0c;其管理平台的数据大屏设计尤为重要&#xff0c;它不仅是农场运营状况的直接展示窗口&#…

3. Python计算水仙花数

Python计算水仙花数 一、什么是水仙花数&#xff1f; 百度答案 二、怎样使用Python计算水仙花数&#xff1f; 这里需要for循环&#xff0c;if判断&#xff0c;需要range()函数&#xff0c;需要知道怎么求个位数&#xff0c;十位数&#xff0c;百位数… 1. For循环 语句结…

【Android Studio】API 29(即Android 10)或更高版本,在程序启动时检查相机权限,并在未获取该权限时请求它

文章目录 1. 在AndroidManifest.xml文件中&#xff0c;声明相机权限&#xff1a;2. 在你的Activity中&#xff08;例如MainActivity&#xff09;测试 1. 在AndroidManifest.xml文件中&#xff0c;声明相机权限&#xff1a; <uses-feature android:name"android.hardwar…

OS:初识操作系统——邂逅与启航

✨ Blog’s 主页: 白乐天_ξ( ✿&#xff1e;◡❛) &#x1f308; 个人Motto&#xff1a;实践是检验真理的唯一标准&#xff01;&#xff01;&#xff01; &#x1f4ab; 欢迎来到我的学习笔记&#xff01; 前言 各位uu好&#xff0c;现在我们要开始一个新的篇章——操作…

信息安全:守护数字世界的坚固堡垒

信息安全&#xff1a;守护数字世界的坚固堡垒 一、信息安全的重要性与意义 信息安全在个人、企业和社会层面都具有至关重要的意义。 在个人层面&#xff0c;信息安全保护隐私至关重要。在数字化时代&#xff0c;我们的个人信息如银行账户、社交媒体账户等容易受到威胁。一旦…

【代码随想录训练营第42期 续Day58打卡 - 图论Part8 - Dijkstra算法

目录 一、Dijkstra算法 实现方式 1、使用优先队列&#xff08;最小堆&#xff09; 2、朴素法&#xff08;简单数组&#xff09; 二、经典例题 题目&#xff1a;卡码网 47. 参加科学大会 题目链接 题解&#xff1a;朴素Dijkstra 三、小结 一、Dijkstra算法 刚入门Dijks…

【Git】常见命令(仅笔记)

文章目录 创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用 .gitigore 文件让 git 不追踪一些文件标签 创建/初始化本地仓库 git init添加本地仓库配置项 git config -l #以列表形式显示配置项git config …

【免费】CISSP官方习题集第4版

伴随2004年4月CISSP新大纲发布&#xff0c;CISSP官方习题集第4版(OPT v4)已于2024年5月出版&#xff1a; 本人维护的中英对照8个知识域分章节练习已同步更新完成&#xff0c;在保持v3版内容基础上&#xff0c;增补了所有v4新内容&#xff0c;免费供考友们使用&#xff0c;访问方…