scBaseCamp:一个AI代理的可持续扩充的单细胞数据存储库

news2025/3/6 6:25:39

scBaseCamp是Tahoe-100M:最大规模的单细胞扰动数据集的后续

构建虚拟细胞是人工智能与生物学交叉领域的新兴前沿方向,单细胞RNA测序数据的快速增长为这一领域提供了助力。通过整合数百项研究中数百万个细胞的基因表达谱,单细胞图谱为训练由 AI 驱动的细胞模型奠定了基础。然而,仅仅依赖预先处理的counts数据集限制了其规模和多样性,并且将下游模型训练局限于为不同目的整理的数据。由于比对工具、基因组参考和计数策略的选择不同,这会引入分析的可变性。

scBaseCamp是一个不断更新的单细胞RNA测序数据库,它采用统一的由AI代理驱动的分层工作流程,实现数据发现、元数据提取和标准化数据处理的自动化。scBaseCamp通过直接挖掘和处理所有可公开获取的10X Genomics单细胞RNA测序读数构建而成,目前是最大的单细胞数据公共存储库,(截至目前)包含来自21种生物体和72个组织的超过 2.3 亿个细胞。此外,scBaseCamp证明了跨数据集的统一处理有助于减少因不一致的数据处理选择而引入的分析假象。这种标准化方法为构建更精确的虚拟细胞模型奠定了基础,也为广泛的生物学和生物医学应用提供了支撑。

来自:scBaseCamp: an AI agent-curated, uniformly processed, and continually expanding single cell data repository

目录

  • 背景概述
  • scBaseCamp
  • 基于SRAgent的自动细胞数据发现与注释
  • 使用scBaseCamp

背景概述

精确测量单细胞转录组状态的能力彻底改变了细胞生物学的研究。scRNA-seq揭示了细胞在跨物种和组织环境中参与各种过程和功能时的异质性状态,展现了以往通过bulk研究方法无法触及的细胞身份和行为的细微细节。这些发现对从发育生物学到癌症研究等众多领域产生了重大影响。更重要的是,这些单细胞数据集规模不断扩大,推动了构建细胞计算机模型的工作—— AI 模型旨在捕捉依赖于环境背景的细胞功能和行为,并预测细胞对干扰的反应。在许多方面,构建 “虚拟细胞” 模型已成为人工智能在生物学应用中的一个主要前沿领域。

在过去十年中,跨机构和实验室整合单细胞数据集的兴趣显著增长。一些引人注目的项目,如人类细胞图谱计划和CZ CELLxGENE数据集(陈 - 扎克伯格生物中心细胞科学项目团队),在扩大经过整理的单细胞RNA测序(scRNA-seq)数据集的可获取性方面取得了重大进展。事实证明,这些努力有助于推动我们对细胞身份、分化轨迹和疾病机制的理解,同时也为基于 AI 的细胞状态建模提供了宝贵的训练数据。然而,这些项目主要依赖于贡献的数据集,而这只是通过美国国立卫生研究院(NIH)主办的序列读数档案库(SRA)可获取的公开数据的一个子集。SRA是最大的原始单细胞测序数据存储库。虽然目前的这种方法能够进行更深入的、专家级别的数据集整理和注释,但它也限制了可用于分析的数据规模和多样性,尤其是对于通常不依赖细胞标记的人工智能模型而言。这凸显了对单细胞基因组学数据整理采用新方法的必要性,这种新方法应达到人工智能模型训练所需的规模,并且不受手动数据集注释的限制。

现有单细胞数据存储库面临的另一个挑战是,由于比对工具、参考基因组和读数计数策略的差异,来自不同来源的数据集聚合会引入批次效应。在bulk RNA测序领域,像Recount计划这样的大规模重新分析工作此前已证明了标准化流程在最小化批次效应方面的作用。通过对bulk RNA测序数据进行统一的重新处理,Recount为研究人员提供了一种资源,在这个资源中,生物变异不会受到数据处理流程不一致的影响。借鉴这些经验,人们才认识到需要一个类似的单细胞基因组学数据存储库,它应涵盖广泛的物种和组织,同时遵循一致的处理标准。这样的资源应能实现更可靠的跨研究整合,从而更好地支持旨在模拟不同生物背景下细胞行为的人工智能驱动的研究。

在此,scBaseCamp是一个单细胞基因组学数据存储库,代表了迄今为止规模最大的数据后处理工作成果。随着SRA上不断有新数据出现,这项工作还将持续拓展。scBaseCamp借助人工智能驱动的智能体构建而成,该智能体实现了存储库识别和元数据统一的自动化,能够持续发现、注释原始单细胞RNA测序数据,并对其进行标准化处理。因此,scBaseCamp不仅为基于人工智能的建模和综合元分析提供了一个经过整合的大规模资源,而且还具有动态性,会随着公开可用单细胞数据的不断扩展而同步增长。

scBaseCamp

scBaseCamp是首个综合性单细胞数据库,它通过直接挖掘序列读数档案库(SRA)中所有可公开获取的10X Genomics单细胞RNA测序数据,并采用标准化处理流程来提高数据的一致性而构建。利用人工智能驱动的SRAgent系统,系统且持续地识别存储库,统一来自不同来源的元数据,为原始单细胞RNA测序数据的发现、注释和再处理提供便利。

截至目前,SRAgent已识别出63,892个SRA实验(即SRX条目),其中43,587个被标记为10X Genomics测序文库。也纳入了目前属于CZ CELLxGENE 的6,059个额外样本。

目前,scBaseCamp包含超过2.3亿个细胞。与其他大型单细胞数据存储库相比,如CZ CELLxGENE(1.07亿个细胞)和人类细胞图谱(6500万个细胞),scBaseCamp已是最大的公开单细胞数据集集合。scBaseCamp的数据来自21种生物和72种组织,与目前最大的存储库CZ CELLxGENE相比,它能提供更广泛的实验背景。
fig1

  • 图1:scBaseCamp-最大的跨物种和组织的单细胞基因表达数据集公共存储库。A) 对scBaseCamp中随机抽取的细胞进行UMAP可视化,按组织类型着色。每个面板代表不同的物种:Homo(人类;N = 243,807)、鼠(小鼠;N = 249,008)、斑马鱼(N = 501,041)和黑腹果蝇(果蝇;N = 500,877)。B) scBaseCamp与CZ CELLxGENE中细胞跨物种分布的比较,突出显示scBaseCamp中物种代表性更广泛。C) scBaseCamp和CZ CELLxGENE(人类和小鼠)中排名前30的组织(所有哺乳动物)的细胞分布比较,说明scBaseCamp中组织多样性和代表性有所增加。(D) 将scBaseCamp中SRAgent的自动组织注释与CZ CELLxGENE的组织标签进行比较的混淆矩阵,表明在大多数情况下两者一致性较高。

除了识别数据集,SRAgent还尝试为每个SRX提取关键元数据,包括10X测序化学方法、细胞与细胞核悬浮液类型,以及相关疾病和组织信息。例如,在将SRAgent的自动组织注释与CZ CELLxGENE中的组织标签进行比较时,在大多数情况下,SRAgent能够准确提取正确的组织标签(图1D)。这一观察结果与近期一些研究相符,这些研究证明了大语言模型在细胞类型注释方面的有效性。虽然细胞状态的人工智能模型在训练过程中并不依赖这些标签,但SRAgent可靠的组织标记能力增强了人们对其数据整理工作的信心。

基于SRAgent的自动细胞数据发现与注释

为了系统地识别和整合单细胞RNA测序数据集,开发了SRAgent,这是一种分层代理工作流程,它利用LangGraph围绕大语言模型(LLMs)以及用于查询序列读数档案库(SRA)的专用工具构建而成。具体而言,SRAgent采用了ReAct代理的分层工作流程,该流程可以异步访问eSearch、eSummary、eFetch、eLink、NCBI网页抓取工具、SRA BigQuery、sra-stat和fastq-dump。此工作流程持续挖掘可公开获取的10X Genomics数据集,检索关键元数据(例如,生物体、组织、疾病、扰动因素),并将这些注释存储在关系数据库中(图2A)。这种自动化方法能够快速发现新的研究,同时确保元数据管理保持一致且具有可扩展性。

SRAgent部署在谷歌云平台(GCP)的Cloud Run上,每个任务使用2个CPU和2GB内存。为避免超过美国国立生物技术信息中心(NCBI)的API速率限制,任务每1 - 5分钟触发一次,每次运行处理3 - 5个数据集,最高峰值速率可达每小时处理300个数据集。SRAgent总共处理了63892个数据集,其中43587个被识别为10X Genomics测序文库。作为研究成果发表的一部分,SRAgent的代码已经公开。
fig2

  • 图2:A) SRAgent工作流程:一种由人工智能驱动的分层流程,用于从序列读数档案库(SRA)自动发现数据集并整理元数据。SRAgent系统地查询美国国立生物技术信息中心(NCBI)的工具(如eSearch、eFetch),以识别10X Genomics数据集,检索元数据(如组织类型、文库制备化学方法),并将结构化注释存储在谷歌云平台(GCP)的SQL数据库中。
  • B) scRecounter流程:一种基于Nextflow的工作流程,用于将原始单细胞测序读数处理为基因表达计数矩阵。scRecounter使用STARsolo下载并比对测序读数,自动检测最佳条形码参数,并生成以h5ad格式存储的标准化表达矩阵。流程追踪通过托管在GCP上的PostgreSQL数据库进行管理。
  • C) scRecounter采用多种特征注释和多重比对策略,生成各种细胞×基因计数表。用户可以选择最适合其应用的选项。

使用scBaseCamp

scBaseCamp环境与Tahoe-100M一致。数据托管地址也在gcs:

import os
import pandas as pd
import scanpy as sc
import pyarrow.dataset as ds
import gcsfs

# initialize GCS file system for reading data from GCS
fs = gcsfs.GCSFileSystem()

# GCS bucket path
gcs_base_path = "gs://arc-ctc-scbasecamp/2025-02-25/"

如图2C中所示,用户可以选择指定的特征类型:

# STARsolo feature type
feature_type = "GeneFull_Ex50pAS"

为了后续数据加载,这里引入一个函数:

# helper function to list files 
def get_file_table(gcs_base_path: str, target: str=None, endswith: str=None):
    files = fs.glob(os.path.join(gcs_base_path, "**"))
    if target:
        files = [f for f in files if os.path.basename(f) == target]
    else:
        files = [f for f in files if f.endswith(endswith)]
    file_list = []
    for f in files:
        file_list.append(f.split("/")[-2:-1] + [f])
    return pd.DataFrame(file_list, columns=["organism", "file_path"])

现在,准备获取元数据:

# set the path to the metadata files
gcs_path = os.path.join(gcs_base_path, "metadata", feature_type)

获取样本的元数据:

# list files
sample_pq_files = get_file_table(gcs_path, "sample_metadata.parquet")
print(sample_pq_files.shape)
sample_pq_files.head()

figure1
可以看到覆盖了21个物种。更多细节参考:https://github.com/ArcInstitute/arc-virtual-cell-atlas/blob/main/scBaseCamp/tutorial-py.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2310400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GPTs+RPA赋能智慧校园:构建下一代教育智能体的技术实践

文章目录 一、核心应用场景与技术融合1. 教务流程自动化(RPAGPTs双引擎驱动)2. 智能问答中枢(NLP流程自动化) 二、关键技术实现方案1. 多模态数据处理架构2. 智能文档处理流水线 三、典型系统架构设计智慧校园AI中台架构&#xff…

【AIGC】通义万相 2.1 与蓝耘智算:共绘 AIGC 未来绚丽蓝图

一、引言 在人工智能技术迅猛发展的今天,AIGC(生成式人工智能内容生成)领域正以惊人的速度改变着我们的生活和工作方式。从艺术创作到影视制作,从广告设计到智能客服,AIGC 技术的应用越来越广泛。通义万相 2.1 作为一…

【AIGC实战】蓝耘元生代部署通义万相2.1文生图,结尾附上提示词合集

文章目录 👏什么是文生图?👏通义万相2.1文生图👏蓝耘元生代部署通义万相2.1👏平台注册👏部署通义万相2.1👏使用通义万相2.1文生图 👏提示词合集👏总结 随着人工智能生成内…

Gartner:数据安全平台DSP提升数据流转及使用安全

2025 年 1 月 7 日,Gartner 发布“China Context:Market Guide for Data Security Platforms”(《数据安全平台市场指南——中国篇》,以下简称指南),报告主要聚焦中国数据安全平台(Data Securit…

Excel的行高、列宽单位不统一?还是LaTeX靠谱

想要生成田字格、米字格、带拼音标准,方便小学生书法和练字。Word,Excel之类所见即所得是最容易相当的方式。但它们处理带田字格之类背景时,如果没有专用模板、奇奇怪怪的插件,使用起来会碰到各种问题。比如,Word里面用…

【JavaSE-5】程序逻辑控制相关练习题

1、判断一个数字是否是素数(质数) //方法1: import java.util.Scanner; public static void main(String[] args) {//判断一个数字是否是素数:除了1和它本身外没有其他数可以整除Scanner scan new Scanner(System.in);int num scan.nextInt();boolean flag tru…

CES Asia 2025增设未来办公教育板块,科技变革再掀高潮

作为亚洲消费电子领域一年一度的行业盛会,CES Asia 2025(第七届亚洲消费电子技术贸易展)即将盛大启幕。今年展会规模再度升级,预计将吸引超过500家全球展商参展,专业观众人数有望突破10万。除了聚焦人工智能、物联网、…

汽车零部件厂如何选择最适合的安灯系统解决方案

在现代制造业中,安灯系统作为一种重要的生产管理工具,能够有效提升生产线的异常处理效率,确保生产过程的顺畅进行。对于汽车零部件厂来说,选择一套适合自身生产需求的安灯系统解决方案尤为重要。 一、安灯系统的核心功能 安灯系统…

Pytorch中的主要函数

目录 一、torch.manual_seed(seed)二、torch.cuda.manual_seed(seed)三、torch.rand(*size, outNone, dtypeNone, layouttorch.strided, deviceNone, requires_gradFalse)四、给大家写一个常用的自动选择电脑cuda 或者cpu 的小技巧五、torch.version.cuda;torch.bac…

景联文科技:以专业标注赋能AI未来,驱动智能时代的精准跃迁

在人工智能技术重塑全球产业格局的今天,高质量训练数据已成为驱动算法进化的核心燃料。作为数据智能服务领域的领军者,景联文科技深耕数据标注行业多年,以全栈式数据解决方案为核心,构建起覆盖数据采集、清洗、标注、质检及算法调…

车载测试:智能座舱测试中多屏联动与语音交互的挑战

智能座舱作为汽车智能化发展的核心,集成了多屏联动和语音交互功能,为驾驶员和乘客提供更便捷的体验。然而,这些功能的测试面临诸多挑战,包括多屏同步性、噪声干扰和复杂场景的处理。本文将详细分析这些挑战,探讨测试方…

深入探索WebGL:解锁网页3D图形的无限可能

深入探索WebGL:解锁网页3D图形的无限可能 引言 。WebGL,作为这一变革中的重要技术,正以其强大的功能和广泛的应用前景,吸引着越来越多的开发者和设计师的关注。本文将深入剖析WebGL的核心原理、关键技术、实践应用,并…

仿mudou库one thread oneloop式并发服务器

项目gitee:仿muduo: 仿muduo 一:项目目的 1.1项目简介 通过咱们实现的⾼并发服务器组件,可以简洁快速的完成⼀个⾼性能的服务器搭建。 并且,通过组件内提供的不同应⽤层协议⽀持,也可以快速完成⼀个⾼性能应⽤服务器…

CentOS 7 aarch64上制作kernel rpm二进制包 —— 筑梦之路

环境说明 centos 7 aarch64 gcc 8.3.1 kernel 5.4.290 准备编译制作 # 安装必要的工具和包yum install rpm-devel rpmdevtools yum groupinstall "Development Tools"yum install ncurses-devel bc elfutils-libelf-devel openssl-devel # 安装gcc 8.3.1# 修改…

vscode 都有哪些大模型编程插件

VSCode 中有许多基于大模型的编程插件,这些插件通过集成人工智能技术,显著提升了开发者的编程效率和体验。以下是一些主要的大模型编程插件及其功能: GitHub Copilot GitHub Copilot 是由 OpenAI 开发的插件,能够根据代码上下文自…

DAIR-V2X-R数据集服务器下载

【官方github链接】https://github.com/ylwhxht/V2X-R 点击并登录 选择并点击下载 浏览器弹窗,右键选择复制下载链接 ------------------------------------服务器下载----------------------------------------- 登录服务器,选在要下载的文件夹复制路…

EasyRTC嵌入式视频通话SDK的跨平台适配,构建web浏览器、Linux、ARM、安卓等终端的低延迟音视频通信

1、技术背景 WebRTC是一项开源项目,旨在通过简单的API为浏览器和移动应用程序提供实时通信(RTC)功能。它允许在无需安装插件或软件的情况下,实现点对点的音频、视频和数据传输。 WebRTC由三个核心组件构成: GetUserM…

DeepSeek×博云AIOS:突破算力桎梏,开启AI普惠新纪元

背景 在全球人工智能技术高速迭代的背景下,算力成本高企、异构资源适配复杂、模型部署效率低下等问题,始终是制约企业AI规模化应用的关键。 DeepSeek以创新技术直击产业痛点,而博云先进算力管理平台AIOS的全面适配,则为这一技术…

DeepSeek能画流程图吗?分享一种我正在使用的DeepSeek画流程图教程

‍‌​​‌‌​‌​‍‌​​​‌‌​​‍‌​​​‌​‌​‍‌​​‌​​‌​‍‌​‌‌‌‌​​‍‌​‌​‌‌​​‍‌​​​‌‌‌‌‍‌​‌‌​‌‌‌‍‌‌​​‌​‌​‍‌​​‌‌​‌‌‍‌​​​‌​‌​‍‌​‌‌‌​‌‌‍‌‌​​‌‌‌‌‍‌​‌‌‌​​​‍‌…

网络安全试题填空题

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 2018年期末题 1. 分布式防火墙系统组成不包括(D) A.网络防火墙 B.主机防火墙 C.中心管理防火墙 D.传统防火墙 2.下列不是入侵者主要行为模…