scDesign3:多模态单细胞和空间组学数据生成

news2025/3/14 23:56:15

scDesign3是一个统计模拟器,通过从真实数据中学习可解释的参数,生成真实的单细胞和空间组学数据,包括各种细胞状态、实验设计和特征模态。使用单细胞和空间组学数据的统一概率模型,scDesign3可以推断出具有生物学意义的参数;评估推断的细胞簇、轨迹和空间位置的拟合优度;并生成用于基准计算的计算机负控制和正控制数据。

来自:scDesign3 generates realistic in silico data for multimodal single-cell and spatial omics

目录

  • 背景概述
  • scDesign3功能1:模拟
  • scDesign3功能2:解释

背景概述

单细胞和空间组学技术提供了前所未有的单个细胞的多模态视图。首先,诞生了单细胞RNA测序(scRNA-seq)来测量细胞的转录组,从而能够发现离散的细胞类型和连续的细胞轨迹。后来,诞生了其他单细胞组学技术来测量额外的分子特征,包括染色质可及性、DNA甲基化和蛋白质丰度。最近,又出现了单细胞多组学技术来同时测量多种特征模态(联合测量)。与单细胞组学平行,空间转录组学技术也得到了发展,可以对记录了细胞空间位置转录组进行分析。

现在已经为各种任务开发了数千种计算方法,这反而使得为这些方法寻找基准成为一个紧迫的挑战。公平的基准测试需要包含ground truth的真实数据或者模拟真实数据的计算机数据,因此很需要逼真的模拟器。有关模拟的两项基准研究发现,需要在真实数据上进行训练的基于参考的scRNA-seq模拟数据比使用预设理论模型的从头模拟更现实。这两项研究还发现,尽管一些基于参考的模拟器从离散细胞类型中生成了真实的scRNA-seq数据,但很少有基于参考的模拟器能够从连续细胞轨迹中生成数据。此外,除了scRNA-seq之外,还缺乏单细胞其他组学的逼真模拟器,更不用说单细胞多组学和空间转录组学了。因此,在多样化的基准测试需求和现有模拟器的有限功能之间存在差距问题。

为了填补这一空白,作者提出了scDesign3,这是一种模拟器,可以从不同的环境中生成逼真的合成数据,包括细胞潜在结构、特征模态、空间位置和实验设计(图1a)。scDesign3提供了一个概率模型,该模型统一了单细胞和空间组学数据的生成和推断。该模型的可解释参数使scDesign3能够生成定制的计算机数据,并无监督地评估推断的细胞潜在结构(例如,聚类、轨迹分析和空间位置)的拟合优度(图2a)。

对于overview,作者依次验证了scDesign3的两个功能:模拟和解释。首先,作者证明了scDesign3模型是合理的,因为它的合成数据很好地模拟了给定高质量细胞类型标签和细胞轨迹的真实数据。其次,假设scDesign3模型是合理的,作者表明scDesign3允许对真实数据进行基于模型的解释,包括评估推断的细胞潜在结构的拟合优度。

scDesign3功能1:模拟

作者在四个示例环境中验证了scDesign3是一种现实且通用的模拟器:

  • 连续细胞轨迹的scRNA-seq
  • 空间转录组学
  • 单细胞表观基因组学
  • 单细胞多组学(见图1)

可以发现scDesign3的合成数据与遗漏的测试数据一致。

在第一个设置中,scDesign3模拟了三个包含单个或分叉细胞轨迹的scRNA-seq数据集。图1b–c显示,scDesign3生成了类似于遗漏的真实细胞的真实合成细胞数据,这反映在高的mean local inverse Simpson’s index(mLISI)值上。此外,scDesign3保留了细胞特异性特征。由于缺乏用于连续细胞轨迹的基于参考的模拟器,作者将scDesign3与ZINB WaVE、muscat和SPARSIM三种用于离散细胞类型的顶级模拟器和一种基于深度学习的模拟器scGAN进行了对比。scDesign3在生成更逼真的合成细胞以及更好地保留基因和细胞特异性特征,特别是细胞-细胞距离和基因-基因相关性方面优于这些模拟器(图1b-c)。

在第二个设置中,scDesign3模拟了由10x Visium和Slide-seq技术生成的四个空间转录组学数据集。图1d、e显示scDesign3概括了空间高变基因的表达。给定一对scRNA-seq数据和spots分辨率空间转录组学数据(其中每个spots包含多个细胞),scDesign3可以生成具有在每个spots指定的细胞类型比例的真实spots分辨率空间逆转录组学数据,见图1f。

在第三种设置下,scDesign3生成类似于两个单细胞染色质可及性数据集,这两个数据集是通过使用测序的转座酶可及性染色质的10x单细胞测定(scATAC-seq)和使用测序(sci-ATAC-seq)方案的转座酶可及染色质的单细胞组合索引测定来描述的。对于这两种方案,scDesign3产生的合成细胞在峰值区域的读取计数与真实细胞的读取计数相似(图1g和h)。

在第四种设置下,scDesign3通过测序(CITE-seq)数据集模拟转录组和表位的细胞索引,并根据“单独”测量的RNA表达和DNA甲基化模态模拟多组学数据集。首先,scDesign3通过同时模拟基因和表面蛋白的表达水平与CITE-seq数据集相似。图1i显示,三种示例性表面蛋白的RNA和蛋白质表达水平在合成数据和测试数据之间高度一致。其次,scDesign3通过从Pamona发现的两个单组学数据集学习,模拟了具有联合RNA表达和DNA甲基化模式的单细胞多组学数据集中(图1j,左)。这个合成的多组学数据集保留了两个单组学数据集中的细胞轨迹(图1j,右)。从单组学数据生成多组学数据的功能允许scDesign3对整合来自不匹配细胞的模态的计算方法进行基准测试。
fig1

  • 图1:scDesign3生成各种单细胞和空间组学技术的真实合成数据。scDesign3模拟功能概述:细胞状态(例如,离散细胞类型、连续轨迹和空间位置);多组学(例如,RNA-seq、ATAC-seq、CITE-seq和甲基化);以及实验设计(例如,批次、条件、性别和年龄)。

scDesign3功能2:解释

scDesign3为单细胞和空间组学数据提供了一个通用的概率模型,除了生成合成数据外,它还有广泛的应用。作者研究了scDesign3模型的三个突出应用:模型参数、模型选择和模型更改(图2a)。

首先,scDesign3模型具有可解释的参数结构,由基因的边际分布参数和成对基因相关性组成。此外,scDesign3模型可以灵活地通过使用广义加性模型(GAM)和高斯过程来合并不同的细胞协变量,这允许估计沿着细胞轨迹的非线性基因表达变化(图2b)和跨空间位置的非线性基因表现变化(图2c)。除了推断单个基因的表达特征外,scDesign3还以细胞协变量为条件估计成对基因相关性,从而深入了解潜在的基因调控关系。具体而言,scDesign3通过Gaussian copula和vine copula两种统计技术来估计基因相关性,这两种技术具有互补的优势:Gaussian copula速度快,但只输出基因相关性矩阵;vine copula是缓慢的,但可以通过输出一个基因“vine”来解释,顶层表示最高度相关的基因(即“hub基因”)。应用于具有四种细胞类型的人外周血单核细胞的scRNA-seq数据集,Gaussian copula揭示了相似细胞类型(调节性T细胞与naive细胞毒性T细胞)的相似基因相关矩阵,以及不同细胞类型(CD14+单核细胞与naive细胞毒性T细胞)的不同基因相关矩阵(图2d,顶部);vine copula发现了作为枢纽基因的典型细胞类型标记基因:CD14+单核细胞的LYZ和B细胞的CD79A(图2d,底部)。

其次,scDesign3采用了基于似然的模型选择标准,如Akaike信息标准(AIC)和贝叶斯信息标准(BIC),使scDesign3能够评估模型与数据的“拟合优度”,并比较竞争模型。一个值得注意的应用是评估推断的细胞潜在结构(簇、轨迹和空间位置)如何描述数据,也就是说,在没有ground truth或外部知识的情况下,从拟合优度角度评估潜在结构。尽管scDesign3模型不能代表基本事实,但作者证明了scDesign3 AIC和BIC是评估潜在结构与scDesign3模式下数据一致性的有用“无监督”标准。

对于细胞聚类,在具有已知细胞类型的八个数据集上,将scDesign3 BIC与“监督”(ARI)和新提出的“无监督”聚类偏差指数进行了比较。对于伪时间推断,scDesign3 BIC相关性良好(平均Spearman相关性 < −0.7)在具有真实伪时间的多个合成数据集上使用“监督” R 2 R^2 R2(图2e)。Slingshot推断的伪时间与数据吻合较好,比TSCAN和Monocle推断的更小的BIC(图2e,底部)。

第三,scDesign3具有模型更改功能:给定在真实数据上估计的scDesign3模型参数,用户可以更改这些参数以反映假设,并生成具有真实数据特征的相应计算机数据。这一功能使scDesign3优于基于深度学习的模拟器,后者无法轻易更改以反映假设。首先,scDesign3可以生成具有不同细胞类型特定条件效应的合成数据(图2f)。在包含两个批次的真实数据集上进行训练(图2g,左),scDesign3生成了保留批次效应的合成数据(图2g,中);然后改变拟合的scDesign3模型中的批次参数,以生成没有批次效应的合成数据(图2g右)。然后,scDesign3可以在只有一种细胞类型存在的零假设(H0)和存在两种细胞类型的替代假设(H1)下生成合成数据(图2h)。给定一个真实的数据集(图2h,左),在H1下,使用细胞类型标签拟合模型(图2h,中);在H0下,通过假设所有细胞都是一种类型来拟合模型(图2h,右)。使用这两个拟合模型,scDesign3生成了H1和H0下的合成数据。特别地,H0下的合成数据可以作为基准细胞类型鉴定方法的计算机阴性对照。

fig2

  • 图2:scDesign3能够对真实数据进行全面解释。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/645934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DC降压电源模块 输入8-32V输出电流50A/1V-12V 恒流恒压可调模块

【产品参数】 [] 非隔离同步降压(BUCK)电源模块 [] 宽输入DC6-32V&#xff0c;输出DC0.6-12.2V [] 峰值效率>96% [] 过流保护 短路保护自恢复 [] 远程ON/OFF [] 过温保护、高稳压精度、动态响应快 [] 输出限流指示灯 [] 输出电压电流可调 [] 低纹波、低静态电流 […

Kafka学习--3、Kafka Broker、节点服役和退役、Kafka 副本、Leader 选举流程、故障处理

1、Kafka Broker 1.1 Kafka Broker工作流程 1.1.1 Zookeeper储存的Kafka信息 &#xff08;1&#xff09;启动Zookeeper集群、再启动Kafka集群&#xff0c;然后启动Zookeeper客户端 &#xff08;2&#xff09;通过ls命令可以查看kafka相关信息。 1.1.2 Kafka Broker总体工作…

【冷冻电镜】IMOD使用教程(Etomo tutorial)

参考教程&#xff1a; Etomo Tuturial for IMOD version 4.11 1. Initial Setup 本教程提供了一个小双轴示例数据集和Etomo的分布指南&#xff0c;更详细的内容参考Tomography Guide。该版本使用1k*1k的图像而不是压缩版本。imodhelp命令可以打开帮助界面&#xff0c;查看各种…

自定义修改Typora原生默认github风格样式

使用typora的时候&#xff0c;想要自定义一些颜色、字体&#xff0c;或者修改一些设置&#xff0c;这个时候需要修改或者自己编写css文件。 修改涉及的样式&#xff1a; ① 目录 ② 块应用 我还是比较喜欢原生自带的默认样式&#xff08;github样式&#xff09;&#xff0c; 但…

公司采购缺进项发票,税负重?买票违法不可取,这招可合规节税!

公司采购缺进项发票&#xff0c;税负重&#xff1f;买票违法不可取&#xff0c;这招可合规节税&#xff01; 《税筹顾问》专注于园区招商&#xff0c;您的贴身节税小能手&#xff0c;合理合规节税&#xff01; 自从金税四期的上线&#xff0c;我国的税务环境有了翻天覆地的变化…

软件开发流程解析

文章目录 1. 软件开发生命周期2.常见开发流程2.1 瀑布模型2.2 敏捷开发 3.实例开发过程示例 1. 软件开发生命周期 来源于百度百科&#xff1a;软件生命周期(Software Life Cycle,SLC)是软件的产生直到报废或停止使用的生命周期。软件生命周期内有问题定义、可行性分析、总体描述…

哈工大人工智能数学基础考试题型和资料(考查课)

大作业 【免费】人工智能数学基础11111资源-CSDN文库 PPT (1条消息) 【免费】人工智能数学基础PPT解压缩打开不会出现乱码资源-CSDN文库

Docker安装wordpress并配置数据库(详细步骤)

Docker在线拉取安装wordpress并配置数据库 一、拉取wordpress镜像(默认最新)二、启动wordpress容器三、查看容器状态四、安装wordpress博客程序 如果您已经在 Docker 容器中分别安装了 WordPress 和 MySQL&#xff0c;并且想要让它们链接起来&#xff0c;可以按照以下步骤进行操…

这所武汉的211,面试仅占比15%,却刷掉了409分的同学!Why?

一、学校及专业介绍 武汉理工大学&#xff08;Wuhan University of Technology&#xff09;&#xff0c;简称武理工&#xff0c;位于武汉市&#xff0c;是中华人民共和国教育部直属全国重点大学&#xff0c;国家“双一流”建设高校&#xff0c;“211工程”、“985工程优势学科创…

西门子PPI协议开发

目录 西门子PPI协议开发 1 协议介绍 2 仿真环境 2.1 安装修改仿真软件 2.2 设置PPI串口 3 报文示例 西门子PPI协议开发 西门子PPI协议适用S7-200、S7-200SMART PLC。 1 协议介绍 仔细读下&#xff0c;用于开发是满足的&#xff0c;不用再去找其他文章了。网上找了不少&a…

wfe进不了standby模式怎么办

快速链接: . &#x1f449;&#x1f449;&#x1f449; 【目录】ARM/TEE/ATF/SOC微信群问题记录 &#x1f448;&#x1f448;&#x1f448; 付费专栏-付费课程 【购买须知】:联系方式-加入交流群 ----联系方式-加入交流群 (说明&#xff1a;本文总结来自于微信群的公开讨论&a…

项目集管理—项目集生命周期管理

项目集生命周期管理是指为促进有效的项目集定义、项目集交付和项目集收尾&#xff0c;管理所需项目集 活动的绩效领域。 为了确保实现效益&#xff0c;项目集各组件要与组织战略目的和目标保持必要的一致性。这些组件可能包 括项目、子项目集和其他项目集相关活动&#xff0c;它…

城市内涝监测预警系统中积水监测仪的应用

一、方案背景 近年来&#xff0c;由强降水引发的道路低洼处、下穿式立交桥和隧道产生大量积水的现象时有发生&#xff0c;给人们的出行和生活带来很多不便&#xff0c;严重时甚至会造成人民生命、财产的重大损失。住房和城乡建设部、国家发展改革委办公厅于4月16日发布了《关于…

JavaScript 温度异常图表

了解如何使用高性能 JS 图表创建可用于异常天气和温度科学研究的 JS 温度异常图表。 你好&#xff01; 在本文中&#xff0c;我们将创建温度异常图表。 对于这个例子&#xff0c;我们将使用 LightningCharts JS 库&#xff0c;特别是XY图表。对于那些对技术细节感兴趣的人&am…

2.数据库语言二

文章目录 数据库语言二Mysql的约束数据表高级操作克隆表方法一方法二 清空表&#xff0c;删除表内的数据方法一方法二 创建临时表外键约束数据库用户管理新建用户查看用户重命名用户删除用户修改用户密码忘记root密码 数据库用户授权授予权限查看权限撤销权限 数据库语言二 My…

OpenAI 重磅更新 变得更强啦 | 包括更多可控的 API 模型、函数调用能力、更长的上下文和更低的价格

文章目录 一、前言二、主要内容三、总结 &#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、前言 OpenAI 官网&#xff1a;https://openai.com/blog/function-calling-and-other-api-updates 功能调用和其他 API 更新。OpenAI 宣布更新&#xff0c;包…

netstat命令与wget命令

查看本机的网络连接与后门&#xff1a;netstat 如果某个网络服务明明已经启动了&#xff0c;但是就算无法进行连接&#xff0c;那应该怎么办&#xff1f;首先你要查询以下网络接口所监听的端口(port)&#xff0c;来看看是否真的已经启动&#xff0c;因为有时候屏幕上显示的OK并…

从 ColossalChat 到 DeepSpeedChat, RLHF的应用及优化

从 ColossalChat 到 DeepSpeedChat, RLHF的应用及优化 原创 紫气东来 收录于合集#LLMs8个 作者&#xff1a;紫气东来 项目地址&#xff1a;https://zhuanlan.zhihu.com/p/621391363 一、深入理解 ColossalChat 在上一期 NLP&#xff08;九&#xff09;&#xff1a;LLaMA, Al…

畅捷通T+ SQL注入漏洞复现(QVD-2023-13612)

0x01 产品简介 畅捷通 T 是一款基于互联网的新型企业管理软件&#xff0c;功能模块包括&#xff1a;财务管理、采购管理、库存管理等。主要针对中小型工贸和商贸企业的财务业务一体化应用&#xff0c;融入了社交化、移动化、物联网、电子商务、互联网信息订阅等元素。 0x02 漏…

STM32速成笔记—GPIO

文章目录 一、什么是GPIO二、GPIO的输入/输出模式三、GPIO初始化配置四、Boot引脚五、一些特殊的GPIO六、点亮LED1. 硬件电路2. 拉高/拉低GPIO3. 程序设计 七、GPIO的位带操作 一、什么是GPIO GPIO(英语:General-purpose input/output)&#xff0c;通用型之输入输出的简称&…