sc-MAVE

news2024/9/22 17:36:28

Deep-joint-learning analysis model of single cell transcriptome and open chromatin accessibility data单细胞转录组和开放染色质可及性数据的深度联合学习分析模型

在同一个细胞中同时分析转录组和染色质可及性信息为了解细胞状态提供了前所未有的解决方案。然而,计算有效的方法,这些固有的稀疏和异构数据的整合是缺乏的。在这里,我们提出了一个单细胞多模态变分自动编码器模型,它结合了三种类型的联合学习策略与概率高斯混合模型,以学习准确代表这些多层配置文件的联合潜在特征。对模拟数据集和真实的数据集的研究表明,该方法具有更好的能力:(i)在联合学习空间中剖析细胞异质性;(ii)去噪和估算数据;(iii)构建多层组学数据之间的关联,可用于理解转录调控机制。

介绍

基因表达是通过一组转录因子(TF)结合到其顺式调控基因组区域来调节的。

scRNA-seq表征细胞的基因表达水平,而scATAC-seq等表观基因组变化反映了附近基因中顺式调控元件的开放性。这种两组学数据的整合可以提供关于与细胞异质性相关的调控层的新见解[13]。许多集成工具都是为批量数据设计的[14]。

例如,主成分分析(PCA)的推广MOFA被提出来处理批量数据,也可以应用于单细胞数据集[15]。IntNMF是非负矩阵因子分解(NMF)的扩展,用于整合疾病亚型分类的多组学数据,并评估其处理单细胞数据集[16,17]。然而,最近的研究发现,单细胞数据有其独特的特点,不同于批量数据,因此需要开发新的方法[18]。单细胞多分析(PCA)的集成被提出来处理批量数据,也可以应用于单细胞数据集[15]。IntNMF是非负矩阵因子分解(NMF)的扩展,用于整合疾病亚型分类的多组学数据,并评估其处理单细胞数据集[16,17]。然而,最近的研究发现,单细胞数据有其独特的特点,不同于批量数据,因此需要开发新的方法[18]。

单细胞多组学数据的整合仍然是一个巨大的挑战,这是由于固有的高度稀疏性,由于测定噪声导致的巨大异质性,scATAC-seq和scRNA-seq数据之间的巨大维度差异,大约10-20倍[19],以及越来越大规模的数据集[20]。已经开发了大量用于scRNA-seq数据整合的方法,然而,只有少数方法被提出用于整合单细胞多组学数据,并且这些方法是针对从不同细胞收集但从相同细胞群体提取的组学数据开发的[21-24]。例如,提出了耦合MMF,通过构建基因和顺式调控元件的耦合非负矩阵来对scRNA-seq和scATACseq数据进行聚类[23]。MATCHER被提出来通过使用高斯过程潜变量模型来推断每个细胞的伪时间来预测scRNA-seq和scATACseq之间的相关性[24]。最近,开发了Seurat(版本3)[25]和LIGER [22]用于整合scRNA-seq和scATAC-seq数据。这两种方法都是先将scATAC-seq数据转化为类似于基因表达数据的基因活性数据,然后通过在低维空间中相互比对来识别scRNA-seq数据和基因活性数据之间的锚点。然而,两组学/两层组学数据之间的比对效率通常需要来自两种测量的相似聚类性能。由于scATAC-seq数据的极稀疏性(即sci-CAR-seq中超过99%为零),很难通过scATAC-seq数据定义细胞簇。因此,这两种方法的不正确对齐可能会影响下游分析。

深度生成模型已经成为一个强大的框架来建模高维数据[26,27]。具体地,VAE通过编码器从输入数据学习低维特征,并通过解码器恢复输入数据,这可以通过最大化恢复的数据和输入数据之间的似然性,并最小化学习的潜在特征和真实后验之间的Kullback-Leibler(KL)发散来完成。最近,提出了采用标准VAE的单细胞变分推理(scVI)来分析scRNA-seq数据[26]。然而,标准的VAE在潜在变量上使用单一的各向同性多变量高斯分布,并且通常不适合稀疏数据[28]。SCALE适配使用高斯混合模型(GMM)作为潜在变量的先验的VAE被提出来分析scATAC-seq数据,分析结果表明,集成VAE和GMM的框架可以用于处理高度稀疏的数据,并学习更分散和可解释的潜在特征[27]。深度学习多模态技术[29,30]的最近快速发展以及在整合多视图生物数据[31]方面的成功应用,证明了它们在解决当前单细胞多组学数据分析困难方面的巨大潜力。

在这里,我们提出了单细胞多模态变分自动编码器(scMVAE),用于整合来自同一单细胞的scRNAseq和scATAC-seq数据,通过使用三种类型的联合学习策略。scMVAE模型使用随机优化和多模态编码器,首先聚合两种组学数据跨相似细胞和特征,以逼近具有GMM先验的联合潜在特征位置,然后通过每种组学数据的解码器重构观察到的表达值,同时考虑每种类型数据的归一化,可用于训练非常大的数据集。

特别是,通过无监督方式联合学习两种组学数据,scMVAE模型(i)产生具有生物意义的低维特征,同时表示这两个多层剖面,允许细胞可视化和聚类;(ii)去噪和填充两种组学数据;(iii)构建两层数据之间的关联,可用于推断新的调控关系。为了证明其效率,我们将scMVAE模型和其他整合方法应用于模拟和真实数据集,结果表明scMVAE模型的性能优于当前的最先进方法。

方法

scMVAE概率模型

scMVAE通过三种联合学习策略对来自同一细胞的scRNA-seq和scATAC-seq的分布进行建模:PoE推断网络(在材料S1中详细描述)、神经网络和直接连接两种组学数据特征(图1A–C)。为了平衡scRNA-seq和scATAC-seq数据之间的大尺度差异,我们将scATAC-seq数据的峰值水平计数矩阵转换为类似于scRNA-seq数据的基因活性数据,建模每个组学数据均来自于一个零膨胀负二项(ZINB)分布。

具体而言,给定K个聚类,可以通过多组学编码器网络通过重新参数化获得联合学习特征z,其中c是一个概率离散的分类变量。p(z|c)是一个混合高斯分布,其参数是由在c条件下的均值向量μc和协方差矩阵σc参数化的。考虑到x、y和c在z条件下是独立的,那么多模态联合学习分布p(x、y、z、c、lx、ly),其中lx和ly分别是用作scRNA-seq和scATAC-seq数据的库大小因子的一维高斯变量,可以分解为:

每个因子分解变量定义如下:

此外,x或y的每个基因表达水平独立于以下生成过程:

在MVAE中,z的GMM先验被用来生成高度逼真的样本,通过学习更加解耦和可解释的潜在表示。这在先前的工作中分别应用于scRNA-seq和scATAC-seq[27, 32]。lx和ly被视为与经验日志库大小强相关的对数正态分布。fθx(f(z))和fθy(f(z))表示由变分贝叶斯推断估计的特定特征的反比例。

在推断期间,神经网络fμx和fμy通过在最后一层使用‘softmax’激活函数被约束,以编码一个细胞中所有基因的平均比例基因表达,分别用于scRNA-seq和scATAC-seq数据。神经网络fπx和fπy通过在最后一层使用‘sigmoid’函数编码每个基因是否因为捕获效率和测序深度而被删除,用于每个二组学数据。

scMVAE模型的训练旨在最大化观察到的scRNA-seq和scATAC-seq数据的对数似然,然而,由于这是不可解的,因此转而优化证据下界(ELBO):

鼓励使用与库大小因子lx和ly相关的两个重建项和KL散度的正则化项来进行数据归一化、去噪和插值。潜在变量z的KL散度用于将其调节为GMM流形,以增强与多组学数据的关联。参数qϕ、pθ1和pθ2分别是多模态编码器、scRNA-seq数据的解码器和scATAC-seq数据的解码器。

所有神经网络都使用了dropout正则化和批量归一化。每个神经网络都有一个或两个全连接层,每层有128或256个节点。隐藏层之间的激活函数是'relu'函数。使用Adam优化器和1e-6的权重衰减来最大化ELBO。scMVAE模型使用pytorch软件包实现,其中GMM是使用Python scikit-learn软件包构建的。源代码位于GitHub存储库:https://github.com/cmzuo11/scMVAE。

图1. scMVAE模型的概述,包括三种联合学习策略。

(A)scMVAE模型的总体框架。给定同一细胞i的scRNA-seq数据(具有M个变量的xi)和scATAC-seq数据(具有N个变量的yi)作为输入,scMVAE模型通过一个具有三种学习策略的多模态编码器学习了细胞的非线性联合嵌入(z),该嵌入可用于多种分析任务(例如细胞聚类和可视化),然后通过解码器对每个组学数据将其重构回原始维度作为输出。注意:两种组学数据的相同细胞顺序确保了一个细胞对应于低维空间中的一个点。

(B)三种学习策略的示意模型:

(i)‘PoE’框架用于通过每个组学数据的后验概率的乘积来估计联合后验(详见材料S1),

(ii)‘NN’用于通过使用神经网络来组合为每个层数据提取的特征来学习联合学习空间

(iii)‘Direct’策略通过直接使用两层数据的原始特征的串联作为输入一起学习。在这种学习条件下,神经网络:NN−fμy−l,NN−fσy−l,NN−fμy,NN−fθy,NN−fπy已从总网络中删除。

(C)scMVAE模型中每个变量所属的分布。每个组学数据都被建模为一个ZINB分布。有关每个变量的详细描述,请参见数据集和预处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1488525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[java] 23种设计模式之桥接模式

一、什么是桥接模式 桥接(Bridge)模式属于结构型设计模式。通过提供抽象化和实现化之间的桥接结构,来实现二者的解耦。把抽象(abstraction)与行为实现(implementation)分离开来,从而可以保持各部分的独立性以及应对它们的功能扩展。 二、适用场景 当一…

计算机专业必看的十部电影

计算机专业必看的十部电影 1. 人工智能2. 黑客帝国3. 盗梦空间4. 社交网络5. Her6. 模仿游戏7. 斯诺登8. 头号玩家9. 暗网10. 网络迷踪 计算机专业必看的十部电影,就像一场精彩盛宴! 《黑客帝国》让你穿越虚拟世界,感受高科技的魅力《模仿游戏…

SDR架构 (一)为什么基带有I和Q路?

我之前做过自己的RTL-SDR。一直有一个疑惑。为啥rtl2832u芯片有一对差分I路,还有一对差分Q路。差分很好理解是为了抗干扰,但为啥要I和Q呢?并且我也知道不少人在自己修改的时候,保留I路对接在r820t2(跟原版一样&#xf…

重学SpringBoot3-@EnableConfigurationProperties注解

重学SpringBoot3-EnableConfigurationProperties注解 1. 引言2. EnableConfigurationProperties 的作用3. 使用示例4. 总结 1. 引言 Spring Boot 提供了一种便捷的方式来管理和校验应用程序的配置,即通过类型安全的配置属性。EnableConfigurationProperties 注解在…

【论文】Continuous Rapid Action Value Estimates阅读笔记

之前在阅读KR-UCT论文时,里面提到过与UCT结合的主要两种启发式方法旨在指导探索策略,通过使用渐进拓宽(PW)限制考虑的行动的数量,并使用快速行动价值估计(RAVE)选择最有前途的行动。因此找了一篇…

C++模板完整版

顾得泉:个人主页 个人专栏:《Linux操作系统》 《C从入门到精通》 《LeedCode刷题》 键盘敲烂,年薪百万! 一、泛型编程 如何实现一个通用的交换函数呢? void Swap(int& left, int& right) {int temp left…

[SpringCloud] OpenFeign核心架构原理 (一)

Feign的本质: 动态代理 七大核心组件 Feign底层是基于JDK动态代理来的, Feign.builder()最终构造的是一个代理对象, Feign在构建对象的时候会解析方法上的注解和参数, 获取Http请求需要用到基本参数以及和这些参数和方法参数的对应关系。然后发送Http请求, 获取响应, 再根据响…

需求评审会常见的5大核心问题

需求评审会是项目管理过程中的一个重要环节,其核心问题的顺利讨论和评审,对项目来说非常重要。其有助于项目成员对需求理解达成共识,明确需求的内容、目标和预期结果,尽早发现需求不合理之处,从而能够及时调整和完善&a…

物联卡禁止个人使用是有原因的,技术层面给大家深度分析一下

运营商禁止物联卡个人使用是硬性规定,但是现在很有很多不法商贩在倒卖物联卡给个人,套路是很多的,小编之前的文章里有几篇深度介绍,大家可以搜索看一下,今天就从技术层面来给大家详细分析一下为什么物联卡不适合个人使…

智慧社区养老:Java与SpringBoot的技术融合

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

华为OD机试真题C卷-篇6

100分值题 宽度最小的子矩阵部门人力分配电脑病毒感染会议室占用时间段路口最短时间问题5G网络建设 宽度最小的子矩阵 给定一个n行 * m列的矩阵;给定一个k个整数的数组k_list;在n*m的矩阵中找一个宽度最小的子矩阵,该子矩阵包含k_list中所有…

从0到1全流程使用 segment-anything

从0到1全流程使用 segment-anything 一、安装 anaconda 一、下载 anaconda 二、以管理员身份运行安装 1、勾选 Just Me 2、统一安装路径(后续 python 等包也安装至此目录) 3、勾选 add to path 然后安装即可。 三、修改 Anaconda 默认路径及默认缓存路径 Anaconda 默认下…

反向代理多级多机

一 架构图 本次实验需要 5台机器 第一台 nginx 只做代理服务器 负责反向代理 加 负载均衡 后面的两台nginx 做真实服务器 处理静态资源 再后面的 tomcat 做真实服务器 处理动态资源 二 具体实验 (一) 具体实验环境 所有机器关闭防火墙 安装…

第一天 走进Docker的世界

第一天 走进Docker的世界 介绍docker的前世今生,了解docker的实现原理,以Django项目为例,带大家如何编写最佳的Dockerfile构建镜像。通过本章的学习,大家会知道docker的概念及基本操作,并学会构建自己的业务镜像&…

【性能测试】Jmeter性能压测-阶梯式/波浪式场景总结(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、阶梯式场景&am…

Spring中Bean的作用域、实例化方式、生命周期、循环依赖问题

Spring中Bean的作用域、实例化方式、生命周期、循环依赖问题 一、Bean的作用域1.singleton2.prototype3.其他scope值 二、Bean的实例化方式1.通过构造方法实例化2.通过简单工厂模式实例化3.通过factory-bean实例化4.通过FactoryBean接口实例化5.BeanFactory和FactoryBean的区别…

车载主机中控屏_车载平板电脑|车载后装定制方案

现代汽车已经成为人们生活中不可或缺的交通工具,车载中控屏作为汽车信息娱乐和导航系统的重要组成部分,更是受到了越来越多车主的重视。而一款优秀的车载主机中控屏,不仅需要具备强大的性能和功能,还需要具备高性价比和更低的耗电…

深入探索Java线程管理:Thread类的全面指南

🌟 欢迎来到我的博客! 🌈 💡 探索未知,分享知识 💫 **🌟 欢迎来到我的博客! 🌈****💡 探索未知,分享知识 💫**深入探索Java线程管理&…

前端监控为什么采用GIF图片做埋点?

一、什么是埋点监控 前端监控是开发人员用来跟踪和维护应用程序表现层的运行状况的过程和工具。它主要包括三种类型:数据监控、性能监控和异常监控。 1、数据监控 主要是为了收集跟用户相关的数据,例如用户设备类型、浏览器版本、页面浏览量(…

【JavaScript】面试手撕浅拷贝

【JavaScript】面试手撕浅拷贝 引入 浅拷贝和深拷贝应该是面试时非常常见的问题了,为了能将这两者说清楚,于是打算用两篇文章分别解释下深浅拷贝。 PS: 我第一次听到拷贝这个词,有种莫名的熟悉感,感觉跟某个英文很相似&#xff…