论文解析-moETM-多组学整合模型

news2025/1/13 10:24:06

论文解析-moETM

  • 参考
  • 亮点
  • 动机
  • 发展现状
    • 现存问题
  • 功能
  • 方法
    • Encoder改进
    • Decoder改进
  • 评价指标
    • 生物保守性
    • 批次效应移除
  • 实验设置
  • 结果
    • 多组学数据整合
    • cell-topic mixture可解释性
    • 组学翻译性能评估
    • RNA转录本、表面蛋白、染色质可及域调控关系研究
      • 1. 验证同一主题下,top gene可以映射到top protein
        • 过程
        • 结果
      • 2. 跨主题验证gene-protein、peak-gene的调控关系
        • 过程
        • 结果
      • 3. 验证重构的gene-protein、peak-gene更能反映组学相关性
    • 联合peak-gene分析细胞类型特异性通路和调控机制
      • 分析细胞类型特异性通路
      • 分析细胞类型特异性motif
      • 分析细胞类型特异性通路联合motif
  • 补充
    • 基因(蛋白)集富集过程
    • 基因与翻译蛋白表达负相关的可能原因
    • 寻找细胞标志物的资源--CellMarker数据库
    • 寻找TF对应靶基因的资源--ENCODE Transcription Factor Targets

参考

Zhou, M. et al. Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures. Cell Reports Methods 3, 100563 (2023).
在这里插入图片描述

亮点

动机

从单细胞多组学数据探究生物模式的现存困难:

  1. 相比单组学技术,多组学技术通量更低,数据包含的细胞数量较少
  2. 不同组学结合之后特征维度更高,例如把scRNA-seq和scATAC-seq结合到一起
  3. 多组学数据噪声更多(解决方式:概率模型)
  4. 批处理效应
  5. 多组学测序技术成本更高(解决方式:用模型预测缺失的组学数据)

发展现状

方法文献
SMILEXu, Y., Das, P., and McCord, R.P. (2022). Smile: mutual information learning for integration of single-cell omics data. Bioinformatics 38, 476–486.
totalVIGayoso, A., Steier, Z., Lopez, R., Regier, J., Nazor, K.L., Streets, A., and Yosef, N. (2021). Joint probabilistic modeling of single-cell multi-omic data with totalvi. Nat. Methods 18, 272–282.
multiVIAshuach, T., Gabitto, M.I., Jordan, M.I., and Yosef, N. (2021). Multivi: Deep Generative Model for the Integration of Multi-Modal Data. Preprint at bioRxiv. https://doi.org/10.1101/2021.08.20.457057.
CoboltGong, B., Zhou, Y., and Purdom, E. (2021). Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol. 22, 351–421.
scMMMinoura, K., Abe, K., Nam, H., Nishikawa, H., and Shimamura, T. (2021). Scmm: Mixture-Of-Experts Multimodal Deep Generative Model for Single-Cell Multiomics Data Analysis. Preprint at bioRxiv. https://doi.org/ 10.1101/2021.02.18.431907.
MultigrateLotfollahi, M., Litinetskaya, A., and Theis, F.J. (2022). Multigrate: SingleCell Multi-Omic Data Integration. Preprint at bioRxiv. https://doi.org/10. 1101/2022.03.16.484643.
MOFA+Argelaguet, R., Arnol, D., Bredikhin, D., Deloro, Y., Velten, B., Marioni, J.C., and Stegle, O. (2020). Mofa+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 21, 111–117.

现存问题

  1. 需要在可扩展性、可解释性和灵活性进行权衡
  2. 完全数据驱动,不能充分利用生物学信息,例如基因注释和通路信息

功能

  1. 细胞聚类,识别细胞亚型
  2. 基于一个组学数据插补另一个组学数据
  3. 识别细胞类型特征和生物标志物

方法

在这里插入图片描述

整体是VAE架构,但是他在Encoder和Decoer分别作了改进:

Encoder改进

  1. 假设每个组学数据分布符合K维独立的逻辑正态分布,这里采用K维高斯乘积(PoG)充分利用这些分布的信息,比之前的MoE得到更有效的变分推理。
  2. 前人方法对每个组学分别进行采样K维高斯变量然后平均化,这里只需从联合高斯采样一次,因此可以得到更鲁棒的结果。
  3. Topic解释:对联合高斯密度进行Softmax计算,生成的逻辑正态分布可视为细胞的主题混合。

Decoder改进

  1. 矩阵分解作为Decoder,把cell-by-feature matrices分解成shared cell-by-topic matrix,shared topic-embedding matrix和M(组学数量)个独立的feature-embedding matrices
  2. 引入组学特异性的批次移除因子λ,作为线性可加的批次特异性偏差

评价指标

生物保守性

  1. Adjusted Rand Index (ARI)
  2. Normalized Mutual Information (NMI)

批次效应移除

  1. k-nearest neighbor batch effect test (kBET)
  2. Graph connectivity (GC):衡量不同批次相同细胞类型之间的相似性,同时衡量生物保守型和批次移除效应

实验设置

随机分为训练集:测试集=6:4,重复500次

结果

多组学数据整合

在这里插入图片描述

  1. 在4个peak-gene数据集上的平均指标第二,在3个gene-protein数据集上的平均指标第一,在所有7个数据集上平均指标第一
  2. moETM_* 为只利用组学*的数据进行训练和测试,与moETM结果对比表示,整合多组学数据比单组学数据得到更准确的结果
  3. moETM_avg 用分别从每个组学的高斯分布分别采样然后平均化代替PoG算法,结果降低了,说明PoG对于moETM起重要作用

cell-topic mixture可解释性

在这里插入图片描述
使用BMMC2数据集,把moETM训练得到的cell-by-topic matrix进行UMAP可视化,与其他方法得到的cell embdding可视化进行对比。
说明,cell-by-topic matrix既消除的BatchEffect,又识别了细胞类型。

组学翻译性能评估

在这里插入图片描述

  1. 由A、B图看出,基于转录组数据翻译的蛋白数据与原始蛋白数据高度相似,且高度线性相关(PCC约0.95)
  2. 由C、D图看出,基于ATAC数据翻译的基因数据与原始基因数据高度相似,且高度线性相关(PCC约0.69)
  3. 由A、C图对比看出,相比蛋白表达数据,基因表达数据明显更稀疏。因此,基于ATAC翻译RNA比基于RNA翻译蛋白更难
  4. 实验结果的PCC(ATAC2RNA=0.69,RNA2ATAC=0.58,RNA2protein=0.95,protein2RNA=0.65),由此推断翻译任务难度RNA2protein < ATAC2RNA < protein2RNA < RNA2ATAC

RNA转录本、表面蛋白、染色质可及域调控关系研究

1. 验证同一主题下,top gene可以映射到top protein

过程

对于每个topic,计算134对基因和对应的翻译蛋白的 topic score 的Spearman correlation

结果
  1. 平均相关性在0.29
  2. 13个topic 相关性高于0.5

2. 跨主题验证gene-protein、peak-gene的调控关系

过程

如果一个peak在一个基因转录起始位点150k bp之内,则认为他们是匹配的。
查看匹配的peak-gene、gene-protein的相关系数分布

结果

查看匹配的peak-gene、gene-protein的相关系数分布显著高于0,并且和观测值得到的分布类似。
说明:该算法在整合的时候保留的调控相关性,且能反映原始数据特征

3. 验证重构的gene-protein、peak-gene更能反映组学相关性

在这里插入图片描述
表明模型可以对观测数据的噪声进行降噪和混杂校正,更能反映单细胞中的不同组学的相关性

联合peak-gene分析细胞类型特异性通路和调控机制

分析细胞类型特异性通路

  1. 聚焦于一种类型的细胞(CD8+ T cells),将peak匹配到gene上,peak在一个基因转录起始位点150k bp之内,找到peak-neighboring genes。联合Topic score较高的的Top gene、Top peak联合分析
  2. 发现Top5 genes中3个与T细胞功能相关,Top5 peak对应的peak-neighboring genes中2个与T细胞功能相关,说明揭示了细胞类型特异性基因。
  3. 对Top5 genes、Top5 peak-neighboring genes进行通路富集(GSEA),得到的富集pathway与当前细胞类型相关,富集的基因集在当前细胞类型中显示出差异性表达(上调或下调),表明揭示了细胞类型特异性通路,及调控机制

分析细胞类型特异性motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),从Ensembl database中,寻找根据Topic score排名的Top100 peaks对应的100个序列
  2. 将100个序列输入SEA算法,寻找这100个序列富集的motif
  3. 通过连接 Top genes,细胞类型、富集motif对应TFs 构造细胞类型特异性调控网络
  4. 通过ENCODE TF Targets dataset将已知的TF-genes用黄色线连接起来
  5. 结果表明:根据peak得到的motif在这种细胞类型中若干靶基因属于Top genes,说明模型识别了细胞类型特异性调控机制和motif特征

分析细胞类型特异性通路联合motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),通过连接 Top genes、富集motif对应TFs、富集pathway构建pathway-motif网络
  2. motif与Top genes根据ENCODE TF Targets dataset记录的调控关系连线
  3. 对比该类型的富集motif与相关的pathway(基因特异性表达,上调或下调),表示motif和pathway之间的调控关系一致性

补充

基因(蛋白)集富集过程

在这里插入图片描述

  1. 对于每个Topic,根据主题分数得到的rank gene list,通过运行GSEAPreranked函数从Molecular signatures database (MSigDB)查询2种基因集(免疫学特征基因集,基因本体生物过程)
  2. 对于过表达或低表达的基因计算富集分数(ES)
  3. 计算ES的统计学显著性
  4. 认为显著性 p-value<0.05 的基因集是显著的
  5. 图中每个颜色代表一个基因集(pathway),虚线以上的代表具有显著性。目的是说明每个Topic均可以显著性富集到基因集或pathway

基因与翻译蛋白表达负相关的可能原因

  1. 随机噪声可能会阻碍基因和蛋白质之间的相关性
  2. 单细胞水平的动态细胞过程(转录爆发、转录或翻译延迟)可引起细胞之间的差异,导致相关性降低
  3. 其他生物过程的影响压倒了转录的影响(转录后翻译的影响超过了蛋白质合成)
  4. mRNA降解速度超过蛋白质合成速度

寻找细胞标志物的资源–CellMarker数据库

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., Luo, T., Xu, L., Liao, G., Yan, M., et al. (2019). Cellmarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res. 47, D721–D728.

寻找TF对应靶基因的资源–ENCODE Transcription Factor Targets

The ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of dna elements (encode). PLoS Biol. 9, e1001046.
ENCODE Project Consortium; and Pachter, L. (2004). The encode (encyclopedia of dna elements) project. Science 306, 636–640.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1105047.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android12之DRM基本接口实现(二)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

Android性能优化系列-腾讯matrix-流量监控之TrafficPlugin源码分析

前言 本篇进行matrix框架的网络流量监控模块的代码分析。你可能想&#xff0c;为什么需要对流量进行监控呢&#xff1f;我们平常进行的网络接口请求都是一些必要的操作&#xff0c;监控它的意义何在&#xff1f;首先我们要明确流量监控的对象是什么&#xff0c;是上行&#xf…

【学习笔记】RabbitMQ-5 消息的可靠性投递 以及示例代码

参考资料 RabbitMQ官方网站RabbitMQ官方文档噼咔噼咔-动力节点教程 文章目录 八、RabbitMQ的确认机制 -confirm8.1 Confirm 模式简介8.2 具体代码设置8.2.1 **设置思路**&#xff1a;8.2.2 **代码实现**8.2.2.1 开启生产者的确认模式.8.2.2.2 实现接口ComfirmCallback8.2.2.3 配…

Transformer模型 | Transformer模型描述

谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快…

浪涌防护:TSS管的工作原理与应用?|深圳比创达EMC

浪涌防护&#xff1a;TSS管的工作原理与应用&#xff1f;相信不少人是有疑问的&#xff0c;今天深圳市比创达电子科技有限公司就跟大家解答一下&#xff01; 一、TSS工作原理 TSS半导体放电管是一种电压开关型瞬态抑制二极管&#xff0c;即涌压抑制晶体管&#xff0c;或称为导…

大中小企业自招人力及劳务派遣招聘

抖音直播招聘报白是一种通过直播方式展示职位信息并与求职者互动的招聘方式。在抖音平台上&#xff0c;企业或人力资源公司可利用直播将职位以视频直播的方式展现&#xff0c;这种方式可给求职者带来更强的代入感和真实性&#xff0c;解决其对岗位真假难辨的信任问题。 图片 …

SCB-Dataset3 公开 学生课堂行为数据集: A Benchmark for Detecting Student Classroom Behavior

公开 学生课堂行为数据集 SCB-Dataset 2 Student Classroom Behavior dataset b站&#xff1a;https://www.bilibili.com/video/BV1D34y1g76E/ arxiv: https://arxiv.org/pdf/2310.02522.pdf github: https://github.com/Whiffe/SCB-dataset 百度云&#xff1a;https://pan…

如何选择适合的发电机测试设备?

选择适合的发电机测试设备需要考虑电机的额定功率和负载需求&#xff0c;选择能够满足需求的测试设备&#xff0c;确保测试设备的功率范围覆盖发电机的额定功率&#xff0c;并有一定的余量。常见的发电机测试项目包括电压、电流、频率、功率因数、转速、温度等参数的测试&#…

PCB布线时如何保证100M以上信号的稳定性?

PCB布线时是电子工程中非常重要的环节&#xff0c;对于保证信号的稳定性和完整性至关重要&#xff0c;若电子工程师遇上100M以上信号的布线需求&#xff0c;该如何设计来保证其稳定性&#xff1f;下面或许能给你些参考。 1、选择合适的传输介质 对高速信号&#xff0c;选择合适…

基于 SaaS 搭建的党建小程序源码系统 带完整的搭建教程

随着互联网技术的发展和应用的普及&#xff0c;传统的党建模式已经难以满足现代社会的需求。为了更好地服务党员和群众&#xff0c;提高党组织的凝聚力和战斗力&#xff0c;基于 SaaS搭建的党建小程序源码系统应运而生。小程序的出现可以很好的解决大多数问题&#xff0c;方便了…

数字孪生与智慧城市:重塑未来城市生活的奇迹

今天&#xff0c;我们将探讨数字孪生和智慧城市两个颠覆性技术&#xff0c;它们正引领着未来城市生活的巨大变革。随着科技的飞速发展&#xff0c;数字孪生和智慧城市成为实现可持续发展和提升居民生活质量的关键策略。 数字孪生&#xff1a;实现现实与虚拟的完美融合 数字孪生…

AI工具在工作中的“大作用”

现如今科技的发展让我们的生活越来越便利&#xff0c;一些AI工具的出现&#xff0c;更对我们的工作有莫大的帮助。 AI工具的辅助就像给上班族提供了一种更加高级的“摸鱼方法”&#xff0c;大大提高了打工人的工作效率。如果有一种什么都能回答你&#xff0c;甚至能帮助你完成…

用例图包含关系、扩展关系、泛化关系解析(最全总结,非常详细)

一、用例图中的各种关系 a&#xff09;参与者与用例间的关联关系&#xff1a;参与者与用例之间的通信&#xff0c;也成为关联或通信关系。 b&#xff09;用例与用例之间的关系&#xff1a;包含关系&#xff08;include&#xff09;、扩展关系&#xff08;extend&#xff09;、…

智慧机场航线监测系统:提升航空运输安全与效率的新一步

在当今世界&#xff0c;空中出行已经成为越来越多人生活的一部分。人们频繁地乘坐飞机来往各地&#xff0c;全球航空旅行需求不断增长&#xff0c;航空运输业已经变得越来越复杂。在这个复杂性不断增强的行业中&#xff0c;智慧机场应用航线监测系统成为了航空领域关键的发展趋…

LeetCode2652——倍数之和

LeetCode2562 自己的解法&#xff1a; 官方给的解法&#xff08;不需要创建额外的数组&#xff0c;更为简洁&#xff0c;效率更高&#xff09;&#xff1a;

操作指南 | 如何通过Moonbeam DApp在OpenGov投票

除了Polkassembly或Polkadot.js以外&#xff0c;Moonbeam自己的DApp也可以直接参与链上治理。该界面简洁完整&#xff0c;对用户来说非常方便。 首先进入https://apps.moonbeam.network/moonbeam&#xff0c;连接你的钱包至DApp。Moonbeam DApp支持很多类型的钱包&#xff0c;…

Unity游戏开发中ngui和ugui区别与优缺点详解

Unity3D是一款跨平台的游戏开发引擎&#xff0c;它支持多种平台&#xff0c;包括PC、移动设备和主机。在Unity3D中&#xff0c;UI系统是游戏开发中非常重要的一部分&#xff0c;它负责游戏中的用户界面的显示和交互。 对惹&#xff0c;这里有一个游戏开发交流小组&#xff0c;…

rust学习特殊的地方——函数返回值

概念 Rust 中的函数定义以 fn 开始&#xff0c;后跟着函数名和一对圆括号。大括号告诉编译器函数体在哪里开始和结束。 特殊的地方——函数返回值 错误的写法 正解1 去掉分号 fn main() {let x plus_one(5);println!("The value of x is: {}", x); }fn plus_…

AI巧破网络诈骗?闭门研讨会报名丨青源Workshop第26期

青源Workshop丨No.26 AI反诈与智能风控&#xff1a;信息安全的矛与盾 AI红利接踵而至&#xff0c;安全风险如影随形。过去几年&#xff0c;人工智能技术的迅速发展催生了包括金融、电子商务、社交网络、医疗保健等众多应用场景。AI应用落地带来新安全风险&#xff0c;安全防护难…

JVS规则引擎及智能BI又更新新功能啦!赶紧来试试

规则引擎更新功能 新增: 1.复合变量新增排序、排名功能 可以按照特定的顺序对数据进行排列&#xff0c;确定规则的优先级&#xff0c;可以提高数据处理效率&#xff0c;帮助分析人员更好地了解数据分布和趋势。 2.决策流新增动态日志功能 动态日志可以记录规则执行的过程和…