基于多模态单细胞数据构建共表达网络-MuSeGNN

news2025/4/19 21:50:46

本篇来自于MuSe-GNN: Learning Unified Gene Representation From Multimodal Biological Graph Data的补充材料。主要目的是从多模态数据中构建共表达网络。作者概述了使用CS-CORE,scTransform和SPARK-X进行预处理步骤和网络构建的算法细节。

目前存在大量用于图谱级转录组和表观基因组数据分析的数据库(比如HCA,HuBMAP),作者收集了来自HCA的scRNA-seq,来自HuBMAP的scATAC-seq,以及来自其他数据库的高质量空间数据。对于不同的组学数据,作者实现了一个通用的过程。

在常规流程中,对于scRNAseq数据集,作者使用scTransform选择hvg并生成Pearson残差,将原始表达式替换为残差。scTransform是第一个将排序深度作为协变量而不是直接将大小因子应用于归一化的模型。它消除了由原始单细胞或空间表达数据的测序深度造成的混淆,从而生成正确的基因表达谱。这些优点使其成为广泛使用的归一化方法。

为了构建基于唯一分子标识符(Unique Molecular Identifier, UMI)的scRNA-seq数据集共表达网络,作者使用了CS-CORE,这是一种基于UMI计数数据的最先进的共表达推断工具。与其他工具相比,CS-CORE具有更高的鲁棒性和更低的假阳性率。对于scATAC-seq数据集,使用Seurat将原始细胞峰矩阵转换为细胞-基因活性矩阵,并纳入先验信息。细胞-基因活性矩阵的处理方法与scRNA-seq数据矩阵类似,因此后续的预处理步骤保持不变。

为了构建空间数据共表达网络,作者考虑了空间表达模式(SE基因或空间hvg),并将每个条形码作为一个样本。作者使用SPARK-X识别SE基因,然后基于scTransform和基于CS-CORE的共表达网络生成校正后的基因表达谱与共表达网络。

CS-CORE
由于数据为UMI类型,因此可以使用CS-CORE进行共表达网络构建。考虑有 n n n个细胞,对于细胞 i i i,表达谱可以表示为向量 ( x i 1 , . . . , x i p ) (x_{i1},...,x_{ip}) (xi1,...,xip) p p p是基因的数量。我们也可以使用 s i s_{i} si表示细胞 i i i的测序深度。考虑到细胞 i i i p p p个基因的潜在表达水平为 ( z i 1 , . . . , z i p ) (z_{i1},...,z_{ip}) (zi1,...,zip),CS-CORE的假设遵循: ( z i 1 , . . . , z i p ) ∼ F p ( μ , Σ ) ,    x i j ∣ z i j ∼ P o i s s o n ( s i z i j ) (z_{i1},...,z_{ip})\sim F_{p}(\mu,\Sigma),\thinspace\thinspace x_{ij}|z_{ij}\sim Poisson(s_{i}z_{ij}) (zi1,...,zip)Fp(μ,Σ),xijzijPoisson(sizij)其中, F p F_{p} Fp是未知的非负p-variate分布,均值为 μ \mu μ,协方差矩阵为 Σ \Sigma Σ。CS-CORE采用一种基于矩的迭代加权最小二乘(IRLS)估计方法来估计协方差矩阵。一旦获得 Σ p × p = [ σ i j ] \Sigma_{p\times p}=[\sigma_{ij}] Σp×p=[σij],就能估计基因 j j j j ′ j' j之间的共表达关系为 ρ j j ′ = σ j j ′ σ j j σ j ′ j ′ \rho_{jj'}=\frac{\sigma_{jj'}}{\sqrt{\sigma_{jj}\sigma_{j'j'}}} ρjj=σjjσjj σjj

scTransform
为了消除测序深度对表达水平的混淆影响,作者首先使用scTransform对单细胞数据进行处理,得到Pearson残差,然后使用Pearson残差作为不同基因的初始embedding。假设UMI计数数据服从负二项分布,对于细胞 c c c中给定的基因 g g g,我们有: x g c ∼ N B ( μ g c , θ g ) I n   μ g c = β g 0 + I n   s c x_{gc}\sim NB(\mu_{gc},\theta_{g})\\ In\thinspace\mu_{gc}=\beta_{g0}+In\thinspace s_{c} xgcNB(μgc,θg)Inμgc=βg0+InscscTransform利用广义线性模型将 θ \theta θ正则化为基因均值 μ \mu μ的函数。进一步,可以估计未知参数,计算Pearson残差 Z g c Z_{gc} Zgc Z g c = x g c − μ g c σ g c μ g c = e x p ( β g 0 + I n   s c ) σ g c = μ g c + μ g c 2 θ g c Z_{gc}=\frac{x_{gc}-\mu_{gc}}{\sigma_{gc}}\\ \mu_{gc}=exp(\beta_{g0}+In\thinspace s_{c})\\ \sigma_{gc}=\sqrt{\mu_{gc}+\frac{\mu_{gc}^{2}}{\theta_{gc}}} Zgc=σgcxgcμgcμgc=exp(βg0+Insc)σgc=μgc+θgcμgc2 最后,可以用广义线性模型生成的残差矩阵 Z Z Z代替原始表达式矩阵,并将表达式矩阵和对应的Graph存储在scanpy文件中。

SPARK-X
单细胞转录组数据和空间转录组数据的主要区别包括两个方面:

  • 1在大多数空间分辨数据中,每个条形码代表不同细胞的混合。
  • 2额外的空间信息为空间数据引入了基因的空间表达模式(SE基因)。

为了在空间转录组数据中识别SE基因,SPARK-X采用了一种统计检验,利用位置构建的距离协方差矩阵和利用基因表达谱构建的表达协方差矩阵。

更具体地说,对于大小为 n × d n × d n×d的空间转录组基因表达矩阵,样本坐标的矩阵为: S = ( s 1 T , . . . , s n T ) , s i = ( s i 2 , s i 2 ) S=(s_{1}^{T},...,s_{n}^{T}),s_{i}=(s_{i2},s_{i2}) S=(s1T,...,snT),si=(si2,si2)。整个表达式矩阵可以表示为: y = ( y 1 ( s 1 ) , . . . , y n ( s n ) ) T y=(y_{1}(s_{1}),...,y_{n}(s_{n}))^{T} y=(y1(s1),...,yn(sn))T。目标是检验 y y y是否独立于 S S S,因此基于 E = y ( y T y ) − 1 y T E=y(y^{T}y)^{-1}y^{T} E=y(yTy)1yT构造表达协方差矩阵,基于 Σ = S ( S T S ) − 1 S T \Sigma=S(S^{T}S)^{-1}S^{T} Σ=S(STS)1ST构造距离协方差矩阵。对 E E E Σ \Sigma Σ检验,按照p值排序,选择前1000个基因进行归一化和共表达Graph构建。

fig1

  • 多模态数据构建共表达网络的统一过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1571742.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

卫星遥感影像统计农业产量、作物分类及面积

卫星遥感技术的广泛应用为农业领域带来了巨大的变革,其中,卫星遥感影像在农业产量估算方面的应用正成为一项关键技术。通过高分辨率的遥感数据,农业生产者可以更准确、及时地了解农田状况,实现精准农业管理,提高产量和…

软件杯 深度学习乳腺癌分类

文章目录 1 前言2 前言3 数据集3.1 良性样本3.2 病变样本 4 开发环境5 代码实现5.1 实现流程5.2 部分代码实现5.2.1 导入库5.2.2 图像加载5.2.3 标记5.2.4 分组5.2.5 构建模型训练 6 分析指标6.1 精度,召回率和F1度量6.2 混淆矩阵 7 结果和结论8 最后 1 前言 &…

TiDB单机版安装和连接访问

TiDB单机版安装和连接访问 1、下载 $wget http://download.pingcap.org/tidb-latest-linux-amd64.tar.gz 2、解压缩 $tar -zxvf tidb-latest-linux-amd64.tar.gz 3、启动TiDB 启动PD $./bin/pd-server --data-dirpd --log-filepd.log 启动tikv $./bin/tikv-server --pd…

路由器拨号失败解决方法

目录 一、遇到问题 二、测试 三、解决方法 (一)路由器先单插wan口设置 (二)mac地址替换 (三)更改路由器DNS 一、遇到问题 1 .在光猫使用桥接模式,由路由器进行拨号的时候,出现…

关于 QSound播放wav音频文件,播放失败“using null output device, none available” 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/137264493 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

【C语言】_文件内容操作:随机读写

目录 1. fseek 1.1 随机读文件 1.2 随机写文件 2. ftell 3. rewind 当以读方式打开一个存在且存有内容的文件时,文件指针会默认指向第一个元素。以在test4.txt文件中存储abcdef为例: int main() {//打开文件FILE* pf fopen("E:\\C_文件操作…

AI复活:商业新风口还是情感禁区?

随着人工智能技术的飞速发展,AI已经渗透到我们生活的方方面面,其中,“AI复活”服务作为新兴的技术应用,正逐渐走进大众视野。然而,这一技术带来的不仅是商业机会,更伴随着伦理和情感的争议。 “AI复活”服务…

NoSQL概述

NoSQL概述 目录 一、为什么用NoSQL 二、什么是NoSQL 三、经典应用分析 四、N o S Q L 数 据 模 型 简 介 五、NoSQL四大分类 六、CAP BASE 一、为什么用NoSQL 1、单机MySQL的美好年代 在90年代,一个网站的访问量一般不大,用单个数据库完全可以轻松应…

webrtcP2P通话流程

文章目录 webrtcP2P通话流程webrtc多对多 mesh方案webrtc多对多 mcu方案webrtc多对多 sfu方案webrtc案例测试getUserMediagetUserMedia基础示例-打开摄像头getUserMedia canvas - 截图 打开共享屏幕 webrtcP2P通话流程 在这里,stun服务器包括stun服务和turn转发服…

比nestjs更优雅的ts控制反转策略-依赖查找

一、Cabloy5.0内测预告 Cabloy5.0采用TS对整个全栈框架进行了脱胎换骨般的大重构,并且提供了更加优雅的ts控制反转策略,让我们的业务开发更加快捷顺畅 1. 新旧技术栈对比: 后端前端旧版js、egg2.0、mysqljs、vue2、framework7新版ts、egg3…

MSF永恒之蓝漏洞利用详解[漏洞验证利用及后渗透]【详细版】

漏洞原因 永恒之蓝利用了SMBv1的一个缺陷。SMB(Server Message Block)是一种在Windows环境中广泛使用的网络文件共享协议。这个漏洞允许未经授权的攻击者通过网络发送特制的数据包到目标系统,从而远程执行恶意代码 openvas漏洞扫描结果 使用…

03-自媒体文章发布

自媒体文章发布 1)自媒体前后端搭建 1.1)后台搭建 ①:资料中找到heima-leadnews-wemedia.zip解压 拷贝到heima-leadnews-service工程下,并指定子模块 执行leadnews-wemedia.sql脚本 添加对应的nacos配置 spring:datasource:driver-class-name: com…

Linux目录结构知识

一、认识Linux目录 1) Linux目录结构知识 1) win: 目录顶点是盘符 C/D/E 。所有的目录结构都在不同的盘符下面,不同的盘之间不能沟通的。 2) Linux: 目录顶点是 / ,称为根。所有的目录结构都在根下面,他的目录之间都…

不妨借一步说话,你想知道的关于设计模式的种种

可以点击关于我联系我获取完整PDF (VX:mm14525201314) 1. 请列举出在 JDK 中几个常用的设计模式? 单例模式(Singleton pattern)用于 Runtime,Calendar 和其他的一些类中。 工厂模式(Factory pattern&…

html5如何在使用原生开发的情况下实现组件化

我们知道如何在vue/react中使用组件化开发,那么如果只是一个简单的界面,一个HTML就搞定的事情,你还会去新建一个vue/react项目吗? 在使用原生HTML开发时,我们也会遇到一些常见的功能、模块,那么如何在原生…

java——文件上传

一、文件上传——简介 文件上传的简介:文件上传是指将本地计算机中的文件传输到网络上的服务器或另一台计算机上的过程。在 Web 开发中,文件上传通常指的是将用户通过 Web 页面提交的文件(如图像、文档、音频、视频等)传输到服务器…

Ps:预览调整 32 位 HDR 图像

由于 HDR 图像的动态范围超出了标准计算机显示器的显示范围。在 Photoshop 中打开 HDR 图像时,图像可能会非常暗或出现褪色现象。 Photoshop 提供了专门的预览调整功能,以使标准显示器显示的 HDR 图像的高光和阴影不会太暗或出现褪色现象。 预览调整设置…

最优算法100例之33-数据流的中位数

专栏主页:计算机专业基础知识总结(适用于期末复习考研刷题求职面试)系列文章https://blog.csdn.net/seeker1994/category_12585732.html 题目描述 中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。 例如, [2,3,4] 的中位数是 3 [2,3] 的中位…

C语言中strcpy函数的实现

C语言中strcpy函数的实现 为了便于和strcpy函数区别,以下命令为_strcpy。 描述:实现strcpy,字符串拷贝函数,函数原型如下: char* strcpy(char* _Destination, const char *_Source);_strcpy实现: char*…

详解 Redis 在 Ubuntu 系统上的安装

在 Ubuntu 20.04 安装 Redis 1. 先切换到 root 用户 在 Ubuntu 20.04 中,可以通过以下步骤切换到 root 用户: 输入以下命令,以 root 用户身份登录: sudo su -按回车键,并输入当前用户的密码(即具有 sudo…