单细胞CCA整合流程学习(SeuratV5/V4)

news2025/1/16 13:46:12

CCA(Canonical Correlation Analysis)和 Harmony 是两种常用于单细胞 RNA 测序(scRNA-seq)数据整合和批次效应校正的方法。

CCA 通过计算两个(或多个)数据集的线性组合,使这些组合之间的相关性最大化,从而找到不同数据集间的共同信号。在单细胞数据整合中,CCA会找到不同批次数据间的“锚点细胞”作为匹配点,这些锚点代表批次间生物学上相似的细胞。主要用于投影多个数据集到一个共享的低维空间中,使不同批次的数据可以被对齐。

Harmony是一种基于潜在变量模型的批次效应校正方法,它通过迭代的方式将数据投影到一个低维空间,并在这个过程中动态调整数据以去除批次效应。Harmony会根据每次迭代后的聚类结果来修正数据的表示,以确保在去除批次效应的同时保留生物学变异。与 CCA 不同的是,Harmony是在降维的潜在空间中进行批次效应校正,而不是直接在原始的高维表达空间中。

整合方式和场景:

CCA 更适合用于识别不同数据集间的共同信号,特别是当数据集的样本类型明显不同(例如不同组织、不同实验)时效果较好。在整合多种数据来源时,CCA的锚点策略可以有效匹配数据集之间的生物学相似性。对于一些大型数据集,CCA 的计算可能会比较耗时,尤其是在包含多个批次和复杂的异质性时。

Harmony 更擅长处理同类型样本(如多个批次或不同平台的同类细胞)的批次效应校正,尤其适合数据集间具有较高相似度的情况,但事实上这个也不是绝对的,目前认为harmony是在任何情况都可以优先尝试的工具。 它在计算效率上通常优于 CCA,因为 Harmony 是在降维后的空间进行调整,数据维度较小,迭代过程也更为快速。Harmony 能够保持更多的生物学变异,适合下游的聚类和差异分析,且易于实现和参数调节。

分析步骤

1、导入之前处理好的数据

rm(list=ls())
library(Seurat)
library(SeuratData)
library(patchwork)
library(BiocParallel)
register(MulticoreParam(workers = 4, progressbar = TRUE))
load('scRNA.Rdata') 

2、SeuratV5版本

scRNA[["RNA"]] <- split(scRNA[["RNA"]], f = scRNA$orig.ident)
scRNA
# An object of class Seurat 
# 24357 features across 4031 samples within 1 assay 
# Active assay: RNA (24357 features, 2000 variable features)
#  13 layers present: counts.sample1, counts.sample2, counts.sample3, counts.sample4, counts.sample5, counts.sample6, scale.data, data.sample1, data.sample2, data.sample3, data.sample4, data.sample5, data.sample6
#  4 dimensional reductions calculated: pca, harmony, umap, tsne

# run standard anlaysis workflow
scRNA <- NormalizeData(scRNA)
scRNA <- FindVariableFeatures(scRNA,selection.method = "vst",
                              nfeatures = 5000) # features可自定
scRNA <- ScaleData(scRNA)
scRNA <- RunPCA(scRNA)
scRNA <- FindNeighbors(scRNA, dims = 1:20, reduction = "pca")
scRNA <- FindClusters(scRNA, resolution = 2, 
                     cluster.name = "unintegrated_clusters")
scRNA <- RunUMAP(scRNA, dims = 1:30, reduction = "pca", reduction.name = "umap.unintegrated")
DimPlot(scRNA, reduction = "umap.unintegrated", group.by = c( "orig.ident"))

先不进行CCA整合,看一下UMAP的情况

scRNA <- IntegrateLayers(object = scRNA, method = CCAIntegration, 
                        orig.reduction = "pca", new.reduction = "integrated.cca",
                        verbose = FALSE)

# re-join layers after integration
scRNA[["RNA"]] <- JoinLayers(scRNA[["RNA"]])

scRNA <- FindNeighbors(scRNA, dims = 1:20, reduction = "integrated.cca")
scRNA <- FindClusters(scRNA, resolution = 2)
scRNA <- RunUMAP(scRNA, dims = 1:30, reduction = "integrated.cca")
DimPlot(scRNA, reduction = "umap", group.by = c("orig.ident"))

CCA整合后,看一下UMAP的情况

仔细看是会有细微的差别!当然我们在分析之前还是需要提前检查一下是否存在批次问题,然后再做决定是否需要进行整合。

3、SeuratV4版本

# 按照样本进行分割
seurat_list <- SplitObject(scRNA, split.by = "orig.ident")

# 独立对每个数据集的变量特征进行归一化和识别
seurat_list <- lapply(X = seurat_list, FUN = function(x) {
    x <- NormalizeData(x)
    x <- FindVariableFeatures(x, selection.method = "vst", 
                              nfeatures = 5000) # features可以自行设定
})

# 进行整合
features <- SelectIntegrationFeatures(object.list = seurat_list)
#找到整合的锚点anchors
seurat_anchors <- FindIntegrationAnchors(object.list = seurat_list, 
                                         anchor.features = features, 
                                         dims = 1:30)
# 利用anchors进行整合
seurat_int <- IntegrateData(anchorset = seurat_anchors, dims = 1:30)
# 降维
#DefaultAssay(seurat_int) <- "integrated"
features = row.names(seurat_int)
seurat_int <- ScaleData(seurat_int, 
                        features = features,
                        verbose = FALSE
                        #vars.to.regress = c("percent.mt")
                        )
seurat_int <- RunPCA(seurat_int, npcs = 30, verbose = FALSE)
seurat_int <- RunUMAP(seurat_int, reduction = "pca", dims = 1:30)

就不展示图片了~

参考资料:

1、Seurat: https://satijalab.org/seurat/articles/integration_introduction.html

2、单细胞天地: https://mp.weixin.qq.com/s/8IJ5NjPzasMDHYFyqwZ22w

3、生信技能树: https://mp.weixin.qq.com/s/i4_kzuAkNZYnB_DfwS-Ppg

4、生信星球: https://mp.weixin.qq.com/s/8ov2wWTecJ7MDyuIKcGkOQ

5、生信菜鸟团:

https://mp.weixin.qq.com/s/QF-nyERJQYSZazUezlsCow

https://mp.weixin.qq.com/s/ZSOnvQ49F6mGz5856gfO1Q

致谢:感谢曾老师以及生信技能树团队全体成员。

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2142018.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1、vectorCast单元测试常用操作

一、自动创建测试工程 1、设置工作目录 进入软件主页面,点击file,选择set working directory,随便选择一个保存该项目的目录即可。 2、创建一个空工程 编译器选择vector自带的编译器,vectorCast MinGW C。 此时项目工程就创建好了 2.1、配置编译器节点 点击编译器节点…

JAVA毕业设计173—基于Java+Springboot+vue3的酒店民宿管理系统(源代码+数据库)

毕设所有选题&#xff1a; https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue3的酒店民宿管理系统(源代码数据库)173 一、系统介绍 本项目前后端分离(可以改为ssm版本)&#xff0c;分为用户、员工、管理员三种角色 1、用户&#xff1a…

Nowcoder—链表的回文结构

题目描述 题目分析 1.回文结构是指一个序列或字符串从前往后读或从后往前读都是相同的。 2.时间复杂度为O(n)&#xff0c;说明循环只能有一层&#xff1b;空间复杂度为O(1)&#xff0c;说明不能额外的申请空间。 3.链表的结点最多不会超过900个。 思路 1 思路1&#xff1a;…

2024年数字中国创新赛-MISC

1 wireshark-1 可以看到在theanswerishere.php执行了sql注入&#xff0c;所以存在漏洞的PHP页面名称是theanswerishere.php 2 wireshark-2 从以上漏洞测试我们发现在一共有三列 3 wireshark-3 从这里我们可以看到注入的列名是th1sfI4g 4 wireshark-4 从这里回显包我们能看到…

鸿蒙next web组件和h5 交互实战来了

前言导读 鸿蒙next web组件这个专题之前一直想讲一下 苦于没有时间&#xff0c;周末把代码研究的差不多了&#xff0c;所以就趁着现在这个时间节点分享给大家。也希望能对各位读者网友工作和学习有帮助&#xff0c;废话不多说我们正式开始。 效果图 默认页面 上面H5 下面ArkU…

深度学习--------------序列模型

目录 序列数据统计工具&#xff08;方案一&#xff09;马尔可夫假设&#xff08;方案二&#xff09;潜变量模型总结 序列模型基于马尔可夫假设方式该部分总代码 单步预测多步预测k步预测该部分总代码 序列数据 实际中数据是有时序结构的。 统计工具 在时间t观察带 x t x_t xt…

二叉搜索树(Java实现)

博主主页: 码农派大星. 数据结构专栏:Java数据结构 数据库专栏:MySQL数据库 JavaEE专栏:JavaEE 关注博主带你了解更多数据结构知识 1.概念 二叉搜索树又称二叉排序树,或者它是一棵空树,或者是具有以下性质的二叉树: 若它的左子树不为空&#xff0c;则左子树上所有节点的值都…

【kafka-01】kafka安装和基本核心概念

Kafka系列整体栏目 内容链接地址【一】afka安装和基本核心概念https://zhenghuisheng.blog.csdn.net/article/details/142213307【二】kafka集群搭建https://zhenghuisheng.blog.csdn.net/article/details/142253288 kafka安装和基本核心概念 一&#xff0c;kafka安装和基本核心…

MoneyPrinterTurbo 安装使用流程

项目地址&#xff1a; https://github.com/harry0703/MoneyPrinterTurbo 开发环境&#xff1a;mac 1 git 下载 # 下载代码到本地 git clone https://github.com/harry0703/MoneyPrinterTurbo.git cd MoneyPrinterTurbo2 docker 配源 在 docker 安装目录执行以下命令显示隐藏…

Spring模块详解Ⅳ(Spring ORM和Spring Transaction)

目录 Spring ORM&#xff08;Object-Relational Mapping&#xff09;作用核心组件使用步骤事务管理代码演示优点挑战总结 Spring Transaction&#xff08;Spring事务管理&#xff09;事务的基本概念Spring事务管理的类型声明式事务管理事务的传播行为&#xff08;Propagation&a…

【LabVIEW学习篇 - 25】:JKI状态机

文章目录 JKI状态机JKI状态机安装JKI状态机的基本了解状态机的运行原理示例 JKI状态机 JKI状态机的核心就是队列消息状态机用户事件处理器模式&#xff0c;JKI状态机采用指定格式的字符串来描述状态。 JKI状态机并没有采用队列而是采用指定的字符串进行存储&#xff0c;它封装…

【论文阅读】PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation

Abstract transformers凭借其对大型数据集的扩展能力&#xff0c;彻底改变了视觉和自然语言处理。但在机器人操作中&#xff0c;数据既有限又昂贵。通过正确的问题表述&#xff0c;操纵仍然可以从变形金刚中受益吗&#xff1f;我们使用peract来研究这个问题&#xff0c;peract…

图解Redis 02 | String数据类型的原理及应用场景

介绍 在 Redis 中&#xff0c;String 是一种重要的数据类型&#xff0c;是最基本的 key-value 结构&#xff0c;在这个结构中&#xff0c; value 是一个字符串。value 所能容纳的数据最大长度为512M。 需要注意的是&#xff0c;这里的字符串不只指文本数据&#xff0c;它还可…

Https AK--(ssl 安全感满满)

免责声明&#xff1a;本文仅做分享&#xff01; 目录 https探测 openssl Openssl连接服务器获取基本信息 连接命令&#xff1a; 指定算法连接: 测试弱协议连接是否可以连接: 得到的内容包括&#xff1a; sslscan 在线查询证书 https AK type 中间人AK sslsplit 工具…

【C++题解】1997. 孤独的素数

欢迎关注本专栏《C从零基础到信奥赛入门级&#xff08;CSP-J&#xff09;》 问题&#xff1a;1997. 孤独的素数 类型&#xff1a;二维数组 题目描述&#xff1a; 在一个 n 行 m 列的矩阵王国中&#xff0c;生活着一些整数&#xff0c;其中一些是素数&#xff0c;一些不是素数…

数据中心一体化智能运维方案

数据中心基础运维概述 在当今这个信息化的时代&#xff0c;数据中心作为支撑企业信息化建设的核心枢纽&#xff0c;其运维工作的重要性不言而喻。某数据中心深知运维工作的关键性&#xff0c;因此&#xff0c;从基础环境到网络、服务器存储以及基础软件&#xff0c;每一环节都力…

openeuler 22.03 lts sp4 使用 kubeadm 部署 k8s-v1.28.2 高可用集群

文章目录 [toc]废话篇这篇文章什么时候写的为什么是 openeuler为什么是 22.03 lts sp4高可用架构题外话 干活篇环境介绍系统初始化相关关闭防火墙关闭 selinux关闭 swap开启内核模块开启模块自动加载服务 sysctl 内核参数调整清空 iptables 规则安装各种依赖和工具修改 .bashrc…

R语言的基础知识R语言函数总结

R语言与数据挖掘&#xff1a;公式&#xff1b;数据&#xff1b;方法 R语言特征 对大小写敏感通常&#xff0c;数字&#xff0c;字母&#xff0c;. 和 _都是允许的(在一些国家还包括重音字母)。不过&#xff0c;一个命名必须以 . 或者字母开头&#xff0c;并且如果以 . 开头&…

Python数据分析案例60——扩展变量后的神经网络风速预测(tsfresh)

案例背景 时间序列的预测一直是经久不衰的实际应用和学术研究的对象&#xff0c;但是绝大多数的时间序列可能就没有太多的其他的变量&#xff0c;例如一个股票的股价&#xff0c;还有一个企业的用电量&#xff0c;人的血糖浓度等等&#xff0c;空气的质量&#xff0c;温度这些…

【工具推荐】Agently:一款灵活易用的 AI 应用开发框架

本文内容均来自个人笔记并重新梳理&#xff0c;如有错误欢迎指正&#xff01; 如果对您有帮助&#xff0c;烦请点赞、关注、转发、订阅专栏&#xff01; 专栏订阅入口 | 精选文章 | Kubernetes | Docker | Linux | 羊毛资源 | 工具推荐 | 往期精彩文章 【Docker】&#xff08;全…