Seurat -- ScaleData学习

news2025/1/13 10:50:10

brief

seurat提供了一个教学,其中global scale normalization之后又对数据进行了scale。
默认是对上一步 selected highly variable features进行scale。

  • 概要图以及系列博文可以参见链接。

在这里插入图片描述

如果是 SCTransform则不需要手动运行这一步。

  • 下面是就是教程提供的流程:
library(dplyr)
library(Seurat)
library(patchwork)
library(sctransform)
library(ggplot2)

rm(list=ls())
# 使用read10X读取output of the cellranger pipeline from 10X,包括barcodes,genes,matrix.mtx三个文件
pbmc.data <- Read10X(data.dir = "D:/djs/pbmc3k_filtered_gene_bc_matrices/filtered_gene_bc_matrices/hg19")
# 使用 CreateSeuratObject函数构造seurat对象
pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k",
                           min.cells = 3, min.features = 200,
                           names.delim = "-",names.field = 1)

# 计算 a percentage of cell reads originating from the mitochondrial genes
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
# 计算 complexity of the RNA species
pbmc@meta.data$log10GenesPerUMI <- log10(pbmc$nFeature_RNA) / log10(pbmc$nCount_RNA)

pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.mt < 5)

pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.mt < 5)
pbmc <- NormalizeData(pbmc, normalization.method = "LogNormalize", scale.factor = 10000)
pbmc <- FindVariableFeatures(pbmc,assay = "RNA" ,selection.method = "vst", nfeatures = 2000)

all.genes <- rownames(pbmc)
pbmc <- ScaleData(pbmc, features = all.genes,assay = "RNA")

pbmc <- RunPCA(pbmc)
  • 这里是该函数具体的参数以及意义:
    在这里插入图片描述
    • features
      Vector of features names to scale/center. Default is variable features.

    • vars.to.regress
      Variables to regress out (previously latent.vars in RegressOut). For example, nUMI, or percent.mito.

    • split.by
      Name of variable in object metadata or a vector or factor defining grouping of cells. See argument f in split for more details

    • model.use
      Use a linear model or generalized linear model (poisson, negative binomial) for the regression. Options are ‘linear’ (default), ‘poisson’, and ‘negbinom’

    • use.umi
      Regress on UMI count data. Default is FALSE for linear modeling, but automatically set to TRUE if model.use is ‘negbinom’ or ‘poisson’

    • do.scale
      Whether to scale the data.

    • do.center
      Whether to center the data.

    • scale.max
      Max value to return for scaled data. The default is 10. Setting this can help reduce the effects of features that are only expressed in a very small number of cells. If regressing out latent variables and using a non-linear model, the default is 50.

    • block.size
      Default size for number of features to scale at in a single computation. Increasing block.size may speed up calculations but at an additional memory cost.

    • min.cells.to.block
      If object contains fewer than this number of cells, don’t block for scaling calculations.

    • verbose
      Displays a progress bar for scaling procedure

    • assay
      Name of Assay to scale

这个函数和 基础函数scale()的结果一样吗?

没区别
可能是调用代码不一样~~

t(pbmc@assays$RNA@scale.data[1:3,1:6])

scale(t(as.array(pbmc@assays$RNA@data)),center = T,scale = T)[1:6,1:3]

在这里插入图片描述
在这里插入图片描述

为什么要scale?

一个gene 的表达量在不同细胞中的分布可以认为是正态分布,当你将这个gene的表达量中心化以及标准化成为标准正态分布后(z-score),不同gene的表达量分布就在同一个尺度上了,方便比较。

高表达的gene在下游的分析中和低表达gene在下游分析中权重也就一致了,不然高表达的gene在下游的分析中比如PCA就会占据主导地位,而细胞间的变异需要同时考虑gene的表达量以及gene的特异性表达,特异性表达的基因表达量通常不高。

ScaleData()后的数据存放和后续应用

  • scale标准化的数据储存在"RNA" assay的 seurat_obj[[‘RNA’]]@scale.data中

  • 我们也注意到seurat_obj[[‘RNA’]]@data全是非负数,而且是针对基因矩阵的所有基因;而seurat_obj[[‘RNA’]]@scale.data则有正负数,默认情况,只针对高可变基因进行scale标准化;

  • 那么,我们在seurat下游分析中,什么情况使用data,什么时候使用scale.data:

    • 下游分析中的PCA线性降维聚类,umap、tsne聚类均是应用高可变基因的scale.data进行后续分析的;

    • 在基因可视化分析中,FeaturePlot、FeatureScatter、VlnPlot、DotPlot等函数默认slot =“data”,只有DoHeatmap()默认使用slot = “scale.data”,多个基因跨细胞比较;

    • FindAllMarkers()找差异基因是默认slot =“data”,它是针对所有基因找差异基因,而不是高可变基因集

多个数据集整合应该怎样调用ScaleData()

  • 这里的多个数据集只包括scRNA-seq数据集。

  • 如果仅仅是数据集之间的merge(需要做简单的QC验证没有批次效应),那应该使用 RNA assays下面的data进行 scale。当然你也可以在运行ScaleData时加入split.by区分数据集以分别进行scale(没验证过会出现什么问题)。

  • 如果数据集之间进行了integrated运算,那应该使用integrated assays下面的data进行 scale

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/468216.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么软件iic需要用开漏输出和上拉电阻

1、疑惑&#xff1a; 不知道大家有没有这种疑惑&#xff0c;在软件iic的配置过程当中&#xff0c;有些时候要输出高低电平&#xff0c;为什么使用开漏输出而不是推挽输出&#xff1f; 2.推挽输出和开漏输出的区别 推挽输出: 输出逻辑0&#xff0c;则N-MOS激活&#xff1b;输…

<C++>类和对象-上

目录 前言 一、类的引入 二、类的定义 1.类的两种定义方式 三、类的访问限定符及封装 1.访问限定符 2.封装 四、类的作用域 五、类的实例化 六、类对象模型 1.计算类对象的大小 2 类对象的存储方式猜测 3. 结构体内存对齐规则 七、this指针 1. 引入 2 this指针的特性 总结 前言…

ChatGPT帮你调用PID算法【结合代码】

目录 PID算法是一种控制算法 下面分别介绍PID算法中的三个参数 MATLAB代码实现PID MATLAB代码实现PID PID算法是一种控制算法 用于控制系统的稳定性和精度。PID算法的名称来源于其三个组成部分&#xff1a;比例&#xff08;P&#xff09;、积分&#xff08;I&#xff09;和微…

CVE漏洞复现-CVE-2021-22205 GitLab未授权 RCE

CVE-2021-22205 GitLab未授权 RCE 漏洞背景和描述 2021年4月15日&#xff0c;GitLab官方发布安全补丁更新修复了GitLab命令执行漏洞&#xff08;CVE-2021-22205&#xff09;。由于GitLab中的ExifTool没有对传入的图像文件的扩展名进行正确处理&#xff0c;攻击者通过上传特制…

不得不说的结构型模式-外观模式

目录 ​编辑 1. 什么是外观模式 1.1外观模式的结构&#xff1a; 2实际案例&#xff1a; 3下面是面试中关于装饰器模式的常见的问题&#xff1a; 3.1下面是问题的答案&#xff1a; 1. 什么是外观模式 Facade模式也叫外观模式, Facade模式为一组具有类似功能的类群&#xff…

3ASC25H214 DATX130以力控制为基础的装配应用方面已经形成了一个解决方案

​ 3ASC25H214 DATX130以力控制为基础的装配应用方面已经形成了一个解决方案 ABB的机器人解决方案最终选择了IRB6400机器人 ABB的解决方案 ABB一直都在不断地研究和开发机器人应用的新技术&#xff0c;有一部分研究活动是与大学进行合作的&#xff0c;其中一项是ABB的科学家和…

数据建模方法论及实施步骤

了解数据建模之前首先要知道的是什么是数据模型。数据模型&#xff08;Data Model&#xff09;是数据特征的抽象&#xff0c;它从抽象层次上描述了系统的静态特征、动态行为和约束条件&#xff0c;为数据库系统的信息表示与操作提供一个抽象的框架。 一、概要&#xff1a;数据…

关于数据包丢失你需要知道的一切(以及如何避免它)

当数据从一个地方传输到另一个地方时,一些数据包可能会被延迟、损坏甚至丢失。这就是所谓的数据包丢失。这很常见,但这并不意味着你必须接受它! 数据包丢失、延迟、抖动——如果你注意到互联网性能不佳,你可能会遇到其中一种或多种情况。 延迟与速度有关,但什么是数据包…

AP9193 升压恒流驱动芯片 24V 36V1A三线三色 LED大功率方案

AP9193 是一款高效率、高精度的升 压型大功率 LED 灯恒流驱动控制芯片。 应用领域 LED 灯杯 电池供电的 LED 灯串 平板显示 LED 背光 恒流充电器控制 大功率 LED 照明 AP9193 内置高精度误差放大器&#xff0c;固 定关断时间控制电路&#xff0c;恒流驱动电路等&#xff0c; …

【云原生Kubernetes】01-Kubernetes简介

【云原生Kubernetes】01-Kubernetes简介 文章目录 【云原生Kubernetes】01-Kubernetes简介前言kubernets概述为什么要使用Kubernetes?Kubernetes能做什么&#xff1f;Kubenets架构架构图架构组件说明Master节点Node节点Etcd节点 组件间的工作流程 Kubernetes的核心技术Pod副本…

Spring boot 集成Skywalking

一、Skywalking官网 Apache SkyWalking 备注&#xff1a;本文使用的V9.0.0版本 二、SkyWalking服务端安装 1.下载SkyWalking APM 2.解压直接启动bin下的startup.bat 3. 日志查看 见logs/skywalking-oap-server.log 4.监控平台默认地址访问 http://127.0.0.1:8080 如需修…

九款顶级AI工具推荐

ChatGPT OpenAI开发的最强对话系统 地址&#xff1a;chat.openai.com ChatGPT能够在同一个会话期间内回答上下文相关的后续问题。其在短时间内引爆全球的原因在于&#xff0c;在网友们晒出的截图中&#xff0c;ChatGPT不仅能流畅地与用户对话&#xff0c;甚至能写诗、撰文、编…

任务调度框架Azkaban Flow1.0和Azkaban Flow2.0

目录&#xff1a; 一、Azkaban Flow1.0简介二、Azkaban Flow1.0基本任务调度三、Azkaban Flow1.0多任务调度四、Azkaban Flow1.0调度HDFS作业五、Azkaban Flow1.0调度MR作业六、Azkaban Flow1.0调度Hive作业七、Azkaban Flow1.0在线修改作业配置八、Azkaban Flow 2.0 简介九、A…

论文笔记:路网匹配算法综述

17年的老论文了&#xff0c;作为入门是可以的 1 Intro GPS信号和实际的轨迹是有一段距离的 如果对GPS数据不做处理直接定位&#xff0c;那么位置会被定位到非道路的建筑、湖泊、公园中&#xff0c;这显然是不合理的——>需要对GPS数据进行处理&#xff0c;使得其能较为准确…

nodejs搭建web框架开发web服务

首先安装nodejs,然后安装express MVC框架 1. npm install -g express 由于我写的是一个proxy代理服务所以我也安装了 http-proxy-middleware 【npm install -g http-proxy-middleware】 2.如果执行express&#xff0c;未能识别指令主要原因是因为环境变量中没有express.ex…

你真的使用过低代码产品吗?

低代码已经迅速成为现代软件开发的一个重要组成部分。其核心思想是加快和民主化应用程序开发过程。从开发人员的角度来看&#xff0c;这意味着他们可以用最少的编码来构建复杂的应用程序&#xff0c;使开发过程更快、更简单、更高效。对于企业用户来说&#xff0c;它使他们能够…

ChatGPT搭建AI网站实战

1.概述 ChatGPT是一款基于GPT-3.5架构的大型语言模型&#xff0c;它能够进行自然语言处理和生成对话等任务。作为一款智能化的聊天机器人&#xff0c;ChatGPT有着广泛的应用场景&#xff0c;如在线客服、智能助手、个性化推荐等。今天笔者给大家分享一下如何使用ChatGPT的API模…

创业一定要要组建团队吗?可以一个人独自创业吗,不能一概而论

创业团队&#xff0c;我们需要了解一个概念&#xff0c;那就是“群体”。 在生活中&#xff0c;我们经常会说这样一句话&#xff0c;人以群分&#xff0c;物以类聚。 每个人都不可能离开他人而独立存在&#xff0c;俗话说&#xff0c;“一个篱笆三个桩&#xff0c;一个好汉三个…

SAP批次分类完整检查的使用 (TCODE : BMCC)<转载>

原文链接&#xff1a;https://mp.weixin.qq.com/s/xzG6UqLmTcoLdEBeOnzfwA 最近批次物料收货遇到报错如下 分类数据中的不一致性>交易中止&#xff0c;消息号12126. 从报错字面意思看应该是批次分类属性出现了问题&#xff0c;具体是哪里不一致呢&#xff1f; 可以通过报…

20230427-tortoisegit报错-unsafe-repository

20230427-tortoisegit报错-unsafe-repository 一、软件环境 windows 11 x64 22H2git 2.35.3tortoisegit 2.14.0.0标签&#xff1a;git tortoisegit分栏&#xff1a;GIT 二、报错现象 右键打开tortoisegit&#xff0c;点击commit报错【fatal: unsafe … is owned by someone…