1.基于python的单细胞数据预处理-降维可视化

news2024/10/6 2:25:18

目录

  • 降维的背景
  • PCA
  • t-sne
  • UMAP
  • 检查质量控制中的指标

参考:
[1] https://github.com/Starlitnightly/single_cell_tutorial
[2] https://github.com/theislab/single-cell-best-practices

降维的背景

虽然特征选择已经减少了维数,但为了可视化,我们需要更直观的降维方法。降维将高维数据嵌入到低维空间中。低维表示仍然捕获数据的基本结构,同时尽可能少地持有维度。比如下图,我们将三维对象可视化为投影到二维空间中。

fig1

过去的研究独立比较了10种不同的降维方法的稳定性,准确性和计算成本。他们建议使用t-分布随机邻居嵌入(t-SNE),因为它产生了最佳的性能。统一流形逼近和投影(UMAP)显示出最高的稳定性,并且最好地分离了原始细胞群体。在这种情况下,值得一提的另一种降维方法是主成分分析(PCA),它仍然被广泛使用。

首先我们加载来自特征选择处理的数据:

import omicverse as ov
import scanpy as sc

ov.ov_plot_set()

adata = sc.read("./data/s4d8_preprocess.h5ad")
print(adata)
print(adata.X.max()) # 10.989398

在标准流程中,按照特征选择出的特征切片得到新矩阵后,我们还需要对新矩阵的计数进行scale(为了利于降维)。在omicverse中,我们将scale后的值存放进adata.layer,而不是像scanpy一样默认取代adata.X。但是注意,没有任何的证据表明,数据经过scale后会取得更好的差异基因分析结果,若盲目地使用scale后的计数值,还可能会导致使用dotplot或者violinplot中忽略了基因自身的特征信息,差异基因分析最好是使用缩放前的X

比如我们关注的一个基因A的表达值在17-20区间,而基因B的表达值在0-3的区间,经过scale后,由于平均值被缩放成了0,基因A和基因B都在-2-2的区间范围内,这一定程度上失去了基因A表达量高的信息。故scale对差异基因分析似乎是不利的。

scale如下:

# 缩放
ov.pp.scale(adata,max_value=10)
print(adata)

"""
AnnData object with n_obs × n_vars = 14814 × 2000
    obs: 'n_genes_by_counts', 'log1p_n_genes_by_counts', 'total_counts', 'log1p_total_counts', 'pct_counts_in_top_20_genes', 'total_counts_mt', 'log1p_total_counts_mt', 'pct_counts_mt', 'total_counts_ribo', 'log1p_total_counts_ribo', 'pct_counts_ribo', 'total_counts_hb', 'log1p_total_counts_hb', 'pct_counts_hb', 'outlier', 'mt_outlier', 'scDblFinder_score', 'scDblFinder_class'
    var: 'gene_ids', 'feature_types', 'genome', 'mt', 'ribo', 'hb', 'n_cells_by_counts', 'mean_counts', 'log1p_mean_counts', 'pct_dropout_by_counts', 'total_counts', 'log1p_total_counts', 'n_cells', 'percent_cells', 'robust', 'mean', 'var', 'residual_variances', 'highly_variable_rank', 'highly_variable_features'
    uns: 'hvg', 'layers_counts', 'log1p'
    layers: 'counts', 'soupX_counts', 'scaled'
"""

可以发现adata的layers层多出了一个scaled,这就是我们经过scale后的数据。

PCA

基于scaled的数据进行PCA:

ov.pp.pca(adata,layer='scaled',n_pcs=50)
print(adata)

可以发现,adata.obsm层里多出了一个scaled|original|X_pca,这代表了我们使用的是layers中的scaled层数据进行的pca计算,当然我们也可以使用counts进行pca计算,效果如下:

ov.pp.pca(adata,layer='counts',n_pcs=50)
print(adata)

使用embedding函数,来对比基于两种不同的layers计算所得出的pca的差异:

import matplotlib.pyplot as plt
fig,axes=plt.subplots(1,2,figsize=(8,4))
ov.utils.embedding(adata,
                basis='scaled|original|X_pca',frameon='small',
                color='MS4A1',show=False,ax=axes[0])
ov.utils.embedding(adata,
                basis='counts|original|X_pca',frameon='small',
                color='MS4A1',show=False,ax=axes[1])
plt.savefig('./result/2-6_pca.png')

fig2

我们会发现基于scaled的pca结果,第一主成分和第二主成分有着相似的数量级,而基于counts的pca结果,第一主成分和第二主成分的数量级则有所差异,这对于后续的2维投影(比如t-sne和umap)可能会有显著的影响。

t-sne

t-SNE 是一种基于图的、非线性的降维技术,它将高维数据投影到 2D 或 3D 分量上。该方法基于数据点之间的高维欧几里得距离定义了一个高斯概率分布。随后,使用 t 分布在低维空间中重建概率分布,其中嵌入通过梯度下降进行优化。

分别对scaled的pca和counts的pca进行tsne:

sc.tl.tsne(adata, use_rep="scaled|original|X_pca")
# tsne函数默认是存放在adata.obsm['X_tsne']中的,我们将其存放在adata.obsm['X_tsne_scaled']中来区分counts的结果
adata.obsm['X_tsne_scaled']=adata.obsm['X_tsne']
sc.tl.tsne(adata, use_rep="counts|original|X_pca")
adata.obsm['X_tsne_counts']=adata.obsm['X_tsne']

# 可视化
import matplotlib.pyplot as plt
fig,axes=plt.subplots(1,2,figsize=(8,4))
ov.utils.embedding(adata,
                basis='X_tsne_scaled',frameon='small',
                color='MS4A1',show=False,ax=axes[0])
ov.utils.embedding(adata,
                basis='X_tsne_counts',frameon='small',
                color='MS4A1',show=False,ax=axes[1])
plt.savefig('./result/2-6_tsne.png')

fig3

UMAP

UMAP 是一种基于图的、非线性的降维技术,原理上与 t-SNE 类似。它构建了数据集的高维图表示,并优化低维图表示,使其在结构上尽可能地与原始图相似。

我们首先基于PCA的结果,在单细胞数据上构建一个邻域图再运行umap:

sc.pp.neighbors(adata, n_neighbors=15, n_pcs=50,
               use_rep='scaled|original|X_pca')
sc.tl.umap(adata)
# umap函数默认是存放在adata.obsm['X_umap']中的,我们将其存放在adata.obsm['X_umap_scaled']中来区分counts的结果
adata.obsm['X_umap_scaled']=adata.obsm['X_umap']

sc.pp.neighbors(adata, n_neighbors=15, n_pcs=50,
               use_rep='counts|original|X_pca')
sc.tl.umap(adata)
adata.obsm['X_umap_counts']=adata.obsm['X_umap']

# 可视化
import matplotlib.pyplot as plt
fig,axes=plt.subplots(1,2,figsize=(8,4))
ov.utils.embedding(adata,
                basis='X_umap_scaled',frameon='small',
                color='MS4A1',show=False,ax=axes[0])
ov.utils.embedding(adata,
                basis='X_umap_counts',frameon='small',
                color='MS4A1',show=False,ax=axes[1])
plt.savefig('./result/2-6_umap.png')

fig4

检查质量控制中的指标

现在我们可以在scaled数据的UMAP中检查之前的质量控制指标,一般检查三个指标:total_counts,n_genes_by_counts,pct_counts_mt。

如果前面使用的是omicverse.pp.qc,那么我们将直接得到nUMIs,detected_genes,mito_perc三个变量,如果使用的是scanpy进行的质控,那么得到的将是total_counts,n_genes_by_counts 和 pct_counts_mt 三个变量。

我们使用numpy中的log2对数化,将数据可视化区间缩小,同时,我们定义最大最小值来衡量我们的数据质量,我们希望total_counts大于250,250的对数值是7.96,所以我们最小值设定为8,最大值则定义为30,000,即15,而线粒体的比例则在0-100的范围内。

import numpy as np
adata.obs['log2_nUMIs']=np.log2(adata.obs['total_counts'])
adata.obs['log2_nGenes']=np.log2(adata.obs['n_genes_by_counts'])
ov.utils.embedding(adata,
                basis='X_umap_scaled',
                color=['log2_nUMIs','log2_nGenes','pct_counts_mt'],
                title=['log2#(nUMIs)','log2#(nGenes)','Mito_Perc'],
                vmin=[0,0,0],
                vmax=[15,15,100],show=False,frameon='small',)
plt.savefig('./result/2-6_qc.png')

理想情况如下图,total_counts(全部高亮),n_genes_by_counts(全部高亮),pct_counts_mt(全部不高亮)。
fig5

然后保存数据用于后续分析:

adata.write_h5ad('./data/s4d8_dimensionality_reduction.h5ad', compression='gzip')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1663921.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

InputStream,OutputStream的用法以及相应的案例

1. 文件系统的操作:File类。 2. 文件内容的操作:Stream流。 字符流:IntputStream , OutputStream。 字节流:read , write。 InputStream,OutputStream InputStream和OutputStream都不能被实例…

Web数字孪生引擎

Web数字孪生引擎是指用于在Web上创建和运行数字孪生的软件平台。它们通常提供一组API和工具,用于连接到实时数据源、可视化数据并创建交互式体验。Web数字孪生引擎被广泛应用于各种应用,例如工业物联网、智能建筑、城市管理和公共安全等。北京木奇移动技…

Linux 安裝 rpm包

下载 地址:https://developer.aliyun.com/packageSearch 安装 rpm -ivh lsof-4.87-6.el7.x86_64.rpmlsof -Ki|awk {print $2}|sort|uniq -c|sort -nr|head lsof | wc -l

上位机图像处理和嵌入式模块部署(树莓派4b和电源供给)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面,我们说过pc电脑和嵌入式设备,两者都可以实现相同的软件功能。但是和pc相比较,嵌入式设备不仅价格更便宜&a…

RabbitMQ (windows) 安装

大家好我是苏麟 , 今天安装一下 RabbitMQ . 官网 : RabbitMQ: One broker to queue them all | RabbitMQ 1.点击 Getting Started 2. 点击 Docs 3.点击 Install And Upgrade 4.点击 installation via Chocolatory 5. 直接下载安装包 RabbitMQ 下好了先放在一遍 RabbitMQ 需要 E…

前端框架-echarts

Echarts 项目中要使用到echarts框架&#xff0c;从零开始在csdn上记笔记。 这是一个基础的代码&#xff0c;小白入门看一下 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" co…

新手做抖音小店必须了解的回款周期问题!这样做,一步快速结算

哈喽~我是电商月月 我们做抖音小店&#xff0c;在商品上架出单后&#xff0c;商家需要到商品的上家拍单&#xff0c;由上家发货给顾客&#xff0c;顾客收到货后&#xff0c;周期一到才能赚取到商品的差价&#xff0c;这个时间大概在7~15天之内&#xff0c;想准时发货不超时违规…

八款免费好用的3D建模AI工具,让你的设计更简单!

随着人工智能和大语言模型的不断发展&#xff0c;AI工具正逐渐渗透到3D建模领域中。传统上&#xff0c;3D建模师需使用如3ds Max、Maya等这类复杂的3D建模软件&#xff0c;投入大量的时间与精力来创作精细的模型。然而&#xff0c;有了AI工具的辅助&#xff0c;设计过程不仅对专…

激光测径仪在胶管生产中扮演着什么角色?

关键词&#xff1a;激光测径仪,胶管,胶管测径仪,在线测径仪 胶管生产的基本工序为混炼胶加工、帘布及帆布加工、胶管成型、硫化等。不同结构及不同骨架的胶管&#xff0c;其骨架层的加工方法及胶管成型设备各异。 全胶胶管因不含骨架层&#xff0c;只需使用压出机压出胶管即可&…

AWS云优化:实现性能和成本的最佳平衡

随着企业数字化转型的加速&#xff0c;对云计算平台的需求也不断增长。AWS作为云计算行业的领导者之一&#xff0c;提供了广泛的云服务和解决方案&#xff0c;帮助企业实现业务的创新和发展。在AWS云上部署应用程序和服务后&#xff0c;对其进行优化是至关重要的&#xff0c;以…

【官方下载】Android 开发环境之 java 11 下载地址和下载操作步骤

作者介绍&#xff1a; 百度资深Android工程师T6&#xff0c;在百度任职7年半。 目前&#xff1a;成立赵小灰代码工作室&#xff0c;欢迎大家找我交流Android、微信小程序、鸿蒙项目。文章底部&#xff0c;csdn有为我插入微信的联络方式&#xff0c;欢迎大家联络我。 一&#x…

TikTok机房ip好还是住宅ip好?

住宅ip比较好&#xff0c;机房数据中心IP高效、低价&#xff0c;所以使用的人多且用处复杂&#xff0c;这类ip极大可能存在滥用的黑历史&#xff0c;通过此类ip访问tiktok&#xff0c;被禁止的可能性更高&#xff0c;更容易被拉入黑名单。所以我们推荐tiktok独享原生ip搭建节点…

计算机组成结构—指令和指令格式

目录 一、指令的基本格式 二、指令字长 1. 定长指令字结构 2.变长指令字结构 三、地址码 1.四地址指令 2.三地址指令 3.二地址指令 4.一地址指令 5. 零地址指令 四、操作码 1. 定长操作码指令格式 2. 扩展操作码指令格式 五、指令的操作数类型和操作类型 1. 操作…

openai 开源模型Whisper语音转文本模型下载使用

Whisper Whisper 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。官方地址 https://github.com/openai/whisper 方法 一个Transformer序列到序列模型被训练在多种语音处理任务上,包括多语…

mac 讨厌百度网盘怎么办

一、别拦我 首先请允许我泄个愤&#xff0c;tmd百度网盘下个1g的文件下载速度竟然超不过200k&#xff0c;只要不放在所有已打开软件的最前面&#xff0c;它就给你降到10k以内&#xff0c;关键是你慢就慢了&#xff0c;我也不是很着急&#xff0c;关键是你日常下载失败并且总是…

2024年滴滴前端一二三面(汽车资产管理)

面试前&#xff0c;先找面经哥&#xff0c;点击此处查看更多面经 一面 1、聊项目 2、实现 TypeScript 的 Await 3、手写 compose 4、用 Vue 或者 React 实现一个组件&#xff0c;组件通过 checkbox 控制列表传入数据每一列的全选反选 二面 1、项目问题以及实现细节 2、小程序…

跟TED演讲学英文:Why US politics is broken — and how to fix it by Andrew Yang

Why US politics is broken — and how to fix it Link: https://www.ted.com/talks/andrew_yang_why_us_politics_is_broken_and_how_to_fix_it? Speaker: Andrew Yang Date: April 2024 文章目录 Why US politics is broken — and how to fix itIntroductionVocabularyTr…

找不到msvcp120dll,无法继续执行代码的多种解决方法分享

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“msvcp120.dll丢失”。这个错误通常会导致某些应用程序无法正常运行。为了解决这个问题&#xff0c;我们需要采取一些措施来修复丢失的msvcp120.dll文件。本文将介绍6种常见的解决方法&…

干部管理系统亮点深度解析

在信息化浪潮的推动下&#xff0c;干部管理系统已成为组织高效运作的得力助手。该系统凭借一系列创新亮点&#xff0c;为干部的选拔、培养、评估和使用提供了强有力的支撑。 一、智能化与数据化&#xff1a;精准决策的基石 干部管理系统凭借大数据和人工智能技术的融合&#…

Debian12 Linux lsof 查询端口 并杀进程 sh文件编写过程记录

目录 一、需求描述 二、需求处理思路 1、根据关键字查询进程号 2、根据端口查询进程号 3、根据进程号杀进程 三、编写shell 脚本 总结 一、需求描述 在linux环境上&#xff0c;已知某个进程的运行关键字以及运行端口&#xff0c;要求根据已知信息查杀对应进程。要求编写…