轨迹分析:Palantir评估细胞分化潜能 类似于monocle2

news2024/11/27 20:51:34

轨迹分析是单细胞测序分析中重要的组成部分,它基于细胞谱系之间“具有中间态细胞”的理论基础,通过结合先验知识(细胞注释、markers)、细胞基因表达改变等,为在单细胞测序数据赋予了“假时间”(pseudotime)这一重要概念。基于pseudotime提供的时间维度,研究者得以进一步揭示细胞表型(phenotype)改变的连续过程,推断其中的基因调控机制。此前我们曾经写过几篇关于轨迹分析的推文,微信公众号:生信小博士

在pseudotime的概念之上,进一步通过算法衍生了“细胞分化潜能”或者“细胞干性”(Cell fate probabilities)等符合生物学常识的概念。例如,2020年发表在Science的CytoTRACE是一个简单但强有力的算法,它是基于每个细胞表达的基因数量,并利用这一转录多样性的度量来开发的计算框架。但是CytoTRACE也有一定的局限性,首先它是基于无监督的算法,非人为指定起点或终点,这就会导致算法出现错误的可能性,比如时序倒置,或一些显著背离生物学发展轨迹的方向。

说个题外话。有同学可能会提到,无监督的算法是否更能反映真实的改变情况,如果人为指定会不会出现过度干预或操纵的可能性。诚然,每一种算法或实验都有其局限性,但是目前关于有监督或无监督算法在单细胞各个研究领域中的应用都存在争议。就以最常见的降维分群注释为例,我们会看到越来越多基于有监督或半监督的聚类算法大放异彩,比如scANVI,以及各种单细胞图谱,他们的目的都是为了提供预先注释的信息以获得更加准确的注释。当然我个人并不懂算法开发,但先验知识与算法的有机结合呈现的优势无疑是巨大的,它能够避免一些无谓的、甚至离谱的错误出现。

Image

今天我们分享另一个基于Python的工具Palantir。该方法于近年发表在Nature Biotechnology上。与CytoTRACE不同,Palantir基于随机漫步的算法,将细胞命运视为概率事件来模拟不同分化轨迹,并利用熵来衡量轨迹上细胞的可塑性,从而生成高分辨率的假时间排序,并为每个细胞状态分配了分化到不同终端状态的概率(Cell fate probabilities)。

Image

环境配置

创建一个新的虚拟环境

conda create -n palantir python=3.8 -y
conda activate palantir

安装所依赖的python包,这里需要注意,palantir的最新版(1.3.1)可能会出现环境或配置错误,建议安装1.0.1版本。

pip install PhenoGraph
pip install rpy2
pip install palantir==1.0.1

配置kernel。

pip install ipykernel
# 配置jupyterlab内核
python -m ipykernel install --user --name=palantir --display-name palantir

加载Python包和全局设置

import palantir
import scanpy as sc
import numpy as np
import pandas as pd
import os

# Plotting 
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Inline plotting
%matplotlib inline

sns.set_style('ticks')
matplotlib.rcParams['figure.figsize'] = [4, 4]
matplotlib.rcParams['figure.dpi'] = 100
matplotlib.rcParams['image.cmap'] = 'Spectral_r'
warnings.filterwarnings(action="ignore", module="matplotlib", message="findfont")

# Reset random seed
np.random.seed(5)

# 更换到相应的项目路径
os.chdir('path/to/project')

数据准备

官方提供的数据下载方式:

# Load sample data
data_dir = os.path.expanduser("./")
download_url = "https://dp-lab-data-public.s3.amazonaws.com/palantir/marrow_sample_scseq_counts.h5ad"
file_path = os.path.join(data_dir, "marrow_sample_scseq_counts.h5ad")
ad = sc.read(file_path, backup_url=download_url)
ad
# AnnData object with n_obs × n_vars = 4142 × 16106

如果你加载的是本地数据,或是整合的数据,需要明确的是:数据必须无批次信息或经过批次矫正。本次官方提供的数据只有一个样品,不存在批次效应。如果你用的是自己的数据,一定要系统评估批次效应。你也可以将上面的链接复制到浏览器窗口中下载。然后加载数据:

adata = sc.read_h5ad('marrow_sample_scseq_counts.h5ad')
adata
# AnnData object with n_obs × n_vars = 4142 × 16106

数据预处理:

# 计算线粒体基因比例
adata.var['mt'] = adata.var_names.str.startswith('MT-')
sc.pp.calculate_qc_metrics(adata, qc_vars=['mt'], percent_top=None, log1p=False, inplace=True)

# 简单过滤
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)

adata = adata[adata.obs.n_genes_by_counts < 4000, :]
adata = adata[adata.obs.pct_counts_mt < 5, :]

# 高变基因
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)
adata.raw = adata
adata = adata[:, adata.var.highly_variable]

# 归一化
sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt'])
sc.pp.scale(adata, max_value=10)

# PCA
# 如果你的是整合数据,应该使用 corrected PCA embedding
sc.tl.pca(adata, svd_solver='arpack')
sc.pl.pca(adata, color='CD34')

Image

根据Palantir官方的细胞注释信息,我们对细胞进行注释

sc.pp.neighbors(adata, n_neighbors=10, n_pcs=40)
sc.tl.umap(adata)
sc.pl.umap(adata, color=["CD34", "MPO", "GATA1", "IRF8"])

Image

细胞重命名

sc.tl.leiden(adata, resolution=0.5)
sc.pl.umap(adata, color='leiden') # 图就不展示了

# 这里我们使用字典进行重命名,以防止错乱,尤其是你的分类特别多的时候
# scanpy提供的解决方案是 adata.rename_categories()
celltype_dict = {
    '0':'HSC',
    '1':'Ery',
    '2':'Mono',
    '3':'Mono',
    '4':'Mono',
    '5':'DC',
    '6':'DC'
}
adata_rename = adata.copy()
adata_rename.obs['CellType'] = adata_rename.obs['leiden']

# 重命名
new_celltype = []
for subtype in adata_rename.obs['CellType']:
    new_subtype = celltype_dict.get(subtype, subtype)
    new_celltype.append(new_subtype)  
adata_rename.obs['CellType'] = pd.Categorical(new_celltype)

sc.pl.umap(adata_rename, color='CellType', frameon=False)

 

Diffusion Map和Force Directed Graph

可能很多做单细胞的小伙伴都没有接触过Diffusion Map(DM)和Force Directed Graph(FDG)这两个概念。这其中重要原因是Seurat和Scanpy提供在标准分析流程没有提及(实际上Scanpy有内置相应的函数)。这其实是非常重要的两个概念,很多高分文章的拟时序分析都应用了这两种降维方式。

Diffusion Map(扩散映射)和force directed graph(力导向图)是在单细胞研究中常用的数据可视化和降维方法。Diffusion Map是一种基于扩散过程的降维方法。它通过计算数据点之间的相似性和距离,构建一个扩散矩阵,然后对该矩阵进行特征值分解,得到数据的低维表示。Diffusion Map可以帮助发现数据中的潜在结构和关系,尤其适用于非线性数据。Force directed graph是一种可视化方法,用于展示数据点之间的关系和相互作用。在force directed graph中,数据点被表示为节点,而数据点之间的关系则通过边来表示。边的长度和弹簧力的大小根据数据点之间的相似性和距离进行调整,从而使得相似的数据点更加靠近,不相似的数据点则远离。通过调整边的长度和力的大小,可以得到一个具有良好可视化效果的图形。

在单细胞研究中,DM和FDG可以用于数据的可视化和降维。它们可以帮助研究人员理解和解释单细胞数据的结构和关系。通过应用DM,可以将高维的单细胞数据降低到较低的维度,从而更好地展示数据的特征和变化。而FDG可以将单细胞数据的相似性和关系以图形的形式展示出来,从而帮助研究人员发现细胞之间的相互作用和群落结构。

我们通过这个实例来看看他们有什么不同,以及为什么这两种降维方式适合做轨迹推断:

adata = adata_rename.copy()

# diffmap
sc.pp.neighbors(adata, n_neighbors=20, n_pcs=50, use_rep='X_pca', method='gauss')
sc.tl.diffmap(adata)

sc.pl.embedding(adata,'diffmap',color=['CellType','leiden'])

Image

在这里我们可以清晰地看到,以HSC为中间点,向不同轨迹分化的方向。但我们也发现,DC1实际上没有编码分化的轨迹信息,因此我们可以尝试删除掉DC1:

adata.obsm['X_diffmap_'] = adata.obsm['X_diffmap'][:,1:]
sc.pl.embedding(adata,'diffmap_',color=['CellType','leiden'])

Image

是不是有点Monocle内味了?但其实他们俩没啥关系。

我们再来看看FDG:

adata.obsm['X_diffmap'].shape
# (3821, 15)
sc.pp.neighbors(adata, n_neighbors=15, n_pcs=15, use_rep='X_diffmap')
sc.tl.draw_graph(adata)
sc.pl.draw_graph(adata, color=['CellType'])

Image

总体来说,需要根据实际情况选择用哪一种,DM的图形通常比较尖锐,而FDG更柔和。当细胞轨迹比较复杂多样时,DM通常会显得比较“紊乱”,这时候我们还可以这样来处理:

sc.pp.neighbors(adata, n_neighbors=10, n_pcs=10, use_rep='X_diffmap_')
sc.tl.umap(adata)
sc.pl.umap(adata,color='CellType')

Image

利用X_diffmap提供的embedding来替换PCA embedding,以获得更符合生物学轨迹的UMAP图。我们发现这个UMAP图更能把Mono和DC轨迹分开。此外,在上图中我们发现DC和Ery内部还有不同的分化方向。实际上基于先验知识的判断,它有一定的正确性,我们从下图的分化谱系中可以看到,DC细胞实际上有两个来源,其中一个是淋巴系分化出来,在UMAP表现为HSC直接分化得到,而另一个是由髓系分化,在UMAP图中表现为Monoctye分化而来。

Image

Palantir

Palantir可以认为提供root cell 和 terminal cells,我们回到Seurat中,利用CellSelector这个函数来精准选择细胞。

# anndata对象转换为h5这个通用格式
import diopy
diopy.output.write_h5(adata, 'diffmap.h5')

# Run in R
library(dior)
scobj = dior::read_h5('diffmap.h5')
scobj

Idents(scobj) = 'CellType'
p = DimPlot(scobj, reduction = 'diffmap_')
p

CellSelector(plot = p)
# 选择其中一个细胞
root.cell = 'Run4_130184147004718'
# 确认
DimPlot(scobj, cells.highlight = root.cell, reduction = 'diffmap_')

Image

接下来回到Python中

## Palantir需要基于PCA
pca_projections = pd.DataFrame(adata.obsm['X_pca'], index=adata.obs_names)
## Palantir内置了diffusion map函数
dm_res = palantir.utils.run_diffusion_maps(pca_projections, n_components=10)
# Determing nearest neighbor graph...
# computing neighbors
#     finished: added to `.uns['neighbors']`
#     `.obsp['distances']`, distances for each pair of neighbors
#     `.obsp['connectivities']`, weighted adjacency matrix (0:00:01)

dm_res['EigenVectors'].shape # embedding
# (3821, 10)

# Palantir内置函数帮助选择多少维DCs纳入分析
ms_data = palantir.utils.determine_multiscale_space(dm_res)
# 如果不选择:run me
# ms_data = dm_res['EigenVectors']

ms_data.shape
# (3821, 3)

运行:

# root cell
root_cell = 'Run4_130184147004718'
pr_res = palantir.core.run_palantir(ms_data, 
                                    early_cell=root_cell, 
                                    use_early_cell_as_start=True, 
                                    num_waypoints=500, knn=30)

获取信息和画图:

adata.obs['pseudotime'] = pr_res.pseudotime
adata.obs["DP"] = pr_res.entropy
sc.pl.embedding(adata, basis="umap", color=['pseudotime', 'DP'])

Image

DP即differential potential,通常与pseudotime呈反比。概念上与开头提到的“每个细胞状态分配了分化到不同终端状态的概率(Cell fate probabilities)”类似。结合先验知识,我们发现DP的结果与其生物学意义还是非常符合的。

此外,Palantir会提供自动计算的终点细胞名称。

pr_res.branch_probs.columns
# Index(['Run4_122436474493213', 'Run4_226265800857309', 'Run5_160996525231478'], dtype='object')

我们来看看这三个终点位置在哪里:

DimPlot(scobj,
        reduction = 'umap', 
        cells.highlight = c('Run4_122436474493213', 'Run4_226265800857309', 'Run5_160996525231478'))

Image

还是非常精确的!有时候如果觉得不满意,或者你还有其他希望人为指定终点的话,可以使用下面的例子。

我们再次从Seurat中选取终点细胞。假设我们希望针对DC潜在的另一个谱系分化进行研究。

DC_2 = 'Run4_236768101062563'

Image

terminal_cells = {
  "Run4_122436474493213": "Mono",
  "Run4_226265800857309": "Ery",
  "Run5_160996525231478": "DC1",
  "Run4_236768101062563": "DC2",
}
pr_res = palantir.core.run_palantir(ms_data, 
                                    early_cell=root_cell, 
                                    use_early_cell_as_start=True, 
                                    num_waypoints=500, 
                                    terminal_states=terminal_cells)
pr_res.branch_probs.columns = ['Mono','Ery','DC1','DC2']
pr_res.branch_probs.head()

Image

adata.obs['pseudotime'] = pr_res.pseudotime
adata.obs["DP"] = pr_res.entropy
sc.pl.embedding(adata, basis="umap", color=['pseudotime', 'DP'])

Image

可以看到,结果还是与之前类似,尽管我们指定了DC2终点,但Palantir没有按照我们指定的细胞强行拟合。我们看看branch probability结果:

Palantir计算出来的几个谱系的界限和路径都非常清晰。

我们保存一下Palantir其他重要结果:

with open("tmp/palantir_waypoint.txt", "w") as fo:
    [fo.write(cellID+"\n") for cellID in pr_res.waypoints.tolist()]

adata.obs.to_csv("tmp/palantir_results.csv")

导出为h5通用格式

diopy.output.write_h5(adata, 'palantir.h5')

小结

Palantir给我们提供了准确有效的拟时序信息和细胞干性评估,这对于后续分析至关重要,尤其是涉及细胞亚群表型转换的研究分析。如果你希望画出类似Slingshot的基因变化图,也可以参照之前我们分享过的笔记,利用Seurat和ggplot2画图体系来解决。事实上轨迹分析给我们添加了“时间”的维度,就会让很多事情变得有趣起来,就像3G网络变4G网络一样,以后我们再找时间继续分享轨迹分析的妙用吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1291270.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python接口自动化测试:断言封装详解

概要 在进行API接口测试时&#xff0c;断言起着至关重要的作用。断言是用于验证预期结果与实际结果是否一致的过程。在Python中&#xff0c;我们可以利用一些库来实现断言功能。 1. 安装必要的库 在Python中&#xff0c;我们主要会使用两个库&#xff1a;requests和jsonpath。…

三:爬虫-网络请求模块(下)

三&#xff1a;网络请求模块&#xff08;下&#xff09; 1.Requests模块&#xff1a; ​ Requests是用Python语言编写&#xff0c;基于urllib&#xff0c;采用 Apache2 Licensed开源协议的 HTTP 库&#xff0c;它比urllib更加的方便&#xff0c;可以节约我们大量的工作&#…

可编程电子负载在新能源汽车领域的应用,你知道多少?

可编程电子负载在新能源汽车领域的应用非常广泛&#xff0c;主要体现在以下几个方面。 电池测试&#xff1a;新能源汽车的核心是电池&#xff0c;而电池的性能直接影响到汽车的续航里程、充电速度等关键指标。可编程电子负载可以模拟各种复杂的充放电工况&#xff0c;对电池进行…

SQL Server 数据库,创建触发器避免数据被更改

5.4触发器 触发器是一种特殊类型的存储过程&#xff0c;当表中的数据发生更新时将自动调用&#xff0c;以响应INSERT、 UPDATE 或DELETE 语句。 5.4.1什么是触发器 1.触发器的概念 触发器是在对表进行插入、更新或删除操作时自动执行的存储过程&#xff0c;触发器通常用于强…

彻底解决公网ip无法访问服务器的问题

用服务器的公网ip访问突然提示页面无法访问了&#xff0c;之前还是ok的&#xff1a; 解决方案&#xff1a; 步骤1. 检查云服务器的安全组规则是否有添加80端口映射&#xff0c;如果没有需要手动添加&#xff0c;否则不能使用公网访问&#xff0c;检查了一下是有的&#xff1…

SpringBoot3-实现和注册拦截器

1、pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.…

项目管理:为什么项目计划必不可少

项目管理计划定义了如何执行、监督和控制项目。项目计划让我们准确地知道在项目的每个阶段应该做什么&#xff0c;在哪里分配资源和时间&#xff0c;以及在事情超出计划或超出预算时要注意什么。 为了项目中获得成功&#xff0c;管理者需要在前期创建一个项目计划&#xff0c…

el-menu标题过长显示不全问题处理

项目基于vue-element-admin 问题 期望 处理方式 \src\layout\components\Sidebar\index.vue 文件后添加CSS <style scped> /* 侧栏导航菜单经典 文字超长溢出问题 CSS折行 */ .el-submenu__title {display: flex;align-items: center; } .el-submenu__title span {white-…

LeetCode题:931下降路径最小和

目录 一、题目要求 二、解题思路 &#xff08;1&#xff09;状态表示 &#xff08;2&#xff09;状态转移方程 &#xff08;3&#xff09;初始化 &#xff08;4&#xff09;填表顺序 &#xff08;5&#xff09;返回值 三、代码 一、题目要求 931. 下降路径最小和 给你…

【android开发-18】android中运行时申请权限详解

1&#xff0c;android权限机制 在Android中&#xff0c;权限机制是一种保护用户隐私和数据安全的重要机制。它允许应用程序在访问敏感或危险的数据或资源时获取特定的权限。以下是Android中权限机制的详细解释&#xff1a; 1&#xff0c;权限类别&#xff1a;Android将权限分…

自己搭建一个window系统上的MinIO系统(小白30分钟搞得版)

自己搭建一个window系统上的MinIO系统 前言实现系统说明 效果配置结果测试本地测试同一网络内的其他计算机访问 展望注参考链接 前言 有个项目使用到minio的云端存储系统&#xff0c;为了更好的理解项目&#xff0c;准备对这个“神秘的玩意”自己研究一下&#xff0c;看看到底…

【Pyqt5】QWidget: Must construct a QApplication before a QWidget

问题说明&#xff1a; pyqt6切换为pyqt5时&#xff0c;引用自定义类时报错&#xff0c;QWidget: Must construct a QApplication before a QWidget 解决办法 修改导入python包的导入顺序后可以正常运行 使用pyqt5时需将pyqtgraph放到pyqt5之后导入

idea__SpringBoot微服务03——yaml(新注解)(新的依赖)

yaml 一、数据格式二、注入配置文件&#xff08;yaml注入&#xff09;&#xff08;新注解ConfigurationProperties&#xff09;三、注入配置文件&#xff08;properties注入&#xff09;&#xff08;新注解PropertySource&#xff09;四、yaml配置文件占位符${}五 、yaml跟prop…

基于Springboot的任务发布平台设计与实现(源码齐全+调试)

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。你想解决的问题&#xff0c;今天给大家介绍…

【Qt】QLineEdit显示输入十六进制,位数不足时按照规则填充显示及每两个字符以空格填充

问题 在实际开发中&#xff0c;有时候需要对输入进行限制&#xff0c;一是更加合理&#xff0c;二是防止出现误操作。 比如&#xff1a; 使用Qt进行应用程序开发时&#xff0c;对单行编辑框QLineEdit控件&#xff0c;设置只可输入十六进制。 限制输入的方式常用且经典的是使用…

鸿蒙开发—UI框架概述

基本概念 UI框架 HarmonyOS提供了一套UI开发框架&#xff0c;即方舟开发框架&#xff08;ArkUI框架&#xff09;。方舟开发框架可为开发者提供应用UI开发所必需的能力&#xff0c;比如多种组件、布局计算、动画能力、UI交互、绘制等。 方舟开发框架针对不同目的和技术背景的…

Redis中HyperLogLog的使用

目录 前言 HyperLogLog 前言 在学习HyperLogLog之前&#xff0c;我们需要先学习两个概念 UV&#xff1a;全称Unique Visitor&#xff0c;也叫独立访客量&#xff0c;是指通过互联网访问、浏览这个网页的自然人。1天内同一个用户多次访问该网站&#xff0c;只记录1次。PV&am…

AOSP开机动画调测技术点(基于Android13)

AOSP开机动画调测技术点(基于Android13) 开机动画替换 首先&#xff0c;在你的计算机上创建一个名为"bootanimation"的文件夹&#xff0c;并将"part0"、"part1"和"desc.txt"这三个文件复制到该文件夹中。这些文件包含了开机动画的图像…

易基因:人早期胚胎发育的表观遗传调控(染色质重塑+组蛋白修饰+DNA甲基化)|深度综述

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 哺乳动物发育研究促进了对协调胚胎发生遗传、表观遗传和细胞过程的理解&#xff0c;并揭示了对人类胚胎发生特异性新见解。最近研究生成了人类早期胚胎发生的第一个表观遗传学图谱&#…

继续研究超大规模数据场景的问题

关卡名 继续海量数据场景下的热门算法题 我会了✔️ 1. 对20GB文件进行排序 ✔️ 2. 超大文本中搜索两个单词的最短距离 ✔️ 3. 从10亿数字中寻找最小的100万个数字 ✔️ 1. 对20GB文件进行排序 题目要求&#xff1a;假设你有一个20GB的文件&#xff0c;每行一个字符串&…