Optima: 一个用于 Tapestri 平台的单细胞多组学数据分析的开源 R 包

news2024/9/22 19:46:41

分子条形码技术的最新进展使得在单细胞水平进行下一代转录组测序成为可能,例如10× Genomics Chromium和DropSeq。此外,CITE-seq 的出现使得可以在对单个细胞进行转录组分析的基础上同时对表面蛋白进行分析。同时,为了表征 DNA 和蛋白质谱,一个名为 Tapestri 的平台于 2017 年推出。该平台同时分析预先定义的 DNA 变异和细胞表面蛋白面板。通过利用从 Tapestri 平台收集的数据,研究人员可以识别异质组织内的独特细胞群。
软件背景

为了处理包含单细胞 RNA 和蛋白质数据的 CITEseq 数据,可以使用多个开源软件包,包括 Seurat、CITEfuse、iCluster、iCluster+等。为了在 Tapestri 平台中预处理原始测序数据,已经开发了 Tapestri Pipeline 软件(https://portal.missionbio.com/)用于生成变异调用和蛋白质表达计数。对于下游分析,Mission Bio 开发了一个 Python 库 Mosaic(https://missionbio.github.io/mosaic/)。此外,还有一款名为 Tapestri Insight 的 GUI 软件支持 Tapestri DNA 数据分析。然而,Tapestri Insights 的局限性在于它不支持蛋白质数据分析。Optima是一个用于 Tapestri 平台的开源 R 包,用于综合单细胞多组学数据分析。Optima 旨在简化 Tapestri 平台生成的多组学数据的预处理、分析和可视化工作流程。

输入数据

optima 包中的核心对象是 optima 对象。该对象存储单个生物样本的所有数据矩阵,包括 DNA(DNA 变体的扩增子测序数据)、CNV(拷贝数变异)和蛋白质。该对象还存储所有元数据,包括细胞条形码、扩增子名称面板以及用于跟踪标准化/过滤状态的元数据等。直接调用时,此对象会显示对象的汇总统计信息。经过 Tapestri 管道软件的初步预处理后,将生成一个 .h5 文件,应将其用作 optima 包的输入文件。可以使用readHdf5()函数将此文件作为 optima 对象读入 R 环境。

  1. DNA分析
    一旦创建了 optima 对象,就开始分析 DNA 测序数据。DNA 分析侧重于单核苷酸变异的变异等位基因频率。第一步是使用 filterVariant ()函数过滤 DNA 变异数据。从 .h5 文件导入几个因素,包括测序深度、基因型质量等,并用于此过滤步骤。如果太多基因座未通过 QC,则会删除该细胞/变异。过滤后,DNA 数据将用于细胞克隆识别。为了识别克隆,可以选择在getClones()函数中使用非监督聚类方法 dbscan。聚类结果将存储在 optima 对象中包含的细胞标签向量中。如果更喜欢使用领域知识来手动分配细胞标签,他们可以通过生成自己的标签并将其分配给 optima 对象中的细胞标签向量来实现。要在热图中可视化变异等位基因频率,可以使用drawHeatmap()函数。首先根据细胞标签对行进行排序,即可生成热图。要可视化不同细胞中单个变异的变异等位基因频率,可以使用plotVariantFeature()函数。基于 VAF 的颜色叠加将在降维图上生成。如果有兴趣获取变异的注释,可以使用annotateVariant()函数。通过从 MissionBio 的 API 获取数据,此函数将所有变异 ID 作为输入并返回包含变异详细信息的 R data.frame。

  2. CNV分析
    分析 DNA 测序数据后,下一步是分析 CNV。分析 CNV 数据的主要目标是计算每个 CNV 扩增子的倍性。输入基于每个 CNV 位点的对齐读取数量/计数。为了校正 CNV 计数的列向和行向变化,用户可以使用 normalizeCNV ()函数。标准化后,可以使用calculatePloidy()函数计算倍性。首先将参考细胞类型定义为二倍体细胞,然后使用其他细胞类型的标准化计数除以每个 CNV 扩增子的平均计数。数值代表每个细胞中每个扩增子的倍性。

  3. 蛋白质分析
    除了 DNA 测序数据,Tapestri 平台还量化细胞表面蛋白。当抗体与特定表面蛋白结合时,会生成蛋白质的原始数据。为了处理此类数据,optima在normalizeProtein()函数中使用中心对数比变换方法。数据转换后,可以选择使用降维方法通过reduceDim()函数在 2D 空间中可视化细胞。此外,可以使用drawHeatmap()函数在热图中可视化所有标准化蛋白质计数。要可视化不同细胞中单一蛋白质的标准化蛋白质表达,可以使用plotProteinFeature()函数。基于标准化蛋白质计数的颜色叠加将在降维图上生成。最后,通过使用细胞标签和findSignature()函数,可以识别与所有其他细胞类型相比在一种细胞类型中表达不同的蛋白质。这种比较是使用 t 检验完成的。结果是一个 R 数据框,其中包含使用 Benjamini–Hochberg FDR 方法调整多重比较后按最小P值排序的所有蛋白质。

分析结果

一个 optima 对象存储一个生物样本的所有数据矩阵。在此示例数据集中,四个细胞混合为一个生物样本。使用readHdf5()函数将此数据集导入 R 后,将存储为 optima 对象。调用时,此对象显示汇总统计信息。更具体地说,它包含 1313 个细胞、27 719 个变体、127 个 CNV 和 10 个蛋白质。用户可以提供从他们的 Tapestri 管道输出生成的自己的 .h5 文件。使用四细胞混合物示例,使用 filterVariant ()函数执行过滤。我们从 1313 个细胞开始,过滤后剩下 1271 个细胞。同时,过滤后保留了 29 个变体。使用get Clones()函数识别细胞克隆后,在数据集内识别了六个簇/细胞克隆。在 optima 对象中的细胞标签向量中,每个细胞克隆都用数值 1、2、3、4、5 和 6 标记。然后使用这些信息通过 DNA 测序数据生成热图(图 1B)。对于 CNV 分析,使用normalizeCNV()函数计算标准化计数,并使用calculatePloidy()函数计算倍性。对于calculatePloidy()函数的应用,细胞类型“1”被设置为二倍体细胞类型。为了可视化每个扩增子的倍性,我们生成了散点图(图 1C)。所有细胞类型 1 扩增子的倍性值都是 2。这是因为细胞类型 1 被指定为二倍体细胞。对于细胞类型 2,倍性范围在 0 到 3 之间。蛋白质分析从使用norma lizeProtein()函数进行数据标准化开始。然后使用标准化的蛋白质计数在二维空间中投影细胞,并根据每个数据点的细胞类型标签对其进行着色。目视检查图 1D后,可以发现存在四个突出的簇,每个簇都显示出具有相同颜色的点占主导地位,表示每个簇内的细胞类型分配一致。通过将一种细胞类型与其他细胞类型的蛋白质表达水平进行比较,findSignature()函数会返回一个差异表达蛋白质表,并对多重比较进行了 p 值调整(图 1E)。为了可视化“CD11b”蛋白的表达水平,plotProteinFeature()函数。该函数返回一个散点图,其中所有细胞投影在二维空间中。每个细胞根据 CD11b 蛋白表达水平着色(图 1F)。

在这里插入图片描述

欢迎大家留言讨论,如果对结果或者方法实现有疑问的可以联系管理员进行解决:kriswcyYQ。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1946832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Harmony Next -- 图片选择库:宫格展示、全屏预览

hm_image_select_view OpenHarmony三方库中心仓:https://ohpm.openharmony.cn/#/cn/detail/image_select_view 介绍 Harmony Next 图片选择库,可设置最大选择数量、单行显示数量、横向竖向间隔;点击图片后全屏预览 软件架构 Harmony nex…

云计算复习--虚拟化技术

文章目录 虚拟化技术定义与原理虚拟机监视器(VMM)虚拟化技术服务器虚拟化存储虚拟化网络虚拟化应用虚拟化 关键技术新型虚拟化技术发展进展作业 虚拟化技术定义与原理 定义:虚拟化技术是一种将计算机物理实体(如服务器、存储设备…

NOIP图论 最小生成树——Prim算法(详细图解)

最小生成树的概念 经典题目 prim算法简介 prim算法解析 (详细图解) 代码实现 代码实战 最小生成树的概念 在一给定的无向图G (V, E) 中,(u, v) 代表连接顶点 u 与顶点 v 的边,而 w(u, v) 代表此的边权重,若存在 …

AI绘画进阶工具 ComfyUI 新版来啦!操作界面详解!取消悬浮面板,自带工作流管理功能!(附安装包)

大家好,我是画画的小强 在 7 月初的一次更新中,ComfyUI 官方推出了 Beta 版 UI,取消了原本的悬浮面板,还新增了工作流管理功能,整体使用体验比之前好了很多。今天就为大家详细介绍一些新版 UI 的特点和用法。 一、启…

GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库

更好的效果,更低的价格,听起来是不是像梦呓? 限制 首先,让我们来介绍一个词:RAG。 简单来说,RAG(Retrieval-Augmented Generation,检索增强生成) 的工作原理是将大型文档…

每日一题 二叉树的中序遍历

1.题目描述 给定一个二叉树的根节点 root &#xff0c;返回 它的 中序 遍历 。 2.题目思路 遇到二叉树问题,首先考虑用递归来实现,首先它是中序遍历.我们可以拆分成子问题来解决,即先遍历二叉树的左子树,在遍历自身,在遍历右子树即可 3.代码书写 List<Integer> list …

免杀笔记 -->API的整理Shellcode加密(过DeFender)

最近更新频率明显下降我懒&#xff0c;那么今天就来记录一下我们的一些常用的API的整理以及ShellCode的加密。 1.WinAPI整理 问我为什么要整理&#xff1f; 就是用起来的时候要左翻右翻 &#xff1a;&#xff1a; 烦死了 1.VirtualAlloc VirtualAlloc(NULL,sizeof(buf),MEM_…

声音克隆一键本地化部署 GPT-SoVITS

文章目录 GPT-SoVITS 介绍1:GPT-SoVITS安装2:GPT-SoVITS使用2.1 人声伴奏分离,去混响去延时工具2.2 语音切分工具2.3 语音降噪工具2.4 中文批量离线ASR工具2.5 语音文本校对标注工具GPT-SoVITS 介绍 GPT-SoVITS: 是一个由RVC变声器创始人“花儿不哭”推出的免费开源项目。…

php 做一个mqtt按钮,发布触发信号

在之前博客php 做一个文件下载服务器&#xff0c;得避免跨路径工具&#xff0c;安全很重要 中加了一个按钮&#xff0c;触发物联网设备返回数据。基于mqtt开发&#xff0c;如果想知道mqtt如何搭建&#xff0c;可以看我的博客【MQTT&#xff08;1&#xff09;】服务端的搭建 效…

JavaEE - HTTP状态码

Web服务器 浏览器和服务器两端进行数据交互&#xff0c;使用的就是HTTP协议&#xff08;HTTP客⼾端和 HTTP服务器之间的交互数据 的格式&#xff09;。 Web服务器就是对HTTP协议进⾏封装,程序员不需要直接对协议进⾏操作(⾃⼰写代码去解析http协议 规则)&#xff0c;让Web开发更…

2 YOLO8的使用

1 介绍 YOLOv8是YOLO (You Only Look Once) 目标检测模型系列的最新版本&#xff0c;由Ultralytics公司开发和维护。YOLOv8是在先前版本的基础上进行的重大更新&#xff0c;不仅提升了性能&#xff0c;还增加了更多的功能&#xff0c;它不仅能够进行目标检测&#xff0c;还能完…

构建智慧水利系统,优化水资源管理:结合物联网、云计算等先进技术,打造全方位、高效的水利管理系统,实现水资源的最大化利用

本文关键词&#xff1a;智慧水利、智慧水利工程、智慧水利发展前景、智慧水利技术、智慧水利信息化系统、智慧水利解决方案、数字水利和智慧水利、数字水利工程、数字水利建设、数字水利概念、人水和协、智慧水库、智慧水库管理平台、智慧水库建设方案、智慧水库解决方案、智慧…

RBAC权限管理设置

RBAC权限管理设置 RBAC&#xff08;Role-Based Access Control&#xff0c;基于角色的访问控制&#xff09;是一种常用的访问控制机制&#xff0c;用于管理系统中的用户权限。RBAC通过将用户分配给角色&#xff0c;并将权限授予角色&#xff0c;从而控制用户对资源的访问。 基…

BUU [BSidesCF 2020]Cards

BUU [BSidesCF 2020]Cards 开题&#xff1a; 做题目之前先了解一下21点的规则&#xff1a; 二十一点玩法规则和概率在二十一点游戏中&#xff0c;拥有最高点数的玩家获胜&#xff0c;其点数必须等于或低于21点&#xff1b;超过21点的玩家称为爆牌。 2点至10点的牌以牌面的点数…

谷歌新的网站索引策略:将来可能不再为您的网站编制索引

10 年前&#xff0c;在 WordPress 上推出新博客的同时&#xff0c;Google 上的内容几乎是即时索引。 搜索引擎试图尽快向用户提供所有信息&#xff0c;这对内容创作者也有利。 然而&#xff0c;随着时间的推移&#xff0c;情况发生了变化&#xff0c;现在谷歌在索引方面变得极…

RPA软件-影刀使用

流程自动化 影刀将操作进行抽象&#xff0c;分为一下几个对象&#xff1a; 网页自动化 &#xff08;1&#xff09; 网页自动化应用场景&#xff1a;网页操作、数据抓取 &#xff08;2&#xff09; 网页操作&#xff1a;基础操作-指令操作&#xff0c;智能操作-关联元素&#…

Redis-数据的极速之旅(一)

Redis基础篇 Redis的自我介绍我的核心数据结构1.字符串&#xff08;String&#xff09;2.哈希&#xff08;Hash&#xff09;3.列表&#xff08;List&#xff09;4.集合&#xff08;Set&#xff09;5.有序集合&#xff08;Sorted Set&#xff09; 高性能原理1.Redis为什么快&…

C# VS2019 Form 图标的修改

一、 窗口的左上角图标 1、Form的属性中找到Icon项直接选择图标&#xff08;.ico&#xff09;路径,窗口左上角会自动更新选择更新的图标。 Form属性 2.发布后的exe图标

日常开发记录分享-SQL中的partition分区功能使用

文章目录 需求来源实现思路实施SQL 语句结构内部查询&#xff08;子查询&#xff09;外部查询 结果 partition的升级使用解释 验证一下看看分区 分区的一些操作1. 普通查询2. 分区表上的查询优化3. 插入数据4. 删除分区中的数据5. 分区维护操作添加新的分区删除分区重组分区 6.…

Mongodb入门介绍

文章目录 1、Mongodb&#xff1a;NoSQL数据库&#xff0c;分布式的文档型数据库2、适合场景&#xff1a;3、不适合场景&#xff1a;4、概念5、总结 1、Mongodb&#xff1a;NoSQL数据库&#xff0c;分布式的文档型数据库 2、适合场景&#xff1a; 1、web网站数据存储&#xff…