登 Cell 子刊!清华大学张强锋课题组开发 SPACE 算法,组织模块发现能力领先同类工具

news2024/10/5 17:25:55

多细胞生物中的细胞尽管共享相同的基因组,但因其内部基因调控网络的差异以及与周围微环境中相邻细胞的外部信号交流,使得它们在形态、基因表达和功能上展现出显著的多样性。为了将细胞类型信息与其在组织内的空间位置相关联,空间转录组学 (Spatial Transcriptomics,简称 ST) 技术应运而生。该技术既能获得高分辨率的转录组数据,还能和位置信息相对应,确定不同细胞亚型或转录状态在空间上的分布和位置关系,对于重新认知生命结构、个体发育、生命演化以及定义疾病具有关键性作用。

近年来,随着空间转录组学技术的不断发展,研究者能够在单细胞分辨率下获得细胞的基因表达谱,同时保留细胞在组织内的空间位置信息。如何有效地利用这些空间信息来识别空间细胞亚型并发现组织模块,成为空间转录组数据分析的核心任务。

当前,空间转录组数据分析面临以下两方面难题:第一,对于空间细胞类型的识别,许多研究仅使用细胞基因表达谱而忽视细胞的空间位置信息。近年来的研究表明,原本被认为是同质性的细胞类型,根据其在组织中的位置,可以进一步细分为多个亚型。第二,对于组织模块的发型,由于构成组织的不同细胞的基因表达特征可能高度异质化,之前的分析方法未能充分利用单细胞分辨率空间转录组数据中细胞类型的异质性。

基于此,清华大学生命科学学院/结构生物学高精尖创新中心/清华-北大生命科学联合中心张强锋副教授课题组, 近日在 Cell Systems 杂志在线发表题为「Tissue module discovery in single-cell resolution spatial transcriptomics data via cell-cell interaction-aware cell embedding」的研究论文。

该研究开发了基于图自编码器 (Graph autoencoder) 深度学习框架的人工智能算法 SPACE (spatial transcriptomics data analysis via 「interaction-aware」 cell embedding), 能够从单细胞分辨率的空间转录组数据中识别空间细胞类型和发现组织模块,可被用于大规模的空间转录组研究。

研究亮点:

  • 开发了空间转录组数据人工智能分析工具 SPACE,可从单细胞分辨率的空间转录组数据中,识别空间细胞类型并发现组织模块

  • SPACE 在细胞类型识别和组织模块发现方面明显优于其他工具,尤其是在包含多种细胞类型的复杂组织中

  • SPACE 可用于大规模的空间转录组研究,以了解空间邻近细胞之间的相互作用如何影响细胞类型和组织模块生物学功能

论文地址:

https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:多数据集验证 SPACE 能力

为了验证 SPACE 的能力,研究中用到了多个数据集,汇总如下:

数据集下载地址:
https://go.hyper.ai/CBJfX

MERFISH 小鼠 PMC 数据集

对于 MERFISH 小鼠 PMC 数据集,从 Brain Image Library 获得对数转换的标准化细胞-基因矩阵,然后移除标记为「其他」的细胞或位于主样本区域外的细胞。
数据集链接:

https://doi.org/10.35077/g.21

STARmap 小鼠 PLA 数据集

对于 STARmap 小鼠 PLA 数据集,标准化的细胞-基因矩阵由原始论文提供并进行了对数转换。
数据集链接:

https://drive.google.com/file/d/1DDCowUuZ7PPFUSZsjvSqntWkYJMjf1Na/view?usp=sharing

MERFISH 小鼠 AB 数据集

对于 MERFISH 小鼠 AB 数据集,从 CELL x GENE 库获得基因计数矩阵。每个细胞的总计数标准化为 10,000,然后对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://cellxgene.cziscience.com/collections/31937775-06024e52-a799-b6acdd2ba2e

MERFISH 小鼠 WB 数据集

对于 MERFISH 小鼠 WB 数据集,从 GitHub 库获得对数转换的标准化细胞-基因矩阵。
数据集链接:

https://github.com/AllenInstitute/abc_atlas_access

Xenium 人类 BC 数据集

对于 Xenium 人类 BC 数据集,从 10x genomics 网站获得基因计数矩阵。每个细胞的总计数标准化为 10,000,然后对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://www.10xgenomics.com/products/xenium-in-situ/preview-dataset-human-breast

CosMx 人类 NSCLC 数据集

对于 CosMx 人类 NSCLC 数据集,从 nanoString 网站获得对数转换的标准化细胞-基因矩阵。
数据集链接:

https://nanostring.com/products/cosmx-spatial-molecular-imager/ffpe-dataset/nsclc-ffpe-dataset/

Visium 人脑数据集

对于 Visium 人脑数据集,基因计数矩阵使用 Bioconductor 包 spatialLIBD 获得。使用 python 包 SCANPY(v1.9.1)的scanpy.pp.highly_variable_genes() 函数(flavor = “seurat_v3”)在 Visium 人脑数据集的每个样本中识别出前 3,000 个高度可变基因。然后每个细胞的总计数标准化为 10,000,对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://bioconductor.org/packages/release/data/experiment/html/spatialLIBD.html

模型架构:基于细胞-细胞相互作用感知的细胞嵌入的模型

SPACE 使用图自编码器 (Graph autoencoder) 框架来学习低维的细胞嵌入,该细胞嵌入描述了空间转录组数据中每个细胞自身的基因表达信息以及其与空间邻近细胞的相互作用信息(因此称该细胞嵌入为细胞-细胞相互作用感知的细胞嵌入,cell-cell interaction-aware cell embedding)。在该细胞嵌入基础上,SPACE 再通过聚类算法识别空间细胞亚型和发现组织模块。

从架构来看,SPACE 模型由三部分组成:编码器 (三层图注意网络)、邻近图解码器和基因表达解码器, 下图显示了该模型的整体框架:

SPACE 模型框架

首先,SPACE 通过基于空间邻近性将每个细胞与其 k 个最近邻细胞连接起来构建邻接图;然后,SPACE 使用三层图注意力网络 (GAT) 作为编码器,将基因表达谱输入和邻接图转换为低维细胞表示,这些表示随后通过两个独立的解码器网络用于重构每个细胞的基因表达谱和邻接图。

为了训练 GAE 模型,SPACE 采用自监督学习,旨在最小化基因表达谱和邻接图的总重构损失。学习到的细胞表示随后可以使用各种聚类算法进行细胞类型识别和组织模块发现。

先前开发的深度学习工具使用了图卷积网络 (GCN) (例如,SpaGCN、SpaceFlow、GraphST 和 SEDR) 或图注意自动编码器 (例如,STAGATE) 来生成「邻域感知」嵌入,这些嵌入通过聚合分析细胞及其邻近细胞的基因表达谱来发现组织模块。SPACE 主要从以下三个方面区别于这些工具:

第一,SPACE 需要从相同的低维细胞表示中重构基因表达谱和邻接图(通过两个独立的解码器)。 这种设计使得 SPACE 能够记住分析细胞及其各个邻近细胞的基因表达谱和空间交互关系。相比之下,其他方法尽管将邻接图作为输入,但并不重构图。为了强调这一区别,本研究称 SPACE 生成的细胞嵌入为「细胞-细胞相互作用感知的细胞嵌入」。

第二,SPACE 定义了一个感知域比例,用于确定基因表达谱和邻接图重构损失的相对权重。 这一可调比例使 SPACE 能够根据特定研究需要调整学习重点,强调每个分析细胞的基因表达谱或空间邻近细胞的相互作用。

第三,SPACE 还在 GAT 编码器中使用注意力机制,在邻域信息聚合过程中自适应地学习每个邻域的权重。 这种方法自动考虑了不同邻域在基因表达谱重构过程中的各自贡献。

研究结果:SPACE 在细胞类型识别和组织模块发现方面优于其他同类工具

使用多个空间转录组数据集对 SPACE 进行测试,证明 SPACE 发现的细胞群落与人工标注的组织结构在空间分布特征上相似。

评估 SPACE 识别空间信息细胞类型的能力

研究最初使用 MERFISH 描述的小鼠初级运动皮层 (PMC) 的 ST 数据集 (从切片 153 开始) 来研究 SPACE 识别细胞类型的能力。结果显示,SPACE 识别的细胞类型与原始研究中报告的细胞类型很好地匹配, 如下图所示;此外,SPACE 还为某些细胞类型 (如星形胶质细胞和少突胶质细胞) 提供了更高分辨率的细胞类型标注。

桑基图展示了 MERFISH 小鼠 PMC 数据集的第 153 片中,所有细胞的空间信息中,相关细胞类型与原始细胞类型之间的对应关系

接着,研究人员进一步聚焦已鉴定的星形胶质细胞 (皮质层中的神经胶质细胞) 和少突胶质细胞 (中枢神经系统的髓鞘细胞) 亚型。星形胶质细胞曾被认为是一种同质细胞类型,但最近的 ST 研究报告称,它们在不同的大脑区域具有不同的功能。

MERFISH 小鼠 PMC 数据集中第 153 片的空间信息相关的星形胶质细胞亚型。细胞按星形胶质细胞亚型进行着色,浅灰色点表示其他细胞。虚线表示上层、深层和白质

试验中,SPACE 在 PMC 切片 153 中发现了三种不同的亚型,如上图所示,每种亚型在空间上分布在不同的皮质层中。类似于星形胶质细胞,SPACE 还将少突胶质细胞分类为三种具有不同空间分布模式的空间信息亚型。

STARmap 小鼠胎盘 (PLA) 数据集中具有空间位置和由SPACE 识别的空间信息相关细胞类型的细胞

研究人员还将 SPACE 应用于另一种 ST 技术 STARmap 生成的小鼠胎盘 (PLA) 数据集。结果显示,SPACE 将细胞标注为 16 种细胞类型,与原始研究中的细胞类型很好地匹配,如上图。SPACE 识别出两种糖原滋养层细胞亚型,这两种亚型在原始研究中都被标注为「巨滋养细胞 2」细胞。这两种亚型位于胎盘的不同区域,并具有独特的邻近交互细胞类型。

综上所述,基于不同 ST 方法和组织的两个独立数据集的分析支持了以下结论:SPACE 能够基于 ST 数据集中的空间信息识别出空间信息具有生物学差异的细胞类型。

评估 SPACE 在细胞类型识别中的表现

研究人员将 SPACE 与目前用于从空间转录组学数据中识别细胞类型的两种工具 BANKSY 和 FICT 进行了比较,这两种工具除了基因表达外,还考虑了空间信息。在分析中,研究人员还加入了 SCANPY,一种广泛用于细胞类型识别的工具,尽管它仅考虑基因表达。

为了进行比较,研究人员使用了前面提到的 MERFISH 小鼠 PMC 数据集和 STARmap 小鼠 PLA 数据集。如下图显示,SPACE 能够识别不同的空间信息星形胶质细胞和少突胶质细胞亚型,但 SCANPY 和 FICT 都无法定义具有皮质层分辨空间分布模式的星形胶质细胞和少突胶质细胞亚型。

对于 STARmap 小鼠 PLA 数据集,虽然 SPACE 和 BANKSY 成功识别了两种糖原滋养层细胞亚型,但 SCANPY 和 FICT 未能识别糖原滋养层细胞亚型,这可能是由于两种糖原滋养层细胞亚型之间的周围细胞类型存在明显差异。

SPACE在识别空间信息相关的细胞亚型方面优于现有工具

这些结果共同表明,SPACE 优于目前可用的工具,可用于从 ST 数据中区分空间信息细胞类型。

SPACE 在组织模块发现方面优于最先进工具

空间转录组学研究的一项重要任务是发现给定组织中的组织模块。为了评估 SPACE 在这方面的能力,研究人员将 SPACE 与 SEDR、SpaGCN、STAGATE、BANKSY、SpaceFlow、GraphST 、Schürch 等人的方法,以及 SCANPY 和 SPACE_ng 进行了比较,并使用了两个前述的 ST 数据集 (MERFISH 小鼠 PMC 数据集和 STARmap 小鼠 PLA 数据集),以及三个具有标注组织模块的附加数据集,包括 MERFISH 小鼠老化大脑 (AB) 数据集、MERFISH 小鼠整个大脑(WB) 数据集和 Xenium 人类乳腺癌 (BC) 数据集,这些数据集代表了从不同组织、不同条件下获得的 ST 数据。

总体而言,SPACE 在 5 个数据集中的 2 个表现远超其他竞争工具,并在其他 3 个数据集中的表现几乎与表现最佳的工具相当(相对于各自最佳的工具), 如下图所示:

SPACE 在组织模块发现方面优于最先进工具

破除空间转录组数据分析的挑战

空间转录组技术是生物信息学领域近年来的重大突破之一,2020 年被 nature method 评为年度技术。 该技术通过同时测量大量细胞的空间位置和细胞内的转录组计数,弥补了单细胞测序技术难以测量单个细胞之间位置关系的缺陷,从而为理解多细胞之间的相互作用提供了全新的数据基础——发展针对空间转录组数据的基础分析方法是当前生物信息学领域的前沿问题之一。

细胞空间定位信息与其分子特征谱的耦合产生了新型的多模态高通量数据资源,这对高效的数据分析与信息挖掘方法的开发提出了许多挑战,而人工智能则为解决这些挑战提供了新的思路。

2022 年 7 月,上海交通大学电子信息与电气工程学院自动化系沈红斌教授、 袁野副教授课题组在 Nature 子刊 Nature Computational Science 上发表了题为:「Cell clustering for spatial transcriptomics data with graph neural networks 」(利用图神经网络对空间转录组数据进行细胞聚类) 的研究论文。

论文链接: https://www.nature.com/articles/s43588-022-00266-5

论文提出了一种基于图卷积神经网络的空间转录组细胞聚类方法(Cell Clustering for Spatial Transcriptomics,CCST), 为处理空间转录组数据提供了新方案,具有被应用于生命医药科学中多层次基础问题研究的潜力,包括建模基因表达的空间分布、分析细胞动力学以及发现关键细胞亚型相互作用及其分子机制等。

2023 年 4 月,约翰斯·霍普金斯大学 (Johns Hopkins University) 的研究团队开发了 SpaceMarkers, 这是一种生物信息学算法,可以利用 ST 数据的潜在空间分析,推断出细胞间相互作用的分子变化。研究人员使用这种方法来推断转移、侵袭性和前驱病变以及免疫治疗的 Visium 空间转录组学数据中肿瘤免疫相互作用的分子变化。

该研究以「Uncovering the spatial landscape of molecular interactions within the tumor microenvironment through latent spaces」为题发布在 Cell Systems。

今年 4 月,一篇发表在国际杂志Nature Genetics上题为「BANKSY unifies cell typing and tissue domain segmentation for scalable spatial omics data analysis」的研究报告中,来自新加坡 A*STAR 研究所等机构的科学家们通过研究报道了一种名为 BBANKSY的算法 (Building Aggregates with a Neighborhood Kernel and Spatial Yardstick), 该算法作为一种创新的空间组学数据分析工具,其主要功能是将空间组学数据中的细胞根据类型和组织域进行有效分类。

论文链接: https://www.nature.com/articles/s41588-024-01664-3

革命性算法BANKSY或能重塑空间组学数据分析

显然,未来在人工智能技术的加持下,空间转录组技术将更好地揭示各细胞类型在组织中的空间分布、各细胞群体间的相互作用以及绘制不同组织区域的基因表达图谱,这对理解疾病和癌症的发生机制具有深远的应用价值。

参考资料:
1.https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8#secsectitle0030
2.https://www.tsinghua.edu.cn/info/1175/112190.htm
3.https://news.bioon.com/article/367a820e60b9.html
4.https://www.sohu.com/a/677912398_12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1892665.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenLCA、GREET、R语言的生命周期评价方法、模型构建

原文链接:OpenLCA、GREET、R语言的生命周期评价方法、模型构建教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247608240&idx6&sn1b5758206d500399fe7cc69e800f61fe&chksmfa826657cdf5ef413d31557941a1c5db5cc84bba8d0f408c469e05a4118c…

软考的报名详细流程

2024年软考的考试时间已经公布,分别为5月25日至28日和11月9日至12日。准备参加2024年软考的朋友们,一定要提前关注官方发布的考试安排。 本文将详细介绍软考报考的整个流程。准备报考的朋友们,阅读本文就足够啦!软考的报考流程大致…

Vant Design - VUE 时间区间限制

效果图&#xff0c;限制7天 实现代码 <a-range-picker v-model"dateTime" style"width: 100%" :disabled-date"disabledDate" format"YYYY-MM-DD HH:mm:ss" :showTime"true" :placeholder"[开始时间, 结束时间]&quo…

Vue 解决报错 VM6290:1 Uncaught SyntaxError: Unexpected identifier ‘Promise‘

Vue 报错 VM6290:1 Uncaught SyntaxError: Unexpected identifier ‘Promise’ 排查 控制台报了一个错误 , Uncaught SyntaxError: Unexpected identifier ‘Promise’&#xff0c;网上查到的方法是 缺少符号&#xff0c;语法写法错误&#xff0c;但这些都没有解决我的问题&am…

Simulink 模型生成 C 代码(三):将模型参数配置为全局变量以在运行时调整

默认情况下&#xff0c;代码生成优化可避免存储不参与入口函数接口的模型参数和大多数信号。要使参数可调和相关信号可访问&#xff0c;请通过显式配置方式来标识它们。 在模型 RollAxisAutopilot 的 BasicRollMode 子系统中&#xff0c;将 PID 控制参数配置为在代码中显示为可…

VMware Workstation桥接模式无法上网

问题背景 我之前创建过一个虚拟机&#xff0c;当时虚拟机的网络模式使用的是桥接模式&#xff0c;配置好了固定ip地址&#xff0c;是可以正常上网的&#xff0c;中间没有做任何网络上面的配置。但是今天再打开这台虚拟机时&#xff0c;发现竟然不能上网了。 物理主机的ip信息配…

构造函数深入理解

目录 构造函数构造函数体赋值初始化列表初始化列表格式初始化列表的意义以及注意点const修饰的成员变量初始化对象成员具体初始化的地方缺省值存在的意义例子1例子2 初始化与赋值引用成员变量的初始化注意点1注意点2我的疑惑 自定义类型成员初始化例子1例子2例子3例子4 初始化列…

JAVA小知识31:多线程篇2

一、等待唤醒机制 生产者和消费者&#xff0c;也叫等待唤醒机制。他是一个十分经典的多线程协作的模式。我们来讲一个小故事&#xff1a; 在一个繁忙的工厂里&#xff0c;有一个生产线&#xff0c;我们称之为“共享资源”。这个生产线一次只能生产一个产品&#xff0c;而且需要…

Stable Diffusion【基础篇】:降噪强度(denoising strength)

提到降噪强度&#xff08;denoising strength&#xff09;&#xff0c;大家一定不会陌生&#xff0c;这个参数是图生图中最关键的参数之一。今天在Stable Diffusion Art网站看到一篇介绍降噪强度&#xff08;denoising strength&#xff09;的文章&#xff08;地址&#xff1a;…

HMI 的 UI 风格创新无限

HMI 的 UI 风格创新无限

「实战应用」如何用图表控件LightningChart JS创建SQL仪表板应用(三)

LightningChart JS是Web上性能特高的图表库&#xff0c;具有出色的执行性能 - 使用高数据速率同时监控数十个数据源。 GPU加速和WebGL渲染确保您的设备的图形处理器得到有效利用&#xff0c;从而实现高刷新率和流畅的动画&#xff0c;常用于贸易&#xff0c;工程&#xff0c;航…

从零开始:AI产品经理的入门路线图

引言&#xff1a; 想象这样一个场景&#xff1a;早晨的阳光穿透窗帘&#xff0c;投射在新一代智能机器人上&#xff0c;它正静静等待着你的第一个命令开始全新的一天。这样的场景听起来像是科幻小说里的情节&#xff0c;但实际上&#xff0c;这正是AI产品经理们工作的成果。如…

数字人直播源码开发全攻略揭秘:如何搭建自己的数字人直播平台?

当前&#xff0c;数字人直播逐渐成为众多中小型企业线上带货和品牌宣传的不二之选&#xff0c;而艾媒研究数据也显示&#xff0c;超五成以上的被调查群体的企业使用过虚拟人技术&#xff0c;超三成被调查群体的企业计划使用虚拟人技术。在此背景下&#xff0c;越来越多的创业者…

js 使用 lodash-es 检测某个值是否是函数

import { isFunction } from lodash-eslet isA isFunction(() > {}) console.log(isA) //true https://www.lodashjs.com/docs/lodash.isFunction#_isfunctionvalue https://lodash.com/docs/4.17.15#isFunction 人工智能学习网站 https://chat.xutongbao.top

mmaction2版本适配(Linux)

从cuda到mmcv保姆式教程 &#xff08;数十年踩坑经验&#xff0c;跟着我做&#xff0c;版本不会错~&#xff09; 如果有补充&#xff0c;请评论区评论&#xff0c;后续填坑&#xff01; cuda11.3 下载安装包 wget https://developer.download.nvidia.com/compute/cuda/11.3…

10计算机视觉—物体检测算法

目录 1.R-CNN(区域卷积神经网络)2014兴趣区域(RoI)池化层Fast RCNN 2015Faster R-CNN 2015Mask R-CNN 2017总结2. SSD(单发多框检测)2016SSD模型总结3.YOLO(你只看一次)快!很重要4.目标检测算法性能对比5.SSD代码实现 使用很少,比不上yolo多尺度锚框实现SSD代码实现训练…

我在高职教STM32——时钟系统与延时控制(2)

大家好&#xff0c;我是老耿&#xff0c;高职青椒一枚&#xff0c;一直从事单片机、嵌入式、物联网等课程的教学。对于高职的学生层次&#xff0c;同行应该都懂的&#xff0c;老师在课堂上教学几乎是没什么成就感的。正因如此&#xff0c;才有了借助 CSDN 平台寻求认同感和成就…

Java增加线程后kafka仍然消费很慢

文章目录 一、问题分析二、控制kafka消费速度属性三、案例描述 一、问题分析 Java增加线程通常是为了提高程序的并发处理能力&#xff0c;但如果Kafka仍然消费很慢&#xff0c;可能的原因有&#xff1a; 网络延迟较大&#xff1a;如果网络延迟较大&#xff0c;即使开启了多线…

嵌入式学习——硬件(UART)——day55

1. UART 1.1 定义 UART&#xff08;Universal Asynchronous Receiver/Transmitter&#xff0c;通用异步收发器&#xff09;是一种用于串行通信的硬件设备或模块。它的主要功能是将数据在串行和并行格式之间进行转换。UART通常用于计算机与外围设备或嵌入式系统之间的数据传输。…

掌握高效实用的VS调试技巧

&#x1f525; 个人主页&#xff1a;大耳朵土土垚 1.编程常见的错误 1.1编译型错误 编程编译型错误是指在编译代码时发现的错误。编译器在编译过程中会检查代码是否符合语法规范和语义要求&#xff0c;如果发现错误会产生编译错误。 直接看错误提示信息&#xff08;双击&#…