论文:Gene Expression Prediction from Histology Images via Hypergraph Neural Networks
代码:https://github.com/QSong-github/HGGEP
关键点:
- 开发了一种新颖的基于组织学图像的基因预测模型,命名为 HGGEP。该模型展示了卓越的精度和强大的性能。
- 为了揭示图像中细胞形态与基因表达之间的复杂关系,我们提出了一个梯度增强模块,有效地提高了模型对图像中细胞形态的感知能力。
- HGGEP 包含一个超图模块,该模块能够有效地建模多个潜在阶段中特征之间的高阶关联,从而显著提升了模型的性能。
摘要:
空间转录组学揭示了复杂组织中基因的空间分布,为生物过程、疾病机制和药物开发提供了重要见解。基于成本效益高的组织学图像预测基因表达是一个有前景但具有挑战性的研究领域。现有的基因预测方法存在两个主要局限性。首先,它们忽略了细胞形态信息与基因表达之间的复杂关系。其次,这些方法没有充分利用从图像中提取的不同潜在阶段的特征。为了解决这些局限性,我们提出了一种新颖的超图神经网络模型 HGGEP,用于从组织学图像预测基因表达。HGGEP 包括一个梯度增强模块,以增强模型对细胞形态信息的感知。一个轻量级的骨干网络从图像中提取多个潜在阶段的特征,随后通过注意力机制细化每个潜在阶段特征的表示,并捕捉它们与附近特征的关系。为了探索多个潜在阶段特征之间的高阶关联,我们将它们堆叠并输入超图,以建立不同尺度特征之间的关联。在包括癌症和肿瘤疾病在内的多个疾病样本数据集上的实验结果表明,我们的 HGGEP 模型比现有方法具有更优越的性能。
模型框架:
图 1. HGGEP 模型概述。该模型由三个关键组件组成:GEM,用于捕捉细胞形态与基因表达之间的复杂关系;CBAM 和视觉变换器模块,用于在每个潜在阶段提取内部特征;以及超图关联模块(HAM),专注于揭示多个潜在阶段特征之间的高阶关联。
引言:
不同类型的细胞在组织内以空间和结构上的复杂方式排列,以履行其特定功能。揭示异质组织内复杂的空间结构和细胞活动,对于理解与疾病相关的细胞机制和功能具有重要意义。空间转录组学(ST)作为一种先进技术,可以用来阐明基因在组织和点水平上的空间分布。这项技术显著推进了我们对生物过程中的基因表达的理解,在探索疾病机制和揭示新药靶点方面发挥了关键作用。ST 技术的快速进步使得基因表达、细胞或点位置以及相应的组织学图像的同时分析成为可能。目前,许多研究人员积极从事相关研究,涵盖空间域识别、空间转录组学去卷积和空间细胞相互作用推断等领域。
然而,获取空间转录组学数据的高昂成本限制了对 ST 技术研究的广泛追求。相比之下,各种疾病组织的组织学图像更易获取。最近,研究人员将重点转向从全切片图像(WSI)数据预测基因表达。一些方法,如 ST-Net、HisToGene、Hist2ST、DeepPT、BLEEP 和 THItoGene,已经出现用于此目的。最初,ST-Net 开创性地使用深度学习技术从 WSI 预测空间基因表达,取得了可喜的成果。HisToGene 和 Hist2ST 通过结合变换器模型来捕捉 WSI 中不同点的图像特征的全局关联,从而提高了预测性能。同时,Hist2ST 利用图神经网络增强点之间图像特征的局部关联。最近,THItoGene 进一步采用图注意力网络来探索基因表达与空间位置之间的相关性。与上述直接从图像到基因表达的预测方法不同,BLEEP 使用对比学习方法将图像与基因表达对齐。值得一提的是,Adam 等人在当前领域进行了全面的基准测试。他们提供了多种指标来全面评估各种模型,包括预测基因表达的性能、模型的普适性、转化潜力、可用性和每种方法的计算效率。
尽管上述工作取得了显著进展,但它们都忽略了一些重要方面。例如,ST-Net 忽略了点的位置信息,并且没有探索多个点之间的相关性。HisToGene 直接将图像块输入 ViT,导致了显著的信息丢失。Hist2ST 和 THItoGene 分别使用图神经网络和图注意力网络来建模全局特征中的点邻域关系,但它们忽略了空间上距离较远但密切相关的点之间的关联。总体而言,这些现有方法仍然面临两个主要局限性:(1)它们忽略了细胞形态信息与基因表达之间的复杂关系;(2)对基于图像的多潜在阶段特征利用不足,并且忽视了这些特征之间的高阶关联。为了更直观地比较现有模型,我们在表 1 中总结了它们的特征。
关于第一个局限性,现有基于传统卷积的方法主要集中在语义信息,即图像中的像素值。它们没有充分考虑当前位置与其邻近位置之间的梯度关系,这导致模型难以感知与基因表达相关的细胞形态信息。为了解决这一局限性,我们的 HGGEP 模型包括梯度增强模块,以优化提取的成像特征并生成具有显著细胞形态信息的潜在特征图。
针对第二个局限性并增强 WSI 内多个潜在阶段特征的利用,我们的 HGGEP 模型采用了两步策略。具体而言,HGGEP 首先通过轻量级骨干网络从 WSI 中提取多个潜在特征,然后使用注意力机制细化每个潜在阶段特征的表示。为了探索多个潜在阶段特征之间的高阶关联,我们创新性地引入了基于多种度量的超图关联模块。与传统图神经网络相比,超图可以通过单个超边连接多个节点,从而有效地联合表示和建模特征之间的高阶关联。
总的来说,我们提出了一种新颖的 HGGEP 模型,克服了现有的挑战,并在组织学图像的基因表达预测中取得了优越的性能。
结果展示:
Figure 2. Benchmark of the gene expression prediction performance. Comparison results between our HGGEP model and existing methods on the (A) HER2+ datasets and (B) and cSCC datasets.
Figure 3. Benchmark of the gene expression prediction performance based on SSIM and RMSE. Comparison results between our HGGEP model and existing methods for SSIM (A) and RMSE (B) on the HER2+ datasets. Among them, a higher SSIM and a lower RMSE indicate better model performance.
Figure 5. Visualization of predicted genes. The top predicted genes across all tissue sections by HisToGene in the HER2+ dataset, where the p-value for each tissue section was obtained in the association test between the predicted and observed gene expression.
Figure 6. Spatial domain detection based on predicted gene expressions. The first column presents the observed gene expression clustering results, while the last three columns show the clustering outcomes for gene expression as predicted by different methods (HGGEP, Hist2ST and HisToGene).
CODE AVAILABILITY
All source codes and trained models in our experiments have been deposited at https://github.com/QSong-github/HGGEP.
DATA AVAILABILITY
The spatial transcriptomics datasets used in this study include the (1) HER2-positive breast tumor ST datasets, which are available at https://github.com/almaan/her2st/; (2) 10x Visium data of human cutaneous squamous cell carcinoma are publicly available in the Gene Expression Omnibus (GEO) (GSE144240).