基于组织图像预测基因表达

news2025/1/11 13:03:38

论文:Gene Expression Prediction from Histology Images via Hypergraph Neural Networks

代码:https://github.com/QSong-github/HGGEP

关键点:

  1. 开发了一种新颖的基于组织学图像的基因预测模型,命名为 HGGEP。该模型展示了卓越的精度和强大的性能。
  2. 为了揭示图像中细胞形态与基因表达之间的复杂关系,我们提出了一个梯度增强模块,有效地提高了模型对图像中细胞形态的感知能力。
  3. HGGEP 包含一个超图模块,该模块能够有效地建模多个潜在阶段中特征之间的高阶关联,从而显著提升了模型的性能。

摘要:

空间转录组学揭示了复杂组织中基因的空间分布,为生物过程、疾病机制和药物开发提供了重要见解。基于成本效益高的组织学图像预测基因表达是一个有前景但具有挑战性的研究领域。现有的基因预测方法存在两个主要局限性。首先,它们忽略了细胞形态信息与基因表达之间的复杂关系。其次,这些方法没有充分利用从图像中提取的不同潜在阶段的特征。为了解决这些局限性,我们提出了一种新颖的超图神经网络模型 HGGEP,用于从组织学图像预测基因表达。HGGEP 包括一个梯度增强模块,以增强模型对细胞形态信息的感知。一个轻量级的骨干网络从图像中提取多个潜在阶段的特征,随后通过注意力机制细化每个潜在阶段特征的表示,并捕捉它们与附近特征的关系。为了探索多个潜在阶段特征之间的高阶关联,我们将它们堆叠并输入超图,以建立不同尺度特征之间的关联。在包括癌症和肿瘤疾病在内的多个疾病样本数据集上的实验结果表明,我们的 HGGEP 模型比现有方法具有更优越的性能。

模型框架:

图 1. HGGEP 模型概述。该模型由三个关键组件组成:GEM,用于捕捉细胞形态与基因表达之间的复杂关系;CBAM 和视觉变换器模块,用于在每个潜在阶段提取内部特征;以及超图关联模块(HAM),专注于揭示多个潜在阶段特征之间的高阶关联。

引言:

不同类型的细胞在组织内以空间和结构上的复杂方式排列,以履行其特定功能。揭示异质组织内复杂的空间结构和细胞活动,对于理解与疾病相关的细胞机制和功能具有重要意义。空间转录组学(ST)作为一种先进技术,可以用来阐明基因在组织和点水平上的空间分布。这项技术显著推进了我们对生物过程中的基因表达的理解,在探索疾病机制和揭示新药靶点方面发挥了关键作用。ST 技术的快速进步使得基因表达、细胞或点位置以及相应的组织学图像的同时分析成为可能。目前,许多研究人员积极从事相关研究,涵盖空间域识别、空间转录组学去卷积和空间细胞相互作用推断等领域。

然而,获取空间转录组学数据的高昂成本限制了对 ST 技术研究的广泛追求。相比之下,各种疾病组织的组织学图像更易获取。最近,研究人员将重点转向从全切片图像(WSI)数据预测基因表达。一些方法,如 ST-Net、HisToGene、Hist2ST、DeepPT、BLEEP 和 THItoGene,已经出现用于此目的。最初,ST-Net 开创性地使用深度学习技术从 WSI 预测空间基因表达,取得了可喜的成果。HisToGene 和 Hist2ST 通过结合变换器模型来捕捉 WSI 中不同点的图像特征的全局关联,从而提高了预测性能。同时,Hist2ST 利用图神经网络增强点之间图像特征的局部关联。最近,THItoGene 进一步采用图注意力网络来探索基因表达与空间位置之间的相关性。与上述直接从图像到基因表达的预测方法不同,BLEEP 使用对比学习方法将图像与基因表达对齐。值得一提的是,Adam 等人在当前领域进行了全面的基准测试。他们提供了多种指标来全面评估各种模型,包括预测基因表达的性能、模型的普适性、转化潜力、可用性和每种方法的计算效率。

尽管上述工作取得了显著进展,但它们都忽略了一些重要方面。例如,ST-Net 忽略了点的位置信息,并且没有探索多个点之间的相关性。HisToGene 直接将图像块输入 ViT,导致了显著的信息丢失。Hist2ST 和 THItoGene 分别使用图神经网络和图注意力网络来建模全局特征中的点邻域关系,但它们忽略了空间上距离较远但密切相关的点之间的关联。总体而言,这些现有方法仍然面临两个主要局限性:(1)它们忽略了细胞形态信息与基因表达之间的复杂关系;(2)对基于图像的多潜在阶段特征利用不足,并且忽视了这些特征之间的高阶关联。为了更直观地比较现有模型,我们在表 1 中总结了它们的特征。

关于第一个局限性,现有基于传统卷积的方法主要集中在语义信息,即图像中的像素值。它们没有充分考虑当前位置与其邻近位置之间的梯度关系,这导致模型难以感知与基因表达相关的细胞形态信息。为了解决这一局限性,我们的 HGGEP 模型包括梯度增强模块,以优化提取的成像特征并生成具有显著细胞形态信息的潜在特征图。

针对第二个局限性并增强 WSI 内多个潜在阶段特征的利用,我们的 HGGEP 模型采用了两步策略。具体而言,HGGEP 首先通过轻量级骨干网络从 WSI 中提取多个潜在特征,然后使用注意力机制细化每个潜在阶段特征的表示。为了探索多个潜在阶段特征之间的高阶关联,我们创新性地引入了基于多种度量的超图关联模块。与传统图神经网络相比,超图可以通过单个超边连接多个节点,从而有效地联合表示和建模特征之间的高阶关联。

总的来说,我们提出了一种新颖的 HGGEP 模型,克服了现有的挑战,并在组织学图像的基因表达预测中取得了优越的性能。

结果展示:

Figure 2. Benchmark of the gene expression prediction performance. Comparison results between our HGGEP model and existing methods on the (A) HER2+ datasets and (B) and cSCC datasets.

Figure 3. Benchmark of the gene expression prediction performance based on SSIM and RMSE. Comparison results between our HGGEP model and existing methods for SSIM (A) and RMSE (B) on the HER2+ datasets. Among them, a higher SSIM and a lower RMSE indicate better model performance.

Figure 5. Visualization of predicted genes. The top predicted genes across all tissue sections by HisToGene in the HER2+ dataset, where the p-value for each tissue section was obtained in the association test between the predicted and observed gene expression. 

Figure 6. Spatial domain detection based on predicted gene expressions. The first column presents the observed gene expression clustering results, while the last three columns show the clustering outcomes for gene expression as predicted by different methods (HGGEP, Hist2ST and HisToGene).

CODE AVAILABILITY

All source codes and trained models in our experiments have been deposited at https://github.com/QSong-github/HGGEP.

DATA AVAILABILITY

The spatial transcriptomics datasets used in this study include the (1) HER2-positive breast tumor ST datasets, which are available at https://github.com/almaan/her2st/; (2) 10x Visium data of human cutaneous squamous cell carcinoma are publicly available in the Gene Expression Omnibus (GEO) (GSE144240).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2117788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

emlogpro插件-优雅的时间进度侧边栏小工具插件

插件介绍 最早是在wordpress建站看见的,一款非常优雅的时间进度小工具,为了方便emlog使用,集成了一个插件。 使用步骤 已经熟悉使用emlog的可以略过了 下载插件,后台激活使用 进入插件的设置页面可以进行这个时间进度小工具的…

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问…

Java笔试面试题AI答之单元测试JUnit(3)

文章目录 13. 什么是注释以及它们如何在JUnit中有用?什么是注释(Annotation)?注释在JUnit中的用途 14. 解释如何测试”受保护”方法?1. 使用子类2. 同一包内直接测试3. 反射(在支持的语言中)4. …

解决移动端1px 边框优化的8个方法

前言 您是否注意到 1px 边框在移动设备上有时会显得比预期的要粗?这种不一致源于移动屏幕的像素密度不同。 在 Web 开发中,我们使用 CSS 来设置页面样式。但是,CSS 中的 1px 并不总是转换为设备上的物理 1px。这种差异就是我们的“1px 边框…

uniapp对tabbar封装,简单好用

第一种&#xff0c;效果展示 上代码&#xff0c;新建一个公用组件&#xff0c;tabbar.vue <template><view class"tabbar"><view class"tabbar-item" click"tabbarbtn(0)"><image class"item-image" v-if"…

什么是机器学习中的 Bagging?带有示例的指南

文章目录 一、说明二、理解集成学习2.1 什么是 Bagging&#xff1f;2.2 Bagging 与 Boosting2.3 套袋的优点 三、Python 中的 Bagging&#xff1a;简短教程3.1 数据集3.2 训练机器学习模型3.3 模型评估 四、装袋分类器4.1 评估集成模型4.2 最佳实践和技巧 五、结论 ​ 一、说明…

systrace/perfetto第三方app的Trace.beginSection方法无效问题和TAG开放剖析

背景 针对程序如何在自己的代码中加入相关的trace方法和TAG来方便在systrace/perfetto中进行查看&#xff0c;下面这篇文章已经进行了详细的讲解&#xff1a; systrace/perfetto中需要actrace打tag相关方法-车载车机framework系统开发实战 有针对native的c代码&#xff0c;也…

Java面试题总结-基础和框架-面试题一

1、TCP和UDP tcp 和 udp 是 OSI 模型中的运输层中的协议。tcp 提供可靠的通信传输&#xff0c;而 udp 则常被用于让广播和细节控制交给应用的通信传输。 两者的区别大致如下&#xff1a; tcp 面向连接&#xff0c;udp 面向非连接即发送数据前不需要建立链接&#xff1b;tcp …

MQ-135空气质量传感器(STM32)

目录 一、介绍 二、传感器原理 1.原理图 2.引脚描述 3.工作原理介绍 三、程序设计 main.c文件 mq135.h文件 mq135.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 MQ-135空气质量传感器属于MQ系列气体传感器&#xff0c;广泛用于检测有害气体、新鲜空气中的烟…

Vmware 傻瓜式安装( Linux 网络操作系统 01)

一、下载VMware虚拟机安装包 虚拟机下载链接&#xff1a;https://share.weiyun.com/4haPul0y ​ 二、安装 点击安装文件 ​ 点击下一步&#xff0c;勾选“我接受...条款"&#xff0c;继续点击下一步 修改更改安装位置&#xff0c;尽量不要安装到系统C盘&#xff1a; …

爆刷!LLM入门必备吴恩达新书-《面向开发者的LLM入门课程》

吴恩达联合OpenAI推出LLM现象级课程&#xff01;|||绝了||重磅首发&#x1f525; 1、LLM入门必看课程-吴恩达373 PDF||!适用于所有具备基础 Python 能力&#xff0c;想要入门 LLM 的学习者 2、由吴恩达老师与 OpenAI 联合推出的官方教程&#xff0c;面向入门 LLM 的开发者&…

[Linux入门]---进程替换

文章目录 1.进程替换原理2.进程替换函数2.1execl函数2.2execlp函数2.3execv函数2.4execvp函数2.5execle函数2.6execve函数2.7跨语言调用程序 3.总结 1.进程替换原理 一个程序替换的函数&#xff1a; #include <unistd.h> int execl(const char *path, const char *arg,…

Linux下的系统接口(实时更新)

文件操作 open pathname:路径 flags&#xff1a;文件的打开方式 mode&#xff1a;文件的权限 返回值 打开成功返回值该文件的文件描述符&#xff0c;打开失败返回-1。 write fd : 文件描述符 buf : 指向用于存储写入数据的缓冲区的指针 count : 写入字节的最大个数 返回…

7系列FPGA HR/HP I/O区别

HR High Range I/O with support for I/O voltage from 1.2V to 3.3V. HP High Performance I/O with support for I/O voltage from 1.2V to 1.8V. UG865&#xff1a;Zynq-7000 All Programmable SoC Packaging and Pinout

Jmeter之beanshell使用

beanshell&#xff1a;和setup类似&#xff0c;登录前需要做的工作&#xff0c;是一种java源代码解释器&#xff0c;具有脚本语言的特性 使用beanshell可以使jmeter实现更多的业务需求 beanshell常用语法 vars.get() 从jmeter中获得变量 vars.put() 把数据保存为jmeter的变量…

Access用了20年杀死VF,等来的却是:国产新型软件反杀

现如今&#xff0c;使用Access数据库的人可能不多了。 Access数据库 在早些年的时候&#xff0c;微软旗下有两个广为人知的桌面数据库开发工具。 一款是自家研发的Microsoft ACCESS&#xff0c;它依托Windows操作系统&#xff0c;并内嵌于Microsoft Office之中&#xff0c;深受…

2024下《系统规划与管理师》50个高频考点汇总!背就有效

今年高项仅考上半年一次&#xff0c;下半年考的高级科目只有系规难度相对较低&#xff0c;系规需要学习的内容比高项少很多&#xff0c;高项第四版教程731页&#xff0c;系规只有328页&#xff0c;少了一半多。并且系规IT内容会更少&#xff0c;考试内容大多在书上&#xff0c;…

接口幂等的方案

一、什么是幂等 幂等指多次操作产生的影响只会跟一次执行的结果相同&#xff0c;通俗的说&#xff1a;某个行为重复的执行&#xff0c;最终获取的结果是相同的。 二、什么是接口幂等 同一个接口&#xff0c;对于同一个请求&#xff0c;不管调用多少次&#xff0c;产生的最终…

除了C盘其它盘都不见了?专业数据恢复策略解析

在数字时代&#xff0c;数据几乎成为了我们生活与工作的核心。然而&#xff0c;当电脑突然遭遇“除了C盘其它盘都不见了”的困境时&#xff0c;无疑是对我们数据安全的一次重大挑战。面对这样的紧急情况&#xff0c;如何迅速、有效地恢复丢失的数据&#xff0c;成为了许多用户迫…

苹果被删视频怎么恢复?分享4个靠谱的方法

平时过年过节的时候&#xff0c;亲戚家的小孩总会拿你的手机乱点一通&#xff0c;有时可能会不小心点进手机相册里面&#xff0c;误删了相册里的视频。如果苹果用户遇到这种情况&#xff0c;那该如何恢复苹果被删视频呢&#xff1f;不要慌张&#xff0c;既然你点开了这篇文章&a…