水平直逼高级病理学家!清华团队提出AI基础模型ROAM,实现胶质瘤精准诊断

news2025/1/9 14:36:48

胶质瘤是一种源自脑内神经胶质细胞的肿瘤,占据所有原发性中枢神经系统肿瘤的 40%~60%,并以成年人最常见的颅内原发性肿瘤而闻名。胶质瘤的组织病理分类非常复杂,通常分为三种亚型:星形细胞瘤、少突胶质细胞瘤和室管膜瘤,每种亚型又可进一步分为若干级别。因此,准确的分类和分级对胶质瘤的预后评估和治疗方案至关重要。

胶质瘤的诊断通常由经验丰富的病理学家通过观察组织切片完成,然而,这种方式存在病理学家稀缺、诊断具有主观性以及诊断过程耗时等挑战,难以满足当前胶质瘤的诊断需求。

数字病理学和机器学习的最新进展使组织学切片的数字化成为可能,这些切片被转换为千兆像素的全切片图像 (WSI),其中包含丰富的上下文数据,在诊断、预后和分子特征分析方面具有巨大的潜力。然而,这些方法仅分析由病理学家选定的病理图像中的感兴趣区域 (ROI),无法实现整个切片的自动化分析。

在此背景下,清华大学自动化系生命基础模型实验室闾海荣副研究员、江瑞教授、张学工教授与中南大学湘雅医院胡忠良教授合作, 提出了一种基于大区域兴趣 (large regions of interest) 和金字塔 Transformer (pyramid transformer) 的精准病理诊断 AI 基础模型 ROAM,用于胶质瘤的临床级诊断和分子标志物发现,并可拓展到其他类型肿瘤的病理诊断。

相关研究成果以「A transformer-based weakly supervised computational pathology method for clinical-grade diagnosis and molecular marker discovery of gliomas」为题发表于 Nature Machine Intelligence。

ROAM 能够从病理图像中有效提取丰富的多尺度信息,实现了对胶质瘤肿瘤检测、亚型分类/分级和分子特征预测等多种分类任务的准确诊断。 在内部数据上,ROAM 的诊断性能卓越,能够自动捕获与病理学家经验一致的关键形态特征,为胶质瘤提供准确、可靠和适应性强的临床级诊断。

此外,ROAM 还能推广到独立的外部数据,具有出色的泛化能力。通过可视化和解释诊断,ROAM 能够帮助病理学家验证模型诊断基础的可靠性,提取有价值的信息,并促进辅助诊断,提高医疗水平。最重要的是,ROAM 有助于发现分子和形态学生物标志物,为胶质瘤的诊断和治疗提供新的见解。

研究亮点:

  • ROAM 通过大尺寸图像块和多尺度特征学习模块,实现了全切片组织病理图像视觉表征的高效提取

  • ROAM 能推广到独立的外部数据,具有出色的泛化能力

  • ROAM 有助于发现分子和形态学生物标志物,为胶质瘤的诊断和治疗提供新的见解

在这里插入图片描述

论文地址:
https://www.nature.com/articles/s42256-024-00868-w

数据集下载:

https://go.hyper.ai/r7CyI

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:两大数字组织病理切片数据集

本研究收集了 2 个大规模的数字组织病理切片 (WSI) 数据集用于胶质瘤的研究。

1. 湘雅胶质瘤 WSI 数据集

该数据集来自中南大学湘雅医院的胶质瘤切片, 如下图所示,包含 1,109 个在相同数量的不同病例中均以 ×40 放大处理的 WSI,涵盖了胶质瘤检测、亚型分类、分级和分子特征预测等诊断任务,且每种病例采集的切片数量相同。

在这里插入图片描述

湘雅胶质瘤 WSI 数据集信息

数据集仅包含切片级标注,这些标注指示了 530 例星形胶质瘤、224 例寡突胶质瘤和 213 例室管膜瘤的亚型和分级。此外,对 634 例 IDH 突变病例和 641 例 MGMT 启动子甲基化病例进行了分子检测。

数据集被随机分为两个部分: 一个包含 736 个 WSI 的内部训练数据集,用于模型训练;另一个包含 373 个 WSI 的内部测试数据集,用于模型评估和医生相关实验。两个数据集中的类别比例与整个数据集相同。

2. TCGA 胶质瘤 WSI 数据集

另一个胶质瘤的组织病理 WSI 数据集来自脑低级别胶质瘤和胶质母细胞瘤项目。 共有 860 个胶质母细胞瘤切片 (来自 389 例病例) 和 844 个脑低级别胶质瘤切片 (来自 491 例病例),诊断标准与湘雅数据集使用的标准不同,所以仅保留了数据中的切片级标注,并邀请了参与湘雅数据集标注的两位病理学家,根据 2016 年版的诊断指南对这些切片的诊断结果进行审核和修订。

最终,经过审核的数据集包括 618 个放大倍数为 ×40 和 ×20 的 WSI,涵盖与湘雅数据集一致的 4 个任务。该数据集作为胶质瘤亚型分类、分级和分子特征预测的外部测试数据集。

模型架构:基于大区域兴趣和金字塔 Transformer

ROAM 是一种弱监督计算病理学方法,该方法以多示例学习为基本框架,以大尺寸组织图像块为基本研究单元,并采用金字塔 Transformer 来系统地学习每个组织图块的尺度内和尺度间的相关性特征,从而实现对全组织切片图像视觉表征的有效提取。

首先, ROAM 对每张全切片图像进行组织分割,并从中提取大尺寸的组织图像块 (2048×2048) 作为后续分析的基本单元,即 ROI,如下图 WSI patching 所示:

在这里插入图片描述

ROAM 基本框架

其次, 对每个 ROI 进行 2 次连续的降采样 (Downsample),生成 3 个不同放大倍数的图像。每个图像随后被分割成小的图像块,这些图像块通过预训练的卷积神经网络进行编码,提取其视觉表征,这些表征作为 MIL 模型的输入,如下图 b 左侧实例特征提取 (instance feature extraction) 所示;使用多尺度自注意力 (SA) 模块和注意力网络,生成实例级表示,并将这些信息聚合为切片级表征,如下图 b 右侧多尺度特征提取 (multiscale feature extraction) 所示。

在这里插入图片描述

实例特征提取和多尺度特征提取

最后, 如下图 c 实例特征聚合(instance feature aggregation)所示,两种不同类型的 SA 模块利用金字塔 transformer 架构,逐步从高放大倍数到低放大倍数融合多尺度特征,得到组织图块的多尺度视觉表征。尺度内 SA 模块和尺度间 SA 模块分别学习 ROI 的尺度内和尺度间相关特征,两种模块都包含若干个多头 SA 层和前馈层。

在这里插入图片描述

实例特征聚合

研究结果:ROAM 实现胶质瘤精准诊断

ROAM 实现了胶质瘤的精准诊断

研究人员在内部数据集和 TCGA 外部数据集上评估了 ROAM 的分类表现。

如下图 a 所示,ROAM 优于包括 CLAM、TransMIL、GTP、TEA-graph、H(2)MIL 在内的 5 种方法,在内部数据集胶质瘤诊断相关的任务上均优于其他基线方法。在正常、胶质增生和肿瘤的 3 类胶质瘤检测中,ROAM 的宏平均一对一 ROC 曲线下面积 (AUC) 为 0.990±0.002。

在这里插入图片描述

胶质瘤分型

对于星形细胞瘤、少突胶质瘤和室管膜瘤的 3 类胶质瘤亚型分类,ROAM 的 AUC 为 0.950±0.003,如下图 b 所示。

在这里插入图片描述

星形细胞瘤分级

在这些胶质瘤诊断任务中,ROAM 在所有基线方法中都取得了最高的 AUC,证明了 ROAM 模型在胶质瘤诊断中的有效性和高性能。

同时,ROAM 也具有良好的泛化性, 仅使用内部数据集进行训练并在外部 TCGA 数据集上测试,ROAM 的总体表现仍然优于其他基线方法。此外,ROAM 预测的可视化结果也表明该方法总结的诊断依据与临床诊断标准非常一致。

ROAM 显著推进了胶质瘤的临床辅助诊断

研究人员对 ROAM 进行了临床级的综合评估, 并研究了 ROAM 在胶质瘤辅助诊断中的表现:邀请了 3 组共 5 名病理学家参与研究,其中一组为临床经验不足 5 年的初级病理学家,两组为具有 5 到 15 年临床经验的中级病理学家,另两组为具有超过 15 年临床经验的高级病理学家。

如下图,研究提出的系统在胶质瘤级联诊断的 5 个任务上表现出色,优于 5 名病理学家中的 4 名,并且与表现最好的高级病理学家 (高级 1) 结果相当。具体而言,在胶质瘤检测方面,新系统显著优于所有病理学家, 包括表现最好的病理学家,超出 21.30%,如下图 f 所示。

在这里插入图片描述

人机对比结果

随后,研究人员要求 3 位初级和中级病理学家在 ROAM 的辅助下进行诊断,以调查他们的诊断性能是否有所提高。结果显示,在 ROAM 的帮助下,3 位病理学家的诊断准确性在所有任务中分别平均提高了 7.27% (初级 1)、12.87% (中级 1) 和 9.96% (中级 2)——这体现了 ROAM 的巨大临床应用价值。

ROAM 促进了胶质瘤分子形态标记物的发现

研究人员借助 ROAM 探究了与胶质瘤诊断相关的关键分子特征的形态学表现,关注到 ROAM 在预测异柠檬酸脱氢酶 (IDH) 突变的分子特征任务上表现优异,对 ROAM 在该任务中的预测结果进行了完整的可视化分析,并对 ROAM 关注的高注意力关键区域的组织形态特征进行分析和总结,发现在 IDH 突变的病理图像中普遍存在嗜酸性细胞增多、细胞质均匀和细胞核深染的现象。

在这里插入图片描述

基于弥漫性星形细胞瘤和少突胶质瘤对这些ROI的可视化揭示了具有IDH突变的胶质瘤中的独特特征

这一重要发现有利于医生在不借助分子检测的情况下作出初步的 IDH 状态的预测,对于胶质瘤临床诊断标准和优化和完善有显著的推进作用。

清华大学自动化系生命基础模型实验室持续推进 AI 赋能生命科学研究

在本论文中,清华大学闾海荣副研究员、张学工教授、中南大学湘雅医院胡忠良教授为通讯作者, 清华大学江瑞教授、硕士生尹小旭,中国移动研究院杨鹏帅,湘雅医院程灵超为论文共同第一作者,胡隽、杨娇、王颖、傅晓丹、商利、李丽玲、蔺薇、周欢参与了本研究的数据采集及标注,陈福沨及福州数据技术研究院提供了在线软件平台的研发支持。

作为本研究的主要贡献者之一,清华大学自动化系生命基础模型实验室不断致力于探索如何用先进的人工智能技术赋能生命科学研究。

今年 6 月,清华大学自动化系生命基础模型实验室主任张学工教授、电子系/AIR 马剑竹教授和百图生科宋乐博士合作,建立了一个名为 scFoundation 的细胞大模型。 该模型基于 5 千万个细胞的基因表达数据进行训练,拥有 1 亿参数,能够同时处理约 2 万个基因。作为基础模型,它在「虚拟药物试验」等多种生物医学下游任务中表现出卓越的性能提升,提供了人工智能在单细胞研究中的新范式。

研究成果以「Large-scale foundation model on single-cell transcriptomics」为题,发表于 Nature Methods上。点击查看完整报道:「1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模」

在这里插入图片描述

scFoundation 模型及下游应用场景

scFoundation 模型为生命科学基础研究、细胞扰动响应预测、药物靶点发现等领域提供了创新方法工具,并在模型架构、训练框架和下游示范应用体系等方面为细胞大模型研究提供了新的思路和方法,成功地拓展了单细胞领域基础模型的边界,为开展数基空间中的虚拟药物实验等未来研究奠定了基础。

面向未来,清华大学自动化系生命基础模型实验室将持续从事人工智能和生命科学交叉领域研究。随着 AI 技术的不断发展和完善,人工智能在生命科学领域的应用将极大地推动医疗技术的进步,提高诊断和治疗的精准性,降低医疗成本,并最终改善人类的健康和生活质量。

参考资料:
1.https://www.nature.com/articles/s42256-024-00868-w

2.https://mp.weixin.qq.com/s/oB3kTgcgObawPKU-75KsHQ

3.https://mp.weixin.qq.com/s/nflI4PVTJB3xVPXuA5zbZQ

召集令

HyperAI超神经 (hyper.ai) 是中国最⼤的数据科学领域搜索引擎,长期聚焦 AI for Science 最新研究成果,解读了百余篇顶级期刊学术论文。

欢迎正在围绕 AI for Science 开展研究探索的课题组、研究团队与我们联系,分享最新研究成果、投稿深度解读文章、参与 Meet AI4S 直播栏目,更多推广 AI4S 的方式等待我们共同探索!

添加微信:PH (微信号:G18539589505)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用go的tls库搭建客户端服务器加密通信

文章目录 使用OpenSSL生成证书Win系统安装openssl生成证书 非HTTP 直接tcp通信服务器代码客户端代码通信效果 使用OpenSSL生成证书 Win系统安装openssl 安装地址 https://slproweb.com/products/Win32OpenSSL.html设置环境变量 cmd命令检验 openssl version 生成证书 生成C…

2024.7.28 记录一次悲惨的笔试——作业帮NLP校招

小红的奇偶抽取 题目描述 题解 #include <iostream> #include<stack> using namespace std;int main() {long long n;stack <int> ji, ou;cin >> n;while (n) {int a n % 10;if (a % 2 0)ou.push(a);elseji.push(a);n n / 10;}long long jN 0, o…

Spring Cloud中怎么使用Resilience4j Retry对OpenFeign进行重试

在微服务架构中&#xff0c;服务之间的通信是非常频繁的。而使用OpenFeign可以极大简化微服务之间的HTTP通信。但在复杂的分布式系统中&#xff0c;服务之间的调用可能会因为网络问题、服务故障等原因而失败。因此&#xff0c;实现服务调用的重试机制显得尤为重要。Resilience4…

DDR3的使用(四)利用XILINX MIGIP核(native)读写DDR3—IP核信号分析

我们这一节继续结合仿真波形和逻辑分析仪测试波形来分析下MIGIP核的各个信号使用&#xff0c;这里主要说的是用户端的信号&#xff0c;这些信号直接与ip核进行交互&#xff0c;只有正确使用才能按我们的要求来读写数据。 1.我们先打开modelsim仿真软件&#xff0c;查看下examp…

机器学习笔记 - RAFT 光流简读

一、光流 光流是图像序列中像素的表观运动。为了估计光流,场景中物体的移动必须具有相应的亮度位移。这意味着一个图像中移动的红球在下一个图像中应该具有相同的亮度和颜色,这使我们能够确定它以像素为单位移动了多少。下图显示了光流示例,其中一系列图像捕获了逆时针旋转的…

使用 宝塔面板 部署 语料库php网站

【语料库网站】宝塔面板 在线部署全过程 代码仓库&#xff1a;https://github.com/talmudmaster/RedCorpus 网站介绍 语料库提供双语文本检索和分享功能。供英语、翻译相关专业的爱好者&#xff0c;学生和老师学习使用。 该网站是对BiCorpus开源项目的二次开发。 技术栈&am…

一文全面了解高性能计算平台是什么、怎么选型?高性能计算平台CHPC 都能做什么?

一. 概述 随着技术的发展和数据量的爆炸性增长&#xff0c;企业面临的挑战日益复杂&#xff0c;对计算能力的需求也在不断增加。这些问题的解决超出了传统计算方法的能力范围&#xff0c;高性能计算&#xff08;HPC&#xff09;正是为解决这类问题而生。 高性能计算&#xff…

怎么锁定Word文档格式,保护文档完整性

在日常工作和学习中&#xff0c;我们经常会使用Word文档来编辑和保存重要信息。然而&#xff0c;在文档被多人编辑或分享的过程中&#xff0c;格式的意外变动往往会给后续工作带来不必要的麻烦。为了确保文档的格式在编辑和分享过程中保持不变&#xff0c;我们可以采取一些措施…

2024还有跨境玩家没解锁代理IP+设备多开模式的强大吗?

大多数跨境电商平台对于IP地址、浏览器环境等限制严格。若同一台电脑在同一个跨境电商平台注册多个账号&#xff0c;很容易被官方封禁。如何在不触发官方封禁机制的前提下&#xff0c;安全高效地开展多账号运营策略&#xff0c;成为了众多跨境电商从业者亟待解决的问题。本文将…

jenkins集成jmeter

jenkins 安装插件HTML Publisher startup trigger Groovy 脚本介绍 cd /app/jmeter rm -rf result.jtl jmeter.log report mkdir -p report sh /app/jmeter/apache-jmeter-5.6.3/bin/jmeter.sh -n -t test.jmx -l result.jtl -e -o ./report-n: 表示以非 GUI 模式运行 JMete…

堆的创建和说明

文章目录 目录 文章目录 前言 小堆&#xff1a; 大堆&#xff1a; 二、使用步骤 1.创建二叉树 2.修改为堆 3.向上调整 结果实现 总结 前言 我们已经知道了二叉树的样子&#xff0c;但是一般的二叉树是没有什么意义的&#xff0c;所以我们会使用一些特殊的二叉树来进行实现&a…

齿轮端面重合度学习笔记分享

我们知道两个渐开线圆柱齿轮能够正确啮合&#xff0c;他们的基节相等是正常传动的必要但不处分条件。由于轮齿的高度有限&#xff0c;啮合的区间有限&#xff0c;齿轮能否连续传动还要看轮齿对能否及时接替&#xff0c;即前一对轮齿脱离啮合时&#xff0c;后一对轮齿是否已进入…

uniapp结合uview-ui创建项目关键步骤一步一图教程

文章目录 1 构建项目准备工作2 项目创建2.1 打开开发者工具HBuilderX2.2 创建一个新的项目2.3 引入uview-ui组件2.4 uview-ui组件配置2.4.1 uview-ui组件简单介绍2.4.2 修改main.js2.4.3 修改page.json2.4.4 修改App.vue2.4.5 修改uni.scss2.4.6 修改index.vue 2.5 api接口封装…

antv x6使用Vue+ElementPlus实现右键菜单

基于X6官方给出的React版的右键菜单示例&#xff0c;实现Vue版本的&#xff0c;其中右键菜单使用的是ElMenu的样式。 import { ToolsView } from antv/x6 import { h, render } from vue import { ElMenu, ElMenuItem } from element-plus export class ContextMenuTool exten…

公司的Spring框架接受MIME类型为json格式的带null的字符串,然后这个带null的字段被自动忽略了,排查了好久

接收方法&#xff1a; 解决方案&#xff1a; 先去掉RequsetBody 因为使用RequsetBody时&#xff0c;框架会调用HttpMessageConvert读取HttpRequest的InputStram反序列化为对象&#xff0c;这个InputStram只能读一次。 后续你的代码再通过Reader读输入流时&#xff0c;已经没有…

小米SU7对手来了,魅族汽车今年上市

新能源车市场竞争白热化的 2024 年&#xff0c;那些当初一股脑扎堆入场的各路新势力们&#xff0c;估计压根没想到造个车也能这么卷吧&#xff01; 还是那句话&#xff0c;当一个行业开始极度内卷&#xff0c;也就意味着已经到了整个淘汰赛最残酷的环节。 目前来说&#xff0…

相位相关法图像配准

小结&#xff1a;本文主要介绍基于相位相关法的图像配准。 1. 相位相关法 在时域中信号的平移运动可以通过在频域中相位的变化表现出来&#xff08;这是傅里叶变换的特性&#xff0c;见下图&#xff09;。平移不影响傅氏变换的幅值&#xff08;谱&#xff09;&#xff0c;对应…

利用人工智能ChatGPT自动生成基于PO的数据驱动测试框架

简介 PO&#xff08;PageObject&#xff09;设计模式将某个页面的所有元素对象定位和对元素对象的操作封装成一个 Page 类&#xff0c;并以页面为单位来写测试用例&#xff0c;实现页面对象和测试用例的分离。 数据驱动测试&#xff08;DDT&#xff09;是一种方法&#xff0c…

IOday5

一、思维导图 二、练习 使用两个线程完成两个文件的拷贝&#xff0c;分支线程1拷贝前一半&#xff0c;分支线程2拷贝后一半&#xff0c;主线程回收两个分支线程的资源 #include<myhead.h>//定义结构体存储需要传到线程函数中的内容 struct Buf {const char *file[2]; …