Nature Medicine病理AI汇总|TORCH:预测未知原发部位癌症的肿瘤起源|顶刊精析·24-11-01

news2024/11/23 7:15:18

小罗碎碎念

今天分析Nature Medicine病理AI系列的第三篇文章——《Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning》

文章标题及发表时间

这篇文章报道了一种基于细胞学图像的深度学习方法TORCH,用于预测未知原发部位癌症的肿瘤起源,并在多个测试集上显示出高准确性。

https://doi.org/10.1038/s41591-024-02915-w

作者角色作者姓名单位名称(中文)
第一作者Fei Tian天津医科大学肿瘤医院,天津医科大学消化肿瘤临床研究中心,国家癌症临床医学研究中心,天津,中国
通讯作者Wencai Li同上
通讯作者Kexin Chen同上
通讯作者Xiangchun Li同上

研究团队开发了一种基于深度学习的名为TORCH的方法,用于区分未知原发部位的癌症(CUP)的肿瘤起源。

CUP是一种难以诊断的疾病,因为它的原发肿瘤位置难以确定。该研究利用了来自四个三级医院的57,220个病例的细胞学图像,训练了一个能够识别恶性肿瘤并预测肿瘤起源的深度学习模型,无论是在胸腔积液还是腹水中。

研究结果显示,TORCH在内部和外部测试集上的表现都非常出色,癌症诊断的接收者操作特征曲线下面积(AUROC)值在0.953到0.991之间,肿瘤起源定位的AUROC值在0.953到0.979之间。TORCH在预测原发肿瘤起源方面表现出色,top-1准确率为82.6%,top-3准确率为98.9%。

与病理学家的结果相比,TORCH显示出更好的预测效果,显著提高了初级病理学家的诊断分数。此外,与TORCH预测起源一致的CUP患者的初始治疗方案与更好的总体生存率相关(27个月对比17个月,P=0.006)。

研究强调了TORCH作为临床实践中有价值的辅助工具的潜力,尽管需要在随机试验中进一步验证。这项研究为CUP的诊断和治疗提供了新的视角,并展示了人工智能在病理诊断中的潜力。


一、训练集和测试集的基线特征

该研究涉及57,220个样本,分为训练集、内部测试集和外部测试集。

表1

以下是对表格中数据的详细分析:

1-1:总体分布(Overall)

  • 性别:男性占45.1%,女性占54.9%。
  • 年龄:平均年龄为59.13岁,标准差为14.21岁。
  • 年龄组:49.1%的样本年龄小于或等于60岁,50.9%的样本年龄大于60岁。
  • 原发肿瘤部位:消化系统肿瘤占9.9%,女性生殖系统肿瘤占21.6%,呼吸系统肿瘤占29.8%,血液和淋巴系统肿瘤占1.8%,良性肿瘤占36.9%。
  • 胸腔积液:62.7%的样本有胸腔积液。
  • 腹水:37.3%的样本有腹水。
  • 癌症类型:56.7%的样本为癌症,其中80.9%为Tianjin地区,36.0%为Zhengzhou地区,58.5%为Suzhou地区。腺癌占47.2%,鳞状细胞癌占0.6%,其他癌症类型占2.7%,未分类癌症占6.2%。
  • 确定性病例:75.0%的病例为高确定性病例,25.0%为低确定性病例。

1-2:训练集(Training sets)

  • Tianjin:男性占32.8%,平均年龄58.23岁。消化系统肿瘤占15.3%,女性生殖系统肿瘤占39.7%,呼吸系统肿瘤占33.0%。80.9%的癌症为腺癌。
  • Zhengzhou:男性占50.4%,平均年龄57.17岁。消化系统肿瘤占7.8%,女性生殖系统肿瘤占12.1%,呼吸系统肿瘤占25.7%。29.3%的癌症为腺癌。
  • Suzhou:男性占52.3%,平均年龄63.02岁。消化系统肿瘤占12.1%,女性生殖系统肿瘤占13.5%,呼吸系统肿瘤占39.1%。47.9%的癌症为腺癌。

1-3:内部测试集(Internal testing sets)

  • Tianjin:男性占32.7%,平均年龄58.25岁。消化系统肿瘤占14.1%,女性生殖系统肿瘤占39.7%,呼吸系统肿瘤占34.2%。87.7%的癌症为腺癌。
  • Zhengzhou:男性占49.9%,平均年龄57.15岁。消化系统肿瘤占8.7%,女性生殖系统肿瘤占12.4%,呼吸系统肿瘤占25.5%。46.5%的癌症为腺癌。
  • Suzhou:男性占51.9%,平均年龄63.57岁。消化系统肿瘤占11.3%,女性生殖系统肿瘤占13.9%,呼吸系统肿瘤占40.3%。65.0%的癌症为腺癌。

1-4:外部测试集(External testing sets)

  • Tianjin-P:男性占45.6%,平均年龄60.27岁。消化系统肿瘤占8.0%,女性生殖系统肿瘤占22.6%,呼吸系统肿瘤占28.9%。59.4%的癌症为腺癌。
  • Yantai:男性占46.0%,平均年龄60.73岁。消化系统肿瘤占6.2%,女性生殖系统肿瘤占21.5%,呼吸系统肿瘤占26.6%。52.6%的癌症为腺癌。

注意

  • 表格底部的注释解释了“其他类型”主要包括哪些癌症类型,以及“未分类癌症”的含义。
  • Tianjin-P代表Tianjin的外部测试集,并且是前瞻性招募的。

二、TORCH模型框架

这张图展示了一个医学研究或临床试验的流程,从数据收集到模型训练,再到测试的过程。

共有42,682个病例来自三个大型三级转诊机构,其中70%(n = 29,883)被用作训练集

  1. 数据收集(Three medical centers n = 29,883 training sets)

    • 研究开始于三个医疗中心,共收集了29,883个训练集数据。
    • 临床病理数据来自放射影像科、医疗记录系统和病理数字数据库。
  2. 临床数据过滤(Clinical data filtration)

    • 收集到的数据需要经过过滤,以确保数据的质量和相关性。
    • 过滤过程包括去除不完整或不准确的数据,以及选择与研究目标最相关的数据。
  3. 模型训练(Iterative training)

    • 过滤后的数据用于训练模型。
    • 模型训练是一个迭代过程,涉及多次调整和优化模型参数,以提高其预测准确性。
    • 图中显示了一个模型分类的概率分布图,这表示模型在训练过程中对不同类别的预测概率。
  4. 模型测试(Four medical centers n = 27,337 testing sets)

    • 训练好的模型在四个医疗中心的27,337个测试集上进行评估。
    • 测试集是独立于训练集的数据,用于验证模型的泛化能力,即模型在新数据上的表现。

这个流程图展示了一个典型的机器学习在医疗领域的应用过程,从数据的收集和预处理,到模型的训练和测试,每一步都是确保模型能够有效、准确地应用于临床实践的关键。通过在多个医疗中心进行测试,可以增加模型结果的可靠性和普适性。


在诊断过程中,大多数图像被放大了×200或×400倍。

就是常规意义的20X和40X


这张图展示了一个使用深度神经网络对病理切片进行分析和分类的过程。

通过细胞学图像训练的深度学习网络旨在根据最高的预测概率得分将目标图像分为五个类别。

以下是对每个步骤的详细分析:

  1. 深度神经网络处理

    • 中间的部分展示了深度神经网络的结构,它由多个层组成,包括输入层、隐藏层和输出层。
    • 网络通过学习病理切片图像的特征来进行分类。每个节点代表一个神经元,它们通过权重连接,这些权重在训练过程中不断调整以优化分类性能。
  2. 概率输出

    • 深度神经网络处理后,输出每个类别的概率。在这个例子中,类别包括良性、消化系统、呼吸系统、女性生殖系统和血液淋巴系统。
    • 概率图显示了模型对每个类别的预测置信度。
  3. 排名

    • 根据输出的概率,模型对可能的诊断进行排名。
    • 排名最高的类别被认为是最可能的诊断。在这个例子中,消化系统被预测为最可能的类别(Top-1),其次是呼吸系统(Top-2),依此类推。

这个过程展示了深度学习在病理诊断中的应用,通过自动化的方式提高诊断的效率和准确性。深度神经网络能够从大量的病理图像中学习复杂的特征,从而帮助病理学家做出更准确的诊断。


三、开发和评估TORCH模型的流程

这张图展示了一个肿瘤起源预测模型的开发和测试流程,分为三个主要部分:训练集和模型开发、测试集以及模型的可解释性分析。

image-20241101093014442

3-1:训练集和模型开发

  1. 数据来源

    • 病理影像数据来自TCGA(The Cancer Genome Atlas),涵盖32个器官或系统,包括11,607个个体,1360,892张图像,20种治疗方式。
    • 细胞学影像数据来自四家医院,时间跨度为2010年6月至2023年10月,共57,220例胸腔积液和腹水病例。
  2. 数据分类

    • 数据被分为良性(21,112例)和恶性(36,108例,分为四个类别)。
  3. 训练集构建

    • 训练集包含29,883例,其中胸腔积液18,981例,腹水10,902例。
    • 通过迭代训练,使用深度卷积神经网络(DCNN)模型进行五种亚型的分类。
  4. 模型目标

    • 模型的目标是预测肿瘤的起源。

3-2:测试集

  1. 测试集构建

    • 总测试集包含27,337例,其中10,635例为良性病例,16,702例为恶性病例。
    • 内部测试集包括Tianjin的4,186例,Zhengzhou的6,234例,Suzhou的2,379例。
    • 外部测试集包括Tianjin-P的3,933例,Yantai的10,605例。
  2. 验证方法

    • 通过常规病理学检查验证。

3-3:模型的可解释性分析

  1. 随机选择

    • 从测试集中随机选择495例,由高级病理学家和初级病理学家进行分析。
  2. AI辅助

    • 另外496例由初级病理学家在AI辅助下进行分析。
  3. 模型可解释性

    • 通过1,351例进行模型的可解释性分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2231163.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu 安装CUDA, cuDNN, TensorRT(草稿)

文章目录 写在前面一、CUDA, cuDNN, TensorRT 三个库的版本的确定二、解决方法参考链接 写在前面 自己的测试环境: Ubuntu20.04, 本文安装的版本: cuda_11.1.0;cuDNN-8.2.1;TensorRT-8.2.4.2 一、CUDA, cuDNN, TensorRT 三个库…

豆包,攻克数字是个什么工具?《GKData-挖掘数据的无限可能》(数据爬虫采集工具)

豆包,攻克数字是个什么工具? “攻克数字” 指的是 “攻克数字(GKData)” 这样一款工具。是一款针对网页、APP中数据自动解析转表存入数据库的软件,为数据工作者而生。它是一个不会编程也能用的可视化数据解析为标准二…

rust编写的系统监测器

系统监测器 技术栈 rusttaurivue3vue-echartsrsbuild 软件介绍 用于查看电脑的硬件信息,实时监测cpu,内存,硬盘,网络,进程等系统资源 图形化,动态化展示,美观实用 软件截图 下载 https:/…

实体类中为什么要实现serializable接口

最近见到好多项目中写的代码,在实体类中实现了Serializable接口。说实话:这个在以前学习的时候,貌似学过,但是一直没有用过,所以看着一脸懵逼,但是别人总不可能随便写的吧.....所以就去查了一下这个接口。 …

github打不开网络问题

当打开github出现超时或者网络不能访问的情况时,我们进行如下方法解决: 1,ping gitbub.com查看域名分析的DNS IP C:\Users\86156>ping github.com 正在 Ping github.com [20.205.243.166] 具有 32 字节的数据: 来自 20.205.243.166 的回复…

基于NVIDIA NIM平台实现盲人过马路的demo(一)

前言:利用NVIDIA NIM平台提供的大模型进行编辑,通过llama-3.2-90b-vision-instruct模型进行初步的图片检测 step1: 部署大模型到本地,引用所需要的库 import os import requests import base64 import cv2 import time from datetime import datetimestep2: 观看官方使用文…

Java日志脱敏(二)——fastjson Filter + 注解 + 工具类实现

背景简介 日志脱敏 是常见的安全需求,最近公司也需要将这一块内容进行推进。看了一圈网上的案例,很少有既轻量又好用的轮子可以让我直接使用。我一直是反对过度设计的,而同样我认为轮子就应该是可以让人拿去直接用的。所以我准备分享两篇博客…

上海亚商投顾:沪指缩量调整 华为概念股午后爆发

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 市场全天震荡调整,沪指、深成指午后跌超1%,创业板指一度跌逾2%,尾盘跌幅有…

从0开始学PHP面向对象内容之(类,对象,构造/析构函数)

上期我们讲了面向对象的一些基本信息&#xff0c;这期让我们详细的了解一下 一、面向对象—类 1、PHP类的定义语法&#xff1a; <?php class className {var $var1;var $var2 "constant string";function classfunc ($arg1, $arg2) {[..]}[..] } ?>2、解…

利用Docker Compose构建微服务架构

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 利用Docker Compose构建微服务架构 引言 Docker Compose 简介 安装 Docker Compose 创建项目结构 编写 Dockerfile 前端 Dockerf…

CPU用户时间百分比

在计算机系统中&#xff0c;"CPU用户时间百分比&#xff08;CPU User Time&#xff09;"是一个性能监控指标&#xff0c;它描述了CPU在用户模式下执行的累积时间与总的CPU时间的比例。这个指标可以帮助我们了解系统在执行用户态程序时的负载情况。下面是一些关于CPU用…

TEC半导体致冷工作原理:【图文详讲】

目录 1&#xff1a;什么是TEC 2&#xff1a;TEC工作原理 3&#xff1a;TEC结构 4&#xff1a;TEC技术参数 5&#xff1a;TEC选型 6&#xff1a;实物TEC 7&#xff1a;手机散热器 1&#xff1a;什么是TEC TEC半导体致冷器&#xff08;Thermo Electric Cooler&#xff09…

排序 (插入/选择排序)

目录 一 . 排序概念及运用 1.1 排序的概念 1.2 排序的应用 1.3 常见的排序算法 二 . 插入排序 2.1 直接插入排序 2.1 复杂度分析 2.3 希尔排序 2.4 希尔排序时间复杂度分析 三 . 选择排序 3.1 直接选择排序 3.2 堆排序 一 . 排序概念及运用 1.1 排序的概念 排序 : 所…

由 GPT 引发的这波「大模型热」将会如何洗牌?

大模型,是风口还是陷阱?正如零一万物CEO李开复所言,模型落地是关键,性能、基础设施、应用缺一不可。这场由GPT引发的“大模型热”,正上演着一场残酷的洗牌游戏,淘汰赛早就开始了! 我个人认为由GPT引发的这波AI热潮,最终的胜负将取决于:市场竞争格局中头部企业与中小企…

WPF+MVVM案例实战(十七)- 自定义字体图标按钮的封装与实现(ABC类)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1、案例效果1、按钮分类2、ABC类按钮实现1、文件创建2、字体图标资源3、自定义依赖属性4、按钮特效样式实现 3、按钮案例演示1、页面实现与文件创建2、依赖注入3 运…

微服务设计模式 — 补偿事务模式(Compensating Transaction Pattern)

微服务设计模式 — 补偿事务模式&#xff08;Compensating Transaction Pattern&#xff09; 定义 在云计算和分布式系统中&#xff0c;管理跨多个微服务或组件的事务一致性是一项极具挑战性的任务&#xff0c;补偿事务模式Compensating Transaction Pattern&#xff09;是一种…

echart实现地图数据可视化

文章目录 [TOC](文章目录) 前言一、基本地图展示2.数据可视化 总结 前言 最近工作安排使用echarts来制作图形报表&#xff0c;记录一下我的步骤&#xff0c;需求呈现一个地图&#xff0c;地图显示标签&#xff0c;根据业务指标值给地图不同省市填充不同颜色&#xff0c;鼠标放…

华为自研仓颉编程语言官网上线 首个公测版本开放下载

仓颉编程语言官网正式公开上线&#xff0c;同时首个公测版本开放下载。本次仓颉编程语言官网上线了首页、在线体验、文档、学习、下载、动态以及三方库共六个模块&#xff0c;可供开发和学习和体验。 据悉&#xff0c;仓颉编程语言是在今年6月的华为开发者大会上正式公布&…

2024 网鼎杯 CTF --- Crypto wp

文章目录 青龙组Crypto1Crypto2 白虎组Crypto1Crypto2 朱雀组Crypto2Crypto3part1part2part3part4 青龙组 Crypto1 题目&#xff1a; from Crypto.Util.number import * from secret import flagp getPrime(512) q getPrime(512) n p * q d getPrime(299) e inverse(d,…

java并发编程-volatile的作用

文章目录 volatile的作用1.改变线程间的变量可见性2.禁止指令重排序 参考的学习视频 volatile的作用 1.改变线程间的变量可见性 每个线程都有一个专用的工作集内存&#xff0c;下图里面粉色的表示专用工作集内存&#xff0c;黄色的是共享内存工作区&#xff0c;如果加入了vol…