用深度学习改进乳腺癌MRI诊断| 文献速递--AI辅助的放射影像疾病诊断

news2025/1/17 3:40:32

Title

题目

Improving breast cancer diagnostics with deep  learning for MRI

用深度学习改进乳腺癌MRI诊断

01

文献速递介绍

乳腺磁共振成像(MRI)是一种检测乳腺癌的高度敏感的方式,报告的敏感性超过80%。传统上,其在筛查中的使用仅限于高风险患者。新的证据支持在中等风险和平均风险女性中进行筛查MRI的作用。诊断性MRI对于解决问题和新近确诊乳腺癌患者等其他适应症也很有用。随着接受乳腺MRI的患者数量不断增加,保持高特异性和阳性预测值(PPV)以尽量减少不必要的活检和后续建议变得非常重要。在针对中等风险和平均风险女性的筛查MRI研究中,活检推荐的PPV范围为19.6%至35.7%。这意味着每进行一次恶性结果的活检,就要进行两到四次良性结果的活检。因此,需要开发经过良好测试的工具来提高MRI的性能并提升护理质量。此外,还需要开发考虑临床医生或患者偏好的工具,例如在决定是否进行活检时。

Abstract

摘要

动态增强磁共振成像(DCE-MRI)在检测乳腺癌方面具有很高的敏感性,但往往导致不必要的活检和患者的进一步检查。我们使用深度学习(DL)系统来提高乳腺癌诊断的整体准确性,并个性化管理接受DCE-MRI检查的患者。在内部测试集中(n = 3936次检查),我们的系统在受试者工作特征曲线下面积(AUROC)上达到了0.92(95% CI:0.92至0.93)。在一项回顾性读片研究中,五位持证乳腺放射科医师与DL系统之间没有统计学上显著差异(P = 0.19)(DL系统的平均ΔAUROC值高出+0.04)。当放射科医师的预测与DL系统的预测平均值结合时,放射科医师的表现有所提高【平均ΔAUPRC(精确度-召回曲线下面积)提高了+0.07】。我们使用来自波兰和美国的多个数据集证明了DL系统的通用性。在波兰数据集上的另一项读片研究表明,DL系统对分布变化的鲁棒性与放射科医师相当。在亚组分析中,我们观察到在不同的癌症亚型和患者人口统计学中结果一致。通过决策曲线分析,我们显示DL系统可以在临床相关风险阈值范围内减少不必要的活检。这可以使高达20%的BI-RADS 4类病变患者避免活检,且结果为良性。最后,我们进行了错误分析,研究DL预测大多数错误的情况。这项探索性工作为基于DL的乳腺MRI模型的部署和前瞻性分析奠定了基础。

Method

方法

The purpose of this study was to develop and evaluate a DL system for predicting the probability of breast cancer in DCE-MRI. To do so, we collected a dataset of 21,537 DCE-MRI examinations from the NYU Langone Health sites. We used it to train, validate, and test the system. In addition, we used three independent, international datasets for external validation of our model. The DL system is based on a modified 3D-ResNet18 architecture, which uses 3D convolutions to learn spatiotemporal features. Our training procedure used elements of transfer learning, multitask learning, and both train-time augmentation and test-time augmentation (TTA). The final DL system is an ensemble of the most accurate 20 models selected from a larger pool of models trained with different hyperparameters. Beyond analyzing the system’s standalone performance, we simulated a “hybrid performance” by averaging radiologists’ and system’s predictions. Last, we used DCA methodology to demonstrate that system’s predictions can accurately identify low-risk BI-RADS category 4 lesions and help in avoiding unnecessary biopsies. The study was approved by the Institutional Review Board, and the informed consent requirement was waived.

本研究的目的是开发和评估一个用于预测DCE-MRI中乳腺癌概率的深度学习(DL)系统。为此,我们收集了来自NYU Langone Health站点的21,537次DCE-MRI检查数据,用于训练、验证和测试系统。此外,我们使用了三个独立的国际数据集对我们的模型进行外部验证。DL系统基于修改后的3D-ResNet18架构,使用3D卷积来学习时空特征。我们的训练过程采用了迁移学习、多任务学习、训练时增强和测试时增强(TTA)等元素。最终的DL系统是从使用不同超参数训练的大量模型中选出的最准确的20个模型的集成。除了分析系统的独立性能外,我们还通过平均放射科医生和系统的预测来模拟“混合性能”。最后,我们使用决策曲线分析(DCA)方法,证明系统的预测可以准确识别低风险的BI-RADS 4类病变,并帮助避免不必要的活检。该研究获得了机构审查委员会的批准,并豁免了知情同意要求。

Results

结果

The DL system described in this study (Fig. 1) was trained in a supervised manner, that is, the machine learning model was provided with many examples of inputs and correct outputs. The inputs of this system were DCE-MRI pre- and postcontrast sequences, all stored as three-dimensional (3D) volumes. This approach mimics clinical practice, in which radiologists evaluate changes in contrast enhancement in breast to correctly identify suspicious areas. DCE-MRI volumes are passed through the model, which generates predictions of the breast-level probability of malignancy (POM). That is, for each of the patient’s breasts, the system produces a number in a range between 0 and 1. The underlying neural network of the system performs 3D convolutions, which are mathematical operations that ultimately allow it to extract spatiotemporal features of the inputs.

本研究中描述的深度学习(DL)系统(图1)采用监督学习的方式进行训练,即为机器学习模型提供了大量输入和正确输出的示例。该系统的输入是DCE-MRI对比增强前后的序列,所有序列均存储为三维(3D)体积。这种方法模拟了临床实践中放射科医生评估乳腺中对比增强变化以正确识别可疑区域的过程。DCE-MRI体积数据通过模型处理,模型生成乳腺层面的恶性概率(POM)预测。也就是说,对于每位患者的每个乳腺,系统会生成一个介于0和1之间的数值。该系统的底层神经网络执行3D卷积,这是一种数学运算,最终使其能够提取输入的时空特征。

Figure

图片

Fig. 1. Overview of the study. In this work, we trained and evaluated a DL system based on deep neural networks that predict the probability of breast cancer in DCE-MRI examinations. Data collection and processing: To build the system, we collected 21,537 DCE-MRI imaging exams, consisting of one precontrast and two postcontrast T1-weighted fat-saturated sequences. We also collected diagnosis information from breast pathology reports to generate ground truth labels. Auxiliary information on patient demographics, tumor histological data, and radiological features enabled extensive subgroup analysis. Internal and external datasets: The internal dataset was collected from the NYU Langone Health system and divided into training (n = 14,198), validation (n = 3403), and test (n = 3936) subsets. We applied additional filtering on the test subset of NYU dataset to reduce potential label noise. To evaluate our system on data that the model had not seen before, we acquired three external datasets from Duke University (United States; n = 922), JU (Poland; n = 394), and TCGA-BRCA (United States; n = 131). Standalone evaluation of DL model: Using the NYU Langone training data subset, we trained deep neural networks to predict the probability of malignancy in MRI examinations. Our model was validated using standard metrics area under the receiver operating characteristic curve (AUROC) and area under the precision-recall curve (AUPRC). The plot presents ROC curves for all datasets. Reader study: To compare the performance of DL system to experts, five readers and the DL system interpreted 100 random MRI examinations and provided their predictions of probability of breast cancer presence in MRI examinations. We also simulated combining DL and radiologists’ predictions by averaging them into a “hybrid” prediction. DL performance in subgroups: To confirm that our model works well in all subgroups, we performed an analysis of the model’s performance across various subsets (with respect to demographic data, imaging features, and histological features). The grid subplot presents DL model performance in each subgroup (columns) across four metrics (rows). Detailed results are presented in the “Subgroup analyses” section. Personalizing management: We simulated a scenario that assessed whether the model could correctly identify low-risk patients with BI-RADS 4 lesions who might avoid an unnecessary biopsy (that is, a biopsy yielding benign results). This simulation included 956 patients from the NYU dataset and used a decision curve analysis (DCA) methodology. AI, artificial intelligence; EHR, electronic health record; FPR, false positive rate; TPR, true positive rate.

图1. 研究概述。在本研究中,我们训练并评估了一个基于深度神经网络的DL系统,该系统预测DCE-MRI检查中乳腺癌的概率。数据收集与处理:为了构建该系统,我们收集了21,537次DCE-MRI成像检查,包括一个对比增强前和两个对比增强后T1加权脂肪抑制序列。我们还从乳腺病理报告中收集诊断信息以生成真实标签。患者人口统计学信息、肿瘤组织学数据和放射学特征的辅助信息使得广泛的亚组分析成为可能。内部和外部数据集:内部数据集来自NYU Langone Health系统,并被分为训练集(n = 14,198)、验证集(n = 3403)和测试集(n = 3936)。我们对NYU数据集的测试集进行了额外筛选,以减少潜在的标签噪声。为了评估系统在模型未见过的数据上的表现,我们获取了来自杜克大学(美国;n = 922)、JU(波兰;n = 394)和TCGA-BRCA(美国;n = 131)的三个外部数据集。DL模型的独立评估:使用NYU Langone训练数据子集,我们训练了深度神经网络以预测MRI检查中的恶性概率。我们的模型使用标准指标受试者工作特征曲线下面积(AUROC)和精确-召回曲线下面积(AUPRC)进行验证。该图展示了所有数据集的ROC曲线。读片研究:为了比较DL系统与专家的表现,五位读片医师和DL系统解读了100次随机MRI检查,并提供了他们对MRI检查中乳腺癌存在概率的预测。我们还通过将DL和放射科医生的预测平均化为“混合”预测来模拟结合DL和放射科医生预测的情况。DL在各亚组中的表现:为了确认我们的模型在所有亚组中都表现良好,我们对模型在不同子集(关于人口统计数据、成像特征和组织学特征)中的表现进行了分析。网格子图展示了DL模型在各亚组(列)中四个指标(行)中的表现。详细结果在“亚组分析”部分中呈现。个性化管理:我们模拟了一个评估模型能否正确识别具有BI-RADS 4类病变且可能避免不必要活检(即活检结果为良性)的低风险患者的情景。该模拟包括来自NYU数据集的956名患者,并使用决策曲线分析(DCA)方法。AI,人工智能;EHR,电子健康记录;FPR,假阳性率;TPR,真阳性率。

图片

Fig. 2. DL system performance on all internal and external test sets. (Top) ROC curves with 95% CIs calculated with bootstrapping. (Middle) ROC curves with partial AUC (pAUC). The AUCs in green represent the pAUC for specificity of 90 to 100%. The AUCs in blue represent the pAUC for sensitivity of 90 to 100%. (Bottom) PRCs with 95% CIs.

图2. DL系统在所有内部和外部测试集上的表现。(顶部)通过重复抽样法计算的具有95%置信区间的ROC曲线。(中部)具有部分AUC(pAUC)的ROC曲线。绿色表示90%到100%特异性的pAUC,蓝色表示90%到100%敏感性的pAUC。(底部)具有95%置信区间的PRC曲线。

图片

Fig. 3. System performance in key subgroups on the internal test set. Each subgroup was evaluated using four metrics: area under the receiver operating characteristic curve (AUC ROC), area under the precision-recall curve (AUC PR), sensitivity, and specificity. Blue (malignant cases) and green (nonmalignant cases) bars to the right represent the number of examinations in each subgroup. Values for all subgroups and metrics are presented with 95% CIs calculated by bootstrap (N = 2000 replicates). To calculate the sensitivity and specificity, we selected a decision threshold such that the DL system’s sensitivity closely matches the average reader sensitivity. Full numerical values for each subgroup are available in table S4. Examinations with BI-RADS categories 1, 2, and 3 were aggregated because there were no MRI exams associated with malignant diagnoses in BI-RADS 1 and 2 categories; thus, AUROC would be undefined in those subgroups. HER2, human epidermal growth factor receptor 2. DCIS, ductal carcinoma in situ; IDC, invasive ductal carcinoma; ILC, invasive lobular carcinoma; IMC, invasive mammary carcinoma.

图3. 内部测试集中关键子组的系统性能。每个子组使用四个指标进行评估:受试者工作特征曲线下面积(AUC ROC)、精确-召回曲线下面积(AUC PR)、敏感性和特异性。右侧的蓝色(恶性病例)和绿色(非恶性病例)条表示每个子组中的检查次数。所有子组和指标的数值均以通过重复抽样法计算的95%置信区间表示(N = 2000次重复)。为了计算敏感性和特异性,我们选择了一个决策阈值,使DL系统的敏感性与平均读片医师的敏感性相匹配。每个子组的完整数值见表S4。由于在BI-RADS 1和2类中没有与恶性诊断相关的MRI检查,因此将BI-RADS 1、2和3类的检查合并,因为在这些子组中AUROC将无法定义。HER2,人类表皮生长因子受体2;DCIS,导管原位癌;IDC,浸润性导管癌;ILC,浸润性小叶癌;IMC,浸润性乳腺癌。

图片

Fig. 4. Results of the DCA support using the DL system for making diagnostic decisions in low-risk patients with BI-RADS 4 lesions. (Left) Standardized net benefit values (y axis) were higher when decisions are made based on the DL system’s predictions (red curve) compared to the default biopsy-all approach (gray curve at x = 0) across all relevant decision thresholds (x axis). The black curve is a biopsy-none approach. The net benefit curve is presented with 95% bootstrapped CIs (N = 2000 replicates). (Right) Net interventions avoided per 1000 patients with BI-RADS 4 findings (y axis). Benefits were highest when decision threshold (x axis) was above 3%.

图4. 使用DL系统在低风险患者中针对BI-RADS 4病变做出诊断决策的DCA支持结果。(左)在所有相关决策阈值(x轴)范围内,当基于DL系统的预测做出决策时(红色曲线),标准化净效益值(y轴)比默认的全部活检方法(x = 0的灰色曲线)更高。黑色曲线表示不进行活检的方法。净效益曲线以95%的重复抽样置信区间(N = 2000次重复)表示。(右)每1000名BI-RADS 4患者中避免的净干预数(y轴)。当决策阈值(x轴)高于3%时,效益最高。

Table

图片

Table 1. NYU Langone dataset breakdown including demographic data and imaging characteristics. Values are n (%) unless specified otherwise. BI-RADS risk assessment categories, background parenchymal enhancement (BPE), and the amount of fibroglandular tissue are reported according to the American College of Radiology BI-RADS Atlas fifth edition (20). Breast-level diagnosis statistics are presented in table S7.

表1. NYU Langone数据集的细分,包括人口统计数据和成像特征。除非另有说明,数值以n (%)表示。BI-RADS风险评估类别、背景实质增强(BPE)和纤维腺体组织的数量根据美国放射学会BI-RADS Atlas第五版报告(20)。乳腺层级诊断统计数据见表S7。

图片

Table 2. Histological and molecular cancer subtypes. One patient and one imaging exam can have multiple findings. Values are n (% of all malignant cases), reported on an exam level. HR, hormone receptor; ER, estrogen receptor; PR, progesterone receptor; HER2, human epidermal growth factor receptor 2.

表2. 组织学和分子癌症亚型。一个患者和一个成像检查可以有多种发现。数值以n(占所有恶性病例的百分比)表示,按检查级别报告。HR,激素受体;ER,雌激素受体;PR,孕激素受体;HER2,人类表皮生长因子受体2。

图片

Table 3. Summary of the primary model performance. Results are presented with 95% CIs (bootstrapping with N = 2000 replicates), unless specified otherwise.

表3. 主要模型性能总结。除非另有说明,结果以95%置信区间(通过N = 2000次重复抽样法计算)表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1967906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【算法】动态规划-斐波那契数列模型

目录 1、第N个泰波那契数 1.1 算法原理讲解 1.1.1 状态表示 1.1.2 状态转移方程 1.1.3 初始化 1.1.4 填表顺序 1.1.5 返回值 1.2 代码实现 1.3 空间优化 2、三步问题 2.1 算法原理讲解 2.1.1 状态表示 2.1.2 状态转移方程 2.1.3 初始化 2.1.4 填表顺序 2.1.5 返…

(四十一)大数据实战——spark的yarn模式生产环境部署

前言 Spark 是一个开源的分布式计算系统。它提供了高效的数据处理能力,支持复杂的数据分析和处理任务,是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误…

上线前端系统

上线一个静态的前端系统(续) 在eleme服务器上 启动服务 启动rpcbind [rooteleme-static ~]# systemctl restart rpcbind 启动nfs [rooteleme-static ~]# systemctl restart nfs 重启服务 启动smb [rootstatic-server img]# systemctl start smb…

SQL数据库模糊查询指定的字符的表资料(CHARINDEX)

1.目的 MSG栏位里面有很多组合内容的字符信息,需要进行模糊查询。 2.问题 正常使用LIKE 语句可以通用大部分的查询需求,但是遇到部分的特殊字符,例如:[] 资料是存在数据资料中,但是查询反馈的结果是没有内容&#xf…

二刷代码随想录训练营Day 16|513.找树左下角的值、112.路径总和、106.从中序与后序遍历序列构造二叉树

1.找到左下角的值 513. 找树左下角的值 - 力扣(LeetCode)代码随想录 (programmercarl.com) 代码: class Solution { public:int maxDepth INT_MIN;int result;// 深度最大,确保是最后一行 先遍历左孩子再遍历右孩子 确保是左下…

进程地址空间,零基础最最最详解

目录 建议全文阅读!!! 建议全文阅读!!! 建议全文阅读!!! 一、什么是地址空间 1、概念 2、主要组成部分 3、特点和作用 (1)虚拟化&#xf…

Java并发—volatile关键字

在这篇文章Java并发—Java内存模型以及线程安全-CSDN博客多次提及volatile关键字,这是一个非常重要的概念,主要用于多线程编程中,它确保了变量的可见性和禁止指令重排序,但不保证原子性,下面详细解释volatile关键字的作…

未来3-5年,哪些工作会被AI取代

一篇由高盛经济学家约瑟夫布里格斯 (Joseph Briggs)和德维西科德纳尼 (Devesh Kodnani)撰写的报告指出,全球预计将有3亿个工作岗位被生成式AI取代。 报告称:“最近出现的生成式人工智能将降低劳动力成本和…

​宁德时代:续航还剩多少?

车企价格战打到供应商,连续增利不增收。 今天我们看宁德时代的增长电池续航还剩多少? 巨头长成,就要面临增长瓶颈。“宁王”24年中报公布,业绩喜忧参半。二季度营收869.96亿,同比下滑13.18%, 已经是宁德时…

冠军之选:奥运冠军青睐的游泳耳机款式大公开

在最新一届的夏季奥林匹克运动会中,泳池边的激烈竞争再次点燃了全球观众的热情。游泳运动员们,以惊人的速度和毅力,一次又一次地刷新纪录,向世人展示了人类极限的无限可能。而在这些运动员备战的过程中,有一个细节或许…

吴恩达老师机器学习-ex5

有借鉴网上部分博客 首先,我先使用该数据集,通过线性回归的方法,做了一个预测问题 import numpy as np import scipy.io as sio import matplotlib.pyplot as plt from scipy.optimize import minimize#读取数据 path "./ex5data1.ma…

Spine 核心功能入门

核心功能入门 本文主旨是整理我在入手学习 spine 时的流程,以及对于基本功能的理解和常规 2D 动画实现的思路。 意在整理出一个简要的入门 spine 的流程,以及对于一些高阶功能的应用的思考。 本文基于 https://zh.esotericsoftware.com/ 官网教程进行思…

2024.8.1 作业

使用两个线程完成两个文件的拷贝&#xff0c;分支线程1拷贝前一半&#xff0c;分支线程2拷贝后一半&#xff0c;主线程回收两个分支线程的资源 #include <myhead.h>struct Buf {const char *file1;const char *file2;int start;int size; };int get_len(const char *arr…

从线段中搜寻提取闭合轮廓(二)

接上篇文章从线段中搜寻闭合轮廓_多线段搜索区域集合 快速-CSDN博客 1. 前言 调试了上篇文章中参考代码修了一些问题&#xff0c;优化了显示&#xff0c;但是由于算法逻辑存在一些问题&#xff0c;有很多不必要的性能损耗&#xff0c;且逻辑不是最优的&#xff0c;于是博主找…

FPGA开发——蜂鸣器实现音乐播放器的设计

一、概述 我们在进行蜂鸣器的学习的时候&#xff0c;总会在想既然蜂鸣器能够发出声音&#xff0c;那么它能够播放音乐吗&#xff0c;今天这篇我们文章我们就一起来学习怎样使用使用蜂鸣器来播放音乐&#xff0c;也就是怎样成为一个音乐播放器。 1、蜂鸣器的类型 在设计的时候…

玩机进阶教程-----手机恢复出厂 误删除照片视频 误刷机后 几种数据恢复操作步骤解析【一】

手机中存储有众多的照片 视频 文件或者电话本这类的数据,虽然目前很多机型都有云存储。可以随时同步手机的存储数据。但万一云存储没有开启同步或者密码忘记。或者恢复出厂等等原因造成以上的数据丢失。或者手机系统问题导致的不开机但需要其中的数据等等。那么如何简单快速的…

【项目日记(五)】梦幻笔耕-测试报告

❣博主主页: 33的博客❣ ▶️文章专栏分类:项目日记◀️ &#x1f69a;我的代码仓库: 33的代码仓库&#x1f69a; &#x1faf5;&#x1faf5;&#x1faf5;关注我带你了解更多项目内容 目录 1.项目背景2.测试环境3.测试计划3.1功能测试3.2自动化测试 1.项目背景 个人博客系统…

剪画小程序:自媒体创业者的准备-文案!

作为一个刚刚踏入自媒体领域的新人&#xff0c;我满怀着激情和憧憬&#xff0c;渴望通过视频分享自己的见解和生活点滴。然而&#xff0c;视频文案的创作却成了我面前难以逾越的高山。 在构思旅行视频时&#xff0c;面对美丽的风景和丰富的经历&#xff0c;我却无法用恰当的文字…

嵌入式学习Day19---Linux软件编程

目录 一、标准I/O 1.1.fseek 1.偏移量 2.实例 ​编辑 1.2.ftell 2.实例 ​编辑 二、文件I/O 2.1.打开文件 1.open 2.2.实例 2.2.读写文件 1.write 实例 ​编辑 2.read 实例 2.3.关闭文件 1.close 2.3.lseek 实例 三、标准I/O与文件I/O的区别 3.1.区别 四、其…

2024年有哪些开放式耳机值得入手?精选五大高分品牌

近几年兴起的开放式蓝牙耳机&#xff0c;具有佩戴舒适稳固、不影响使用者判断外界环境等优点&#xff0c;十分适合在户外环境下使用&#xff0c;因此受到了众多健身人士的喜爱。那么该如何挑选到一款适合自己的开放式耳机呢&#xff1f;2024年有哪些开放式耳机值得入手&#xf…