6.7.32 用于计算机辅助检测和诊断研究的精选乳房 X 线摄影数据集

news2024/11/23 12:12:51

由于在乳房 X 线摄影决策支持系统领域缺乏标准的评估数据集,已发表的研究结果很难复制;大多数乳房 X 线摄影中乳腺癌的计算机辅助诊断 (CADx) 和检测 (CADe) 算法都是在私人数据集或公共数据库的未指定子集上进行评估的。这导致无法直接比较方法的性能或复制以前的结果。

希望通过发布乳房 X 线摄影筛查数字数据库 (DDSM) 的更新和标准化版本来解决这一重大挑战,以评估未来乳房 X 线摄影中的 CADx 和 CADe 系统(有时统称为 CAD)研究。数据集 CBIS-DDSM(DDSM 的精选乳腺成像子集)包括解压缩的图像、由经过培训的乳房 X 线摄影师进行的数据选择和管理、更新的大规模分割和边界框以及训练数据的病理诊断,格式类似于现代计算机视觉数据集。该数据集包含753例钙化病例和891例肿块病例,其数据集大小足以分析乳房X光检查中的决策支持系统。


1. 背景和总结

计算机辅助检测 (CADe) 和诊断 (CADx) 系统旨在协助放射科医生对乳房 X 线摄影进行解释。CADe 用于发现乳房 X 线摄影中的异常结构,而 CADx 用于确定所发现异常的重要性。

当前的 CADe 系统受到高假阳性率的限制,并且乳房 X 线摄影的 CADx 系统尚未获准用于临床。尽管乳房 X 线摄影中 CAD 的技术难度很大,但还有另一个障碍必须解决才能实现这项研究:决策支持系统评估。对 CAD 文献的审查发现数据源和数据集大小不一致。此外,由于大多数评估数据都不公开,因此只有少数已发表的结果可以直接重现。表 1 和表 2 分别包含许多系统(CADe 和 CADx)的样本,这些系统已使用私有数据集或公共数据集的未定义部分进行了评估。没有通用数据集,就不可能严格比较方法。

非医学计算机视觉社区采用了开放式研究方式,包括提供用于评估算法的标准数据集。例如,ImageNet 是一个包含 14197122 幅图像的数据库,这些图像来自 27 个“高级”类别,包括动物、食物和车辆。每个类别至少有 51 个子类别,可以进行高度具体的分类。其他公共数据库包括混合国家标准与技术研究所 (MNIST) 数据库(手写数字数据库)和 Caltech 256(包含 265 个物体类别,如直升机、飞机、摩托车和校车)的数据库。这些数据集和其他类似数据集为计算机视觉研究提供了基准。

为乳房 X 线摄影社区提供的精心策划的公共数据集很少。 其中包括乳房 X 线摄影筛查数字数据库 (DDSM)、乳房 X 线摄影成像分析协会 (MIAS) 数据库 和医学应用中的图像检索 (IRMA) 项目。 虽然这些公共数据集很有用,但它们在数据集大小和可访问性方面受到限制。 DDSM 图像保存在非标准压缩文件中,需要使用尚未为现代计算机更新或维护的解压缩代码。 最后,提供了 DDSM 中异常的感兴趣区域 (ROI) 注释以指示病变的大致位置,但没有对病变进行精确分割。 因此,许多研究人员必须实施分割算法才能准确提取特征。

DDSM 是一个包含 2,620 项扫描胶片乳房 X 线摄影研究的数据库。它包含正常、良性和恶性病例,并带有经过验证的病理信息。尽管图像是扫描胶片而不是全视野数字乳房 X 线摄影,但数据库的规模以及地面实况验证使 DDSM 成为决策支持系统开发和测试的有用工具。目前没有这种规模的乳房 X 线摄影数据库可供公众使用。在此报告 CBIS-DDSM(DDSM 的精选乳腺成像子集)的开发情况并提议发布,这是 DDSM 的更新版本,提供易于访问的数据和改进的 ROI 分割。该资源将有助于乳房 X 线摄影决策支持系统研究的进步,提供标准化的乳房 X 线摄影数据。

1.1 CBIS-DDSM 制备流程图

  1. CBIS-DDSM: 指的是数字数据库为乳腺影像学(Curated Breast Imaging Subset of DDSM),DDSM是数字数据库为乳腺病变研究(Digital Database for Screening Mammography)的缩写,这是一个公开的医学影像数据库,用于支持计算机辅助诊断(CAD)的研究。

  2. Cases filtered by: 按条件筛选的案例。这可能指的是根据特定标准(如病变类型、年龄、性别等)筛选的病例。

  3. 118 Images: 指的是在这个流程中处理的图像数量。

  4. reannotated by mammographer: 由乳腺放射科医生重新注释。

  5. Mammograms saved in DICOM format: 乳腺X线摄影图像以DICOM(数字成像和通信医学)格式保存,这是一种广泛使用的医学图像存储标准。

  6. Decompressed by mammographer: 由乳腺放射科医生解压。这可能指的是由专业人员处理图像,以确保图像数据的完整性和可用性。

  7. Metadata extracted from .ics and .OVERLAY files: 从.ics和.OVERLAY文件中提取元数据。元数据可能包括患者信息、图像采集参数等

  8. Metadata included in .csv files: 元数据被包含在.csv文件中。.csv文件是一种用于存储表格数据的文件格式,这里用来存储提取的元数据。

  9. ROI outlines: 感兴趣区域(Region of Interest)轮廓。这是指在图像中定义的特定区域,这些区域对于诊断或分析是重要的。

  10. Automated Mass Outlines and Calcification Outlines: 自动化的肿块和钙化轮廓。这指的是使用计算机算法自动检测并勾勒出图像中的肿块和钙化点。

  11. Segmentation saved as binary DICOM images: 将分割结果保存为二进制DICOM图像。这意味着分割后的图像数据被保存为DICOM格式的二进制文件,以便于进一步的分析和使用。

乳腺X线摄影图像的存储、解压、元数据提取、重新注释,到自动化的感兴趣区域检测和分割,最后将结果保存为DICOM格式图像的完整流程。 

2. 方法

DDSM 已经包含了 2,620 个病例的大量信息。但是,有些信息有限,特别是 ROI 注释,而其他信息则难以访问。我们通过更新 ROI 分段以及收集元数据并将其重新格式化为更易于访问的格式解决了这些问题。上图显示了准备数据集所执行的流程图:图像解压缩和重新注释以及元数据提取和重新格式化。

2.1 DDSM的描述

DDSM 收集了来自以下来源的乳房 X 光照片:麻省总医院、维克森林大学医学院、圣心医院和华盛顿圣路易斯大学医学院。DDSM 由国防部乳腺癌研究计划和美国陆军研究与物资司令部资助开发,DDSM的原始开发者已获得必要的患者同意。病例中标注了钙化和肿块的 ROI,以及以下可能对 CADe 和 CADx 算法有用的信息:乳腺成像报告和数据系统 (BI-RADS) 中肿块形状、肿块边缘、钙化类型、钙化分布和乳房密度的描述符;整体 BI-RADS 评估从 0 到 5;异常细微程度的评级从 1 到 5;以及患者年龄。

2.2 解析语义特征

DDSM 以 .ics 文件的形式提供元数据。这些文件包括患者年龄、研究日期以及数字化日期、致密组织类别、用于数字化的扫描仪以及每幅图像的分辨率。此外,那些有异常的病例有 .OVERLAY 文件,其中包含有关每种异常的信息,包括异常类型(肿块或钙化)和上面提到的 BI-RADS 描述符。这些元数据已被提取并编译成单个逗号分隔值 (CSV) 文件。

2.3 删除可疑群体性病例

其他研究人员指出,并非所有 DDSM ROI 注释都是准确的,发现一些注释指出了图像中未显示的可疑病变。在此过程中,我们发现 339 张图像中肿块看不清楚。这些图像已从最终数据集中删除。此外,TCIA 还删除了几例病例,因为图像中包含个人健康信息。

2.4 图像解压缩

DDSM 图像以无损联合图像专家组 (JPEG) 文件 (LJPEG) 的形式分发,这是一种过时的图像格式。唯一能够解压缩这些图像的库是 Stanford PVRGJPEG Codec v1.1,它最后一次更新是在 1993 年。我们修改了 PVRG-JPEG 编解码器,以便使用 Apple GCC clang-602.0.53 在 OSX 10.10.5 (Yosemite) 发行版上成功编译。原始解压缩代码以 8 位或 16 位原始二进制位图输出数据。编写了 python 工具来读取这些原始数据并将其存储为 16 位灰度标记图像文件格式 (TIFF) 文件。文件后来被转换为医学数字成像和通信 (DICOM) 格式,这是医学图像的标准格式。这个过程完全无损,并保留了原始 DDSM 文件中的所有信息。

2.5 图像处理

原始 DDSM 文件随一组 Linux 版 bash 和 C 工具一起分发,用于执行图像校正和元数据处理。这些工具很难重构以在现代系统上使用。

DDSM 中的所有图像均来自不同机构的几台不同扫描仪。DDSM 数据描述提供了将原始像素数据转换为 64 位光密度值的方法,这些值在所有图像中都是标准化的。然后将光密度值重新映射到 16 位灰度 TIFF 文件,然后转换为 DICOM 格式以供数据存储库使用。

DDSM 会自动将光密度值剪切到 0.05 到 3.0 之间以降低噪音。 执行此剪切,但提供一个标志来删除剪切并保留原始光密度值。

2.6 图像裁剪

提供了一组便利图像,这些图像是异常的重点裁剪图。通过确定异常相对于其 ROI 的边界矩形来裁剪异常。

2.7 肿块分割

肿块边缘和形状被证明是乳房 X 线摄影诊断的重要指标。 因此,许多方法都是基于开发肿瘤轮廓的数学描述。 由于这些方法依赖于准确的 ROI 分割,并且 DDSM 提供的许多注释都不精确(如下图所示),应用了一种病变分割算法(如下所述),该算法由一般的原始 DDSM 轮廓初始化,但能够提供更准确的 ROI。图 2 包含来自 DDSM、我们的乳房 X 线摄影师和自动分割算法的示例 ROI。如图所示,DDSM 轮廓仅提供大致位置,而不是精确的肿块边界。分割算法旨在提供肿块与周围组织的精确划分。这种分割仅针对肿块进行,不针对钙化。

病变分割是通过对局部水平集框架进行修改来实现的,如 Chan 和 Vese10-12 中所述。水平集模型遵循非参数可变形模型,因此可以处理演化过程中的拓扑变化。Chan-Vese 模型是一种基于区域的方法,它估计图像区域的空间统计数据并找到模型最适合图像的最小能量,从而使轮廓向所需对象收敛。对局部框架的修改包括自动评估每个轮廓点周围的局部区域。对于低对比度病变,确定较小的局部区域,从而防止过度的曲线演化。另一方面,对于噪声或异质病变,将相对较大的局部区域分配给轮廓点,以防止水平集轮廓收敛到局部最小值。局部框架需要对轮廓进行初始化,案例中,原始 DDSM 注释被用作水平集分割初始化。

2.8 标准化训练/测试分割

具体而言,测试集应包含不同难度的案例,以确保彻底测试该方法。根据 BI-RADS 类别,将数据分为训练集和测试集。这允许对从事 CADe 和 CADx 的研究人员进行适当的分层。使用 20% 的案例进行测试,其余案例进行训练,从而获得分割结果。数据被分别拆分为所有肿块病例和所有钙化病例。这里的“病例”用于表示在头尾 (CC) 和/或内外斜 (MLO) 视图上看到的特定异常,这些视图是筛查乳房 X 线摄影的标准视图。图 3 显示了钙化病例和肿块病例的训练集和测试集的 BI-RADS 评估和病理直方图。如图所示,数据分割的方式使得训练集和测试集的难度等级相同。表 3 包含每个组的良性和恶性病例数。

Dice系数常用于评估两个样本的相似度,特别是在图像处理中,常被用来评估图像分割算法的性能。

D_{H,C}:与DDSM轮廓的Dice系数。

D_{H,D}:与手动绘制轮廓的Dice系数。

2.9 数据记录

图像以 DICOM 文件形式在完整乳房 X 线摄影和异常级别进行分发。完整乳房 X 线摄影图像包括乳房 X 线摄影的 MLO 和 CC 视图。

异常以与相关乳房 X 光片大小相同的二进制掩码图像表示。这些掩码图像描绘了每个异常的 ROI。用户可以在为每个乳房 X 光片创建的异常掩码内逐元素选择像素。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis插件机制介绍与原理

插件简介 什么是插件 插件是一种软件组件,可以在另一个软件程序中添加功能或特性。插件通常被设计成可以 随时添加或删除 的,而不影响 主程序 的功能。插件可以 扩展 软件程序的功能,这让用户可以根据自己的需求定制软件,提高工作…

flutter报错You are currently using Java 1.8

flutter报错Could not run phased build action using connection to Gradle distribution ‘https://services.gradle.org/distributions/gradle-7.6.3-all.zip’.\r\norg.gradle.api.ProjectConfigurationException: A problem occurred configuring root project ‘android’…

物联网安全的优秀实践以及七种策略

大多数物联网安全漏洞都是可以预防的,甚至可能是全部。看看任何引人注目的物联网攻击,都会发现一个已知的安全漏洞。 2019年的Ring智能摄像头漏洞?用户可以创建弱密码并跳过多因素身份验证。2021年的Verkada监视服务攻击?该公司的系统中有太多的超级管…

SAP SO定价上面2个ZPR1 其中一个不活跃

查看价格表 取定价的时候排除不活动的 即可

冯喜运:6.12今日黄金原油行情还会涨吗?黄金原油独家操作策略

【黄金消息面分析】:据荷兰国际集团(ING)大宗商品策略师埃瓦?曼西(Ewa Manthey)称,黄金价格正面临来自美元走强和中国需求疲软的新阻力,但一旦美联储开始降息,黄金价格将恢复反弹。      【黄金技术面分析】:黄金…

易保全网络赋强公证系统,“公证赋强+科技赋能”双重增信

网络赋强公证系统是一种创新的法律服务模式,旨在通过线上方式赋予债权文书强制执行效力。具体来说,该系统结合了互联网技术与公证业务,允许公证机构根据当事人的申请,利用互联网公证技术手段对互联网上的债权文书进行公证&#xf…

基于深度学习的图像边缘和轮廓提取

导读:边缘和轮廓的提取是一个非常棘手的工作,细节也许就会被过强的图像线条掩盖,纹理(texture)本身就是一种很弱的边缘分布模式,分级(hierarchical)表示是常用的方法,俗称…

PWN环境配置

虚拟机安装 镜像下载网站(http://old-releases.ubuntu.com/releases/)虚拟机建议硬盘 256 G 以上,内存也尽量大一些。硬盘大小只是上界,256 G 不是真就占了 256G,而后期如果硬盘空间不足会很麻烦。lsb_release -a查看版本更换 ubuntu 镜像源…

【教程】怎么给网站添加弹窗广告代码javascript

由于最近支付宝悬赏领红包活动比较多邀请别人扫码自己也有奖励于是就想到了给自己网站上添加一个这种弹窗广告用户可以自己领取红包 效果图 代码也很简单下面附上代码 首先引入jquery <script src”https://pay.codewo.cn/static/index/user/assets/vendor/libs/jquery/j…

绘出你的梦中情人,AI绘画Stable Diffusion 万金油模型推荐 ,助你快速涨粉!

嘿&#xff0c;大家好&#xff0c;我是向阳 到目前为止&#xff0c;我已经分享了近百篇AI绘画类的文章教程以及模型分享 其中有些模型已经无法下载了&#xff0c;原因懂得自懂 你是否也和我一样&#xff0c;每天看着这样的小姐姐乐不思蜀&#xff0c;简单的提示词就能实现你…

用C#(WinForm)开发触摸屏,体验感满满

用C#&#xff08;WinForm&#xff09;开发触摸屏&#xff0c;体验感满满

基于粒子群优化算法的的微电网多目标优化调度----解析代码

前言&#xff1a; 写在这里&#xff0c;这是我小论文的方向&#xff0c;但是以前从来没有接触过微电网及优化调度算法&#xff0c;所以呢&#xff0c;开始展开积极自救。两个月前&#xff0c;我开始重拾Matlab编程以及最简单的微电网知识&#xff0c;以及看一些论文&#xff0c…

AI大模型探索之路-实战篇:智能化IT领域搜索引擎的构建与初步实践

系列篇章&#x1f4a5; No.文章1AI大模型探索之路-实战篇&#xff1a;智能化IT领域搜索引擎的构建与初步实践2AI大模型探索之路-实战篇&#xff1a;智能化IT领域搜索引擎之GLM-4大模型技术的实践探索3AI大模型探索之路-实战篇&#xff1a;智能化IT领域搜索引擎之知乎网站数据获…

【机器学习】基于CNN-RNN模型的验证码图片识别

1. 引言 1.1. OCR技术研究的背景 1.1.1. OCR技术能够提升互联网体验 随着互联网应用的广泛普及&#xff0c;用户在日常操作中频繁遇到需要输入验证码的场景&#xff0c;无论是在登录、注册、支付还是其他敏感操作中&#xff0c;验证码都扮演着重要角色来确保安全性。然而&am…

代码随想录:回溯19

332.重新安排行程 题目 给你一份航线列表 tickets &#xff0c;其中 tickets[i] [fromi, toi] 表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。 所有这些机票都属于一个从 JFK&#xff08;肯尼迪国际机场&#xff09;出发的先生&#xff0c;所以该行程必须从…

C语言面试题总结(含参考答案)------持续更新

1、关键字static的作用是什么&#xff1f; 在函数内部使用static修饰局部变量时&#xff0c;表示该变量在程序的整个生命周期内只会被初始化一次&#xff0c;并且在函数调用结束后不会被销毁&#xff0c;其值会一直保持。这种特性使得静态局部变量成为一种很有用的工具&#xf…

【ARM】MDK出现报错error: A\L3903U的解决方法

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 解决MDK出现报错error: A\L3903U这样类型的报错 2、 问题场景 电脑或者软件因为意外情况导致崩溃&#xff0c;无法正常关闭&#xff0c;强制电脑重启之后&#xff0c;打开工程去编译出现下面的报错信息&#xff08;…

怎么把pdf格式文件其中几页单独弄出来

在现代办公和学习环境中&#xff0c;pdf格式的文件因其跨平台兼容性和良好的保持原样特性而备受欢迎。然而&#xff0c;有时我们可能只需要pdf文件中的某几页&#xff0c;而不是整个文件。这时&#xff0c;将PDF文件中的特定页面单独提取出来就显得尤为重要。 搜索一下&#xf…

React基础教程:TodoList案例

todoList案例——增加 定义状态 // 定义状态state {list: ["kevin", "book", "paul"]}利用ul遍历list数组 <ul>{this.state.list.map(item ><li style{{fontWeight: "bold", fontSize: "20px"}} key{item.i…

后端项目实战--瑞吉外卖项目软件说明书

瑞吉外卖项目软件说明书 一、项目概述 瑞吉外卖项目是一个外卖服务平台&#xff0c;用户可以通过该平台浏览餐厅菜单、下单、支付以及追踪订单状态。产品原型就是一款产品成型之前的一个简单的框架&#xff0c;就是将页面的排版布局展现出来&#xff0c;使产品得初步构思有一…