入选ECCV 2024!浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI,打破医学数据异构化藩篱

news2025/1/10 20:39:51

让 AI 在某些条件下具备类似人类的反应能力,从而代替人类高效地从事特定工作,是 AI 领域研究人员孜孜不倦的追求。正如在医学图像和人工智能的交叉领域,基于视觉语言预训练的深度模型 (Visual-Language Pre-training, VLP) 凭借其自动化的特点,可以在大量图像及对应文本的数据集上进行预训练,并学会自动从新的图像中提取相关特征,可高效地解决费时费力的人工注释需求。

然而,尽管 VLP 在医疗领域已经取得了一定程度的成功,但在进一步扩大其应用的数据规模时,仍然面临着诸多挑战。

首先,现有模型训练大多主要以单模态数据(主要是 2D 图像,如 X 光片)为主,这与包含多模态图像(包含 2D 和 3D 图像,如 CT、MRI 图像等)的真实医学场景并不相符;其次,不同模态的医学图像固有的异质性也阻碍了它们的有效协作和整合。此外,医学图像不同模态的数据还存在维度差异、缺乏成对数据等。因此,如何构建一个统一的模型,并将这些不同模态的数据有效映射至共同空间,实现联合学习,成为了一个极具挑战性的课题。

为了解决上述问题,浙江大学胡浩基团队联合微软亚洲研究院邱锂力团队提出了一种全新的统一医学图像预训练框架 UniMedI。 它利用诊断报告作为公共语义空间,可为不同模态的医学图像创建统一的表示,此外,它还引入创建「伪配对」 (Pseudo-Pairs) 的技术,在文本的指导下,UniMedI 能够从复杂的 3D 图像中选择与该文本相关的 2D 切片,这些切片充当桥接 2D 和 3D 数据的伪对,可增强各种医学成像模式之间的一致性,有效整合医学多模态图像。

相关研究成果以「Unified Medical Image Pre-training in Language-Guided Common Semantic Space」为题,收录于计算机视觉和机器学习领域的顶会 ECCV 2024。

获取更多顶会资讯,请点击下方链接:

https://go.hyper.ai/0wtVi

研究亮点:

  • 在实验中,UniMedI 在多个不同数据集上的 2D 和 3D 图像上的性能表现优异,在广泛的医学任务,如图像分类、分割和检索方面表现卓越

  • UniMedI 可以统一采集 2D 和 3D 图像,解决了医学领域的数据稀缺问题

在这里插入图片描述

论文地址:
https://eccv.ecva.net/virtual/2024/poster/1165


开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

真实医学数据,有效验证框架

预训练 UniMedI 框架所使用的数据来自 JPG 版本的 2D X 光片数据集 MIMIC-CXR 2.0.0 和 3D CT 扫描数据集 BIMCV。

其中,研究人员对 2D 数据集进行了预处理,消除了所有侧面图像,以便与仅使用正面图像的下游任务对齐。同时,为保持数据集的完整性,实验中未使用少于 3 句话的 2D 和 3D 数据集简短报告。

图像方面,2D 图像的大小为 224 × 224,3D 图像大小为 128 × 128 × 32。

研究团队在 8 个 Tesla V100 GPU 上对 UniMedI 框架进行了 50 次预训练,batch 大小为 144。

在实验评估中,首先团队对 2D 和 3D 数据集进行了医学图像分类, 其中具有代表性的 2D 数据集有 3 个,分别是:CheXpert,包含 191,229 张正视图胸片;包含约 29,700 张正视图胸片的 RSNA 肺炎 stage 2 版本;来自 2,800 多名患者的 16,490 张阳性 COVID-19 图像。

然后团队对两个代表性的 3D 数据集进行了分类, 分别是 CC-CCII 和 LUNA 16。其中,CC-CCII 使用了 Clean-CC-CCII 版本,该版本包含来自 2,698 例患者的 3,993 次扫描的 340,190 个切片;基于 LIDC-IDRI 建立的 LUNA 16,包含 888 个 CT 扫描,带有注释。实验删除了 LIDC-IDRI 数据库中切片厚度大于 3mm 的 CT 扫描。

层层协作机制,打破数据藩篱

本研究提出的 UniMedI 是一个视觉语言预训练框架,医学图像及其文本报告分别由视觉编码器 (Vision Encoder) 和文本编码器 (Text Encoder) 两个编码器进行编码,然后通过 VL (Vision-Language) 对比学习共同学习。UniMedI 的独特之处在于它可以用统一的方式有效地采集 2D 和 3D 图像,解决医疗领域的数据稀缺问题。 UniMedI 总体框架如下图左边所示:
在这里插入图片描述

UniMedI 总体框架:左边为整体流程,右边为关键设计

实验中,视觉编码器采用的是 ViT-B/16,主要在 2D 和 3D 视觉数据的公共特征空间中提取表示,文本编码器使用的是 BioClinicalBERT,用来对文本特征进行编码,视觉编码器和文本编码器在 2D 和 3D 数据中是通用的。

为了克服不存在配对 2D 和 3D 图像数据的挑战。研究团队在 UniMedI 中引入创建「伪配对」的方法,该方法的设计基于一种新颖的以语言为指导的注意力切片选择策略。

比如,当输入为一个 3D 图像时,从其中提取与报告最相关的一部分 2D 切片,然后将选定的切片视为 2D 图像,从而形成 2D-3D 图像的伪配对关系。在此之后,通过将选定的 2D 切片与原始 3D 图像一起输入到网络中,可共同学习它们与报告 (Report) 之间的关系,最终形成一个统一的特征空间。当输入为 2D 图像时,则省略了切片选择处理。

之后,一个视觉编码器将所有多模态图像(包括原始 2D 和 3D 图像以及所选择的 2D 切片)映射到表示空间中。该视觉编码器分别拥有用于 2D 和 3D 图像的标记器 T2D 和 T3D,以及用于实现更好集成的共享骨干 Ev。通过对比学习损失 Lᵥₗ,在一个 VLP 中端到端学习包含视觉编码器和文本编码器 Eₗ 的模型。在这个过程中,2D 和 3D 图像都可以被编码到由报告中语言信息监督的公共语义空间中。

为了充分利用医学图像本身多模态数据,以及共享的一些公共信息,本研究中还引入了一个辅助任务设计,即掩蔽和恢复,并使用自蒸馏方法来完成任务。 这使得 2D 和 3D 图像的 token 可以互相通信,并增强跨维度的交互和多模态图像的集成。

值得注意的是,UniMedI 的一大亮点是注意力切片选择策略和 VL 对比学习的协同效应。

  • 一方面,VL 对比学习可以实现语言监督,这种监督直接应用于视觉 CLS token。该 token 在报告中包含重要信息,因此视觉 CLS token 的注意权重作为 2D 切片选择的基础,才会携带来自报告的监督信息,并与 3D 特征一起构建联合特征空间。

  • 另一方面,细致的切片选择使 2D 和 3D 特征空间更加整合,即便是没有配对数据。这种共同空间可以放大医学图像和报告之间的详细信息,并且通过这种方式,推动了图像和报告之间的对齐。这两种设计使得多模态图像的表征结合在一起,并使其同时接近报告表征空间,在构建共同语义空间上达到了一加一大于二的效果。

多角度实验评估,性能赶超 UniMiss

为了对 UniMedI 进行全面有效的评估,本研究设置了多角度观察,并通过与各种医学 VLP 方法进行比较分析,进而验证其性能和有效性。

首先,研究团队将 UniMedI 与包括 ConVIRT、GLoRIA、MGCA、LOVT、PRIOR 等在内的方法进行了比较,后者是针对 X 光片及其相应的医学报告量身定制的;然后,研究团队又将 UniMedI 与几种 2D 和 3D 联合学习的方法进行比较,包括 UniMiss 和 Joint。

线性分类实验结果显示, 在 2D 医学图像分类实验结果中(如下图示),相比使用 ViT 作为视觉编码器的最先进 MGCA (ViT-b/16) 方法,UniMedI 在不同训练数据下 (1%,10%,100%) 的 3 种 2D 医学图像分类中表现最好。

  • 线性分类实验:用来评估 UniMedI 的表征能力

与其相比,UniMedI 在 CheXpert 数据集上的 AUROC 分别提高 +0.6%、+0.6% 和 +0.8%;在 RSNA 数据集上的 AUROC 分别提高 +0.9%、+0.5% 和 +0.7%;在 COVID 数据集上的 AUROC 分别提高 +5.5%、+7.6% 和 +2.3%。实验结果表明了所提算法的有效性。
在这里插入图片描述

1%、10%、100% 训练数据下在 CheXpert、RSNA 和 COVID 数据集上的 2D 线性分类结果

在 3D 医学图像分类实验结果中(如下图示),与最先进的 UniMiss 对比,UniMedI 在 CC-CCII 数据集上分别提升了 +22.6%、+2.0% 和 +0.8% 的 ACC 增益。这些数据均验证了 UniMedI 的数据效率和有效性。
在这里插入图片描述

1%、10%、100% 训练数据下在 CC-CCII 上的 3D 线性分类结果

与此同时,当使用完整的训练数据对全视觉编码器进行微调时,UniMedI 在 CC-CCII 和 LUNA 多个 3D 医学图像数据集上的性能均优于其他方法。

如下图所示,UniMedI 在 CC-CCII 数据集上的 ACC 值为 93.8%,在 LUNA2016-v2 数据集上的 ACC 值为 95.9%。这显示其在 2D 和 3D 医学图像分类任务上的显著泛化能力,表明该框架具有提取三维 CT 图像通用特征的能力。
在这里插入图片描述

完整训练数据的 CC-CCII 和 RICORD 数据集上的 3D 微调结果

医学语义分割实验结果显示,在 2D 医学语义分割结果中,UniMedI 明显优于当前最先进的 MGCA 算法,当使用 1% 的训练数据时,UniMedI 达到了 67.8% 的 Dice。在 3D 医学语义分割结果中,UniMedI 在 BCV 数据集上与 UniMiss 相比,当有限标签可用性为 40% 和 100% 时,精度分别比 UniMiss 提高了 0.6% 和 0.4%,如下图所示。

  • 医学语义分割实验:用来评估分割性能,使用 RSNA 肺炎正视图胸片,和 BCV 数据集(包括 50 张 CT 扫描)。
    在这里插入图片描述

这些结果验证了 UniMedI 在提取有意义的特征和有效利用有限注释数据方面具有强大的优越性,证明了其在利用局部表示进行语义分割任务时具备更高的熟练程度。

科技助力,加深 VLP 与医学图像的羁绊

视觉语言预训练模型正在成为连接计算机视觉和自然语言处理的重要桥梁,尤其是在医学图像领域,通过大规模的视觉和语言数据进行预训练,它们能够轻松捕获复杂医学图像与文本之间的复杂关系,进而辅助医生进行图像诊断,帮助企业进行药物研发,亦或者实现智能的医学图像管理。

本次研究得以入选国际顶会,也从另一方面再次佐证了在人工智能与医学图像的交叉领域,VLP 所蕴藏着的巨大想象空间。 实际上,除了浙江大学与微软亚洲研究院两大团队本次强强联手外,已经有不少实验室针对这一领域进行了攻坚。

比如上述研究中所提到的先进方法之一的 UniMiss,其相关成果早在 2022 年就由澳大利亚阿德莱德大学和西北工业大学计算机学院的团队,以题为「UniMiss : Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrier」刊登在当年的 ECCV。

论文地址:
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33

在这篇研究中,作者主张利用大量的 2D 图像来弥补 3D 数据的不足,旨在建立一个通用的医学自我监督表达学习框架,并命名为 UniMiss。 实验结果显示,相比 ImageNet 预训练和其他高级 SSL (self-Supervised learning) 对手,UniMiss 展示出了极大的优势 ,在 2D/3D 医学图像分析任务中,无论是分割还是分类,其结果均能够人满意。
在这里插入图片描述

不仅如此,在今年的 7 月份,该团队又针对 UniMiss 进行了新一轮研究,并提出了 UniMiss+。目前,相关成果以题为「UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data」收录于知名国际期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence 上。

论文地址:
https://ieeexplore.ieee.org/document/10617802

在这里插入图片描述

在最新的研究中,该团队在 UniMiss+ 中引入了数字重建 X 光片技术,用来模拟 CT 扫描的 X 光片图像,以便访问配对的 CT 和 X 光图像数据。相比上一代 UniMiss 得到了巨大改进。

总而言之,融合人工智能与医学图像的相关科研仍旧在火热进行,假以时日,这些成果也必将转化为应用,落地到真实的医学场景中去,成为造福医务工作人员、患者、企业的新工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2220915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker本地镜像发布到阿里云镜像服务的简易指南

1 阿里云容器镜像服务 阿里云容器镜像服务(Alibaba Cloud Container Registry,简称ACR)是一个为容器镜像、Helm Chart等云原生资产提供安全托管及高效分发的平台。它支持多架构容器镜像,包括Linux、Windows、ARM等,以…

心觉:感恩日记:每天5分钟,重新定义你的人生

​Hi,我是心觉,与你一起玩转潜意识、脑波音乐和吸引力法则,轻松掌控自己的人生! 挑战每日一省写作207/1000天 你是否觉得生活节奏太快,总是有做不完的事、解决不完的问题? 有一个简单的方法,…

DEPT_ DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING

论文汇总 当前的问题 (1)Prompt Tuning通常收敛缓慢,并且对初始化敏感; (2)Prompt Tuning延长了输入序列的总长度,从而加剧了计算需求(即训练/推理时间和内存成本),这是由于Transformer的二次复杂度(Vaswani et al, 2017)。 解…

机器视觉系统硬件组成之工业相机篇

工业相机是一种非常重要的机器视觉器件,它能够将被采集的图像信息通过电路转换成电信号,再通过模数转换器(ADC)将其转化为数字信号,最后以标准的视频信号输出。工业相机在机器视觉领域得到了广泛应用,包括质…

springboot055服装生产管理的设计与实现(论文+源码)_kaic

毕业设计(论文) 协力服装厂服装生产管理系统 的设计与实现 学生姓名 XXX 学 号 XXXXXXXX 分院名称 XXXXXXXX 专业班级 XXXXX 指导教师 XXXX 填写…

CROss PlatformS (CROPS) 与 Docker

CROPS 是一个开源的、跨平台的开发框架,专为利用 Docker 容器在 Windows、macOS 和 Linux 系统上创建和管理构建主机而设计。它简化了在非 Linux 系统上运行 Yocto 项目及其他基于 Linux 的工具的过程,同时提供了一个可扩展的开发环境,支持多…

基于vue框架的的地铁站智慧管理系统的设计n09jb(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,上班打卡,下班打卡,人员管理,交接班,视频巡检,车辆巡检,车辆管理 开题报告内容 基于Vue框架的地铁站智慧管理系统的设计开题报告 一、研究背景与意义 随着城市化进程的加速,地铁站作为城市交通系统的重要组成部分&am…

全能型选手视频播放器VLC 3.0.21 for Windows 64 bits支持Windows、Mac OS等供大家学习参考

全能型选手视频播放器,支持Windows、Mac OS、Linux、Android、iOS等系统,也支持播放几乎所有主流视频格式。 推荐指数: ★★★★★ 优点: ◆、界面干净简洁,播放流畅 ◆、支持打开绝大多数的文件格式,包…

用Aconvert.com将MOBI文件转换为PDF:一步步指南

在今天的数字时代,文件格式转换是日常办公和学习中常见的需求之一。MOBI格式的电子书文件在某些设备上不太方便阅读,而PDF格式则更加通用。本文将为你详细介绍如何使用Aconvert.com将MOBI文件转换为PDF文件。 1. 访问Aconvert.com 首先,打开…

装修公司行业通用的小程序源码系统 让装修公司实现信息智能化 带完整的安装代码包以及搭建部署教程

系统概述 装修公司行业通用的小程序源码系统是一款专门为装修公司设计的智能化解决方案。它基于先进的技术架构,结合装修行业的特点和需求,为装修公司提供了全方位的业务支持和管理功能。 该系统通过小程序的形式呈现给用户,方便客户随时随…

MacOS13虚拟机VMware Workstation Pro 16安装

资源 安装unlocker 安装虚拟机 低版本的还没有MacOS13选项,这也是我安装低版本虚拟机踩过的坑 找个教程安装就可以了 省略…自己去找找教程… 过程中我使用桥接是不行的,没有网络,后面重新下一步一步的选择默认的网络重装后就好了&am…

基于yolov10的驾驶员抽烟打电话安全带检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv10的驾驶员抽烟、打电话、安全带检测系统是一种先进的驾驶行为监测系统。该系统利用YOLOv10算法的高效性和准确性,实现对驾驶员行为的实时检测与识别。 YOLOv10是一种最新的实时物体检测模型,其通过深度学习技术,如卷…

如何看ip属于什么地址

在数字化时代,IP地址作为互联网通信的基石,扮演着至关重要的角色。无论是网络管理、安全防护,还是日常的网络访问,理解IP地址的性质和分类都是必不可少的技能。本文将深入探讨如何判断一个IP地址属于哪一类地址,并详细…

Java项目-基于springboot框架的校园医疗保险管理系统项目实战(附源码+文档)

作者:计算机学长阿伟 开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。 开发运行环境 开发语言:Java数据库:MySQL技术:SpringBoot、Vue、Mybaits Plus、ELementUI工具:IDEA/…

Spring Boot整合Stripe订阅支付指南

在当今的在线支付市场中,Stripe 作为一款一体化的全球支付平台,因其易用性和广泛的支付方式支持,得到了许多企业的青睐。本文将详细介绍如何在 Spring Boot 项目中整合 Stripe 实现订阅支付功能。 1.Stripe简介 Stripe 是一家为个人或公司提…

低代码赋能项目管理系统:打造高效协同的数字化工作环境

项目管理是企业日常运营中的重要环节,其运作效率直接关系到项目的成功交付、资源的优化配置及企业的市场竞争力。然而,传统的项目管理系统却面临着诸多挑战。 传统管理系统开发周期长、耗资大、需要大量时间和资源来定制和优化。同时,高昂的维…

K8s-pod详解3(pod调度)

Pod调度 在默认情况下,一个Pod在哪个Node节点上运行,是由Scheduler组件采用相应的算法计算出来的,这个过程是不受人工控制的。但是在实际使用中,这并不满足的需求,因为很多情况下,我们想控制某些Pod到达某…

基于卷积神经网络的花卉分类系统,resnet50,mobilenet模型【pytorch框架+python源码】

更多目标检测和图像分类识别项目可看我主页其他文章 功能演示: 卷积神经网络,花卉识别系统,resnet50,mobilenet【pytorch框架,python源码】_哔哩哔哩_bilibili (一)简介 基于卷积神经网络的…

SpringSecurity源码分析以及如何解决前后端分离出现的跨域问题

解决Security前后端分离出现的跨域问题 一. Security源码分析 首先在看源码之前我们先来看这张图 , 这张图展示了Security执行的全部流程 从上图可知Security执行的入口是UsernamePasswordAuthenticationFilter这个抽象类 , 那我们就先从该类进行分析 1. UsernamePasswordAu…

029_基于nodejs外卖网站设计和实现

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍:CodeMentor毕业设计领航者、全网关注者30W群落,InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者,博客领航之星、开发者头条/腾讯云/AW…