AI在医学领域:HYDEN一种针对医学图像和报告的跨模态表示学习方法

news2025/1/10 20:46:22

      近年来,跨模态文本-图像表示学习在诸多领域取得了显著的突破,尤其是在零样本学习和图像-文本检索等任务上。这一成果的取得很大程度上归功于大量弱监督的图像-文本配对数据的利用,这些数据有效地增强了视觉-语言表示学习的能力。在医学成像领域,针对特定领域数据(例如胸部X光片及其相关放射学报告)的跨模态表示学习已经催生出了在该领域表现卓越的基础模型。

      俗话说,“一图胜千言”。这恰恰说明了图像所蕴含的信息量远胜于文字描述,而文字描述往往只是图像的一种简化表达。在这种关系中,文本可以被看作是图像的一种蕴含,构成了视觉语义层次结构的一部分。将这种视觉语义层次结构的归纳偏差融入跨模态对齐任务中,有助于提升表示的泛化能力和可解释性。

(a) 展示了医学文本-图像领域中的视觉-语义层次,阐释了不同的医学概念如何组织和相互联系,以及它们与医学图像的关联。

(b) 描述了医学数据嵌入从欧几里得空间过渡到超球面空间的表示,这种转换可以有效地捕获和表示密度偏序关系,同时保持相对密度关系的完整性。

      本文提出HYDEN,一种针对医学图像和报告的超球面密度表示方法。这种方法利用了超球面空间捕捉视觉语义层次的优势,同时结合了概率密度嵌入策略来模拟语义不确定性。

1 相关工作

1.1 欧几里得空间中的图像-文本表示学习

   CLIP 模型是这类方法的代表,它使用大量弱监督的图像-文本对数据进行训练,并通过对比学习的方式学习图像和文本的表示。这类方法在通用领域取得了很好的效果,但可能无法很好地处理医学领域数据的复杂性和特异性。

1.2 针对医学领域的图像-文本表示学习

一些研究针对医学领域的数据特点,提出了专门用于医学图像-文本表示学习的模型,例如 MERU 框架。这类模型通常在欧几里得空间中进行训练,并利用医学领域的先验知识来提升模型性能。

1.3 超越欧几里得空间的图像-文本表示学习

MERU 框架将图像和文本特征映射到双曲空间中,利用双曲空间的层级结构优势来学习图像-文本表示。这类模型能够更好地处理医学领域数据中的层级语义关系,但仍然使用点向量来表示图像和文本,无法有效表达语义不确定性。

1.4 概率密度嵌入

一些研究使用概率密度嵌入来表示图像和文本,例如 Gaussian Embedding。这类方法能够有效地表达语义不确定性,但主要应用于欧几里得空间,并且通常用于文档嵌入和图嵌入等任务。

2 方法

2.1 图像-文本特征嵌入

  • 文本编码器: 使用 BioClinicalBERT 对文本数据进行编码,提取文本特征。BioClinicalBERT 是一个在 MIMIC III 数据集上预训练的模型,能够有效地捕捉医学文本的语义信息。
  • 图像编码器: 使用 Vision Transformer (ViT) 对图像数据进行编码,提取图像特征。ViT 是一种基于 Transformer 的图像编码器,能够有效地捕捉图像的局部和全局特征。
  • 文本感知局部图像表示: 为了更好地捕捉医学图像的局部语义特征,HYDEN 引入了一个自注意力模块。该模块将文本嵌入作为查询,将图像特征作为键和值,从而生成文本感知的局部图像特征。最终图像特征是全局特征和局部特征的组合。

2.2 超双曲密度嵌入

  • 密度表示: HYDEN 使用超双曲伪高斯分布来表示图像和文本特征。这种表示方式能够有效地捕捉语义不确定性,并更好地表示医学数据的复杂性。
  • 映射到超双曲空间: HYDEN 将图像和文本的密度表示映射到超双曲空间。这通过使用指数映射函数来实现,将欧几里得空间中的向量映射到超双曲空间中的点。

2.3 损失函数

  • 封装损失函数: HYDEN 使用封装损失函数来建模图像-文本密度分布之间的部分排序关系。封装损失函数利用 α-散度来衡量两个分布之间的差异,并通过惩罚函数来确保一个分布完全包含另一个分布。
  • 对比损失函数: HYDEN 使用对比损失函数来增强图像和文本语义分布之间的相似性。对比损失函数通过计算超双曲空间中两个分布的测地线距离来实现。

3 实验

3.1 基线模型

  • CLIP: 在欧几里得空间中使用点嵌入进行图像-文本对齐的模型。
  • MERU: 在超双曲空间中使用点嵌入进行图像-文本对齐的模型。

3.2 数据集

  • MIMIC-CXR v2: 用于模型预训练的大型胸部 X 光图像和报告数据集。
  • RSNA Pneumonia: 用于零样本图像分类的胸部 X 光图像数据集。
  • SIIM-ACR Pneumothorax: 用于零样本图像分类的胸部 X 光图像数据集。
  • ChestXray14: 用于零样本图像分类、文本-图像检索和图像-图像检索的胸部 X 光图像数据集。

3.3 实验设置

  • 采用ViT-B 作为图像编码器,补丁大小为16,因为它在超球面空间中表现出了竞争性能。图像/文本编码器初始化策略与MERU类似,只是使用ClinicalBERT作为预训练的文本编码器,它已在大规模医学文本数据上进行了预训练。对于HYDEN,将可学习的曲率参数c初始化为1.0,并将其限制在[0.1, 10.0]的范围内,以防止训练不稳定。所有实验都使用两台NVIDIA A40 GPU和PyTorch框架进行。
  • 优化:采用AdamW优化器,权重衰减为0.2,(β1, β2) = (0.9, 0.98)。对于所有的增益、偏差和可学习的标量,不使用权重衰减。模型训练了13,000次迭代,批量大小为256。最大学习率设置为1 × 10^-5,在前500次迭代中线性增加,然后余弦衰减至零。使用混合精度来加速训练,除了在计算指数映射和损失时,为了数值稳定性使用FP32精度。

3.4 评估任务

  • 零样本图像分类: 评估模型在没有标签数据的情况下进行图像分类的能力。
  • 零样本文本-图像检索: 评估模型使用文本查询检索图像的能力。
  • 零样本图像-图像检索: 评估模型使用图像查询检索图像的能力。

3.5 实验结果

  • 定量分析: HYDEN 在零样本图像分类、文本-图像检索和图像-图像检索任务上都取得了优于 CLIP 和 MERU 的性能。这表明 HYDEN 模型能够更好地捕捉医学图像和报告之间的层次语义关系,并学习到更具可解释性和泛化能力的视觉语义表示。
  • 定性分析: HYDEN 模型能够有效地捕捉图像和文本嵌入之间的部分排序关系,这表明模型能够理解图像和文本之间的层次语义结构。

3.6 结论

       HYDEN 模型在医学图像和报告的跨模态表示学习方面取得了显著的成果。该模型能够有效地捕捉医学数据的复杂性和语义不确定性,并学习到更具可解释性和泛化能力的视觉语义表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2065241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何保证每次生成的都同一张人脸?AI绘画Stable Diffusion的Reference only插件人物一致性教程

Ai绘画有一个很现实的问题,要保证每次画出的都是同一个人物的话,很费劲。 Midjourney就不必说了,人物的高度一致性一直得不到很好的解决。而在Stable Diffusion(SD)中,常用办法是通过同一个Seed值&#xf…

Linux宝塔面板使用教程 - Centos/Alibaba Cloud Linux,解放命令实现可视化

使用前注意事项:为了您的正常使用,请确保使用全新或纯净的系统安装宝塔面板,不支持已部署项目/环境的系统安装 1.安装命令 yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh &&…

Godot《躲避小兵》实战之创建游戏主场景

游戏主场景 现在是时候将我们所做的一切整合到一个可玩的游戏场景中了。 创建新场景并添加一个 Node节点,命名为 Main。(我们之所以使用 Node 而不是 Node2D,是因为这个节点会作为处理游戏逻辑的容器使用。本身是不需要 2D 功能的。&#x…

ZooKeeper 的3种部署模式

ZooKeeper 的3种部署模式 1. 单机模式(Standalone Mode)2. 伪集群模式(Pseudo-Cluster Mode)3. 集群模式(Cluster Mode) 💖The Begin💖点点关注,收藏不迷路💖…

[000-01-011].第2节:持久层方案的对比

我的后端学习大纲 MyBatis学习大纲 1.持久层解决方案: 1.1.面试1:请说一说持久层解决方案有哪些??? 1.jdbc JDBC为访问不同的数据库提供了一种统一的途径,为开发者屏蔽了一些细节问题。Java程序员使用JDB…

Vodafone 推出了与 Wi-Fi 竞争的基于树莓派私人5G技术

随着全球5G网络的逐步推出,在其过程中遇到了可预见的起起伏伏,并且蜂窝技术也开始进入另一个无线技术 Wi-Fi ,并且已经占据的市场。私有5G网络(即个人或公司建立自己的全设施蜂窝网络)如今正在寻找曾经属于Wi-Fi的唯一…

Unity低延迟播放RTSP视频流

Unity播放RTSP视频流这个功能在好几个项目中用到,虽然有一些现成的插件(VLC for unity、UMP)可以使用,但是延迟高(300毫秒以上)的问题一直没法解决。 最近终于下定决心来解决这个问题,经过几天…

基于 Jenkins、Gitlab、Harbor、Helm 和 Kubernetes 的 CI/CD

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

【微服务部署】Linux部署微服务启动报ORA-01005

问题背景: Linux机器部署springboot微服务,部署完成后发现无法启动,后台报ORA-01005错误。 解决方案: 1.检查当前服务器是否已安装oracle客户端 命令行执行sqlplus username/passwd实例名,如果执行成功,说…

【Canvas与艺术】十边曲线形光阑

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>十边曲线型光阑</title><style type"text/css"&g…

机器学习-识别手写数字

机器学习可以首先构建一个神经网络&#xff0c;用于识别手写数字。通过训练数据&#xff0c;优化神经网络的参数。再利用测试数据来测试训练完成后的神经网络的准确度。本次需要下载的库有tensorflow和matplotlib&#xff0c;keras和mnist数据集一般都被集成在tensorflow中了。…

C/C++语言基础--指针三大专题详解3,完结篇(包括指针做函数参数,函数指针,回调函数,左右法则分析复杂指针等)

本专栏目的 更新C/C的基础语法&#xff0c;包括C的一些新特性 前言 指针是C/C的灵魂&#xff0c;和内存地址相关联&#xff0c;运行的时候速度快&#xff0c;但是同时也有很多细节和规范要注意的&#xff0c;毕竟内存泄漏是很恐怖的指针打算分三篇文章进行讲解&#xff0c;本…

LabVIEW多显示器环境下主显示器识别与管理

该程序使用 LabVIEW 图形化编程语言&#xff0c;涉及多显示器环境中主显示器的识别与信息提取。图像显示了两个不同的方法来获取主显示器的信息。 第一部分&#xff1a;方法一——基于显示器位置的主显示器识别 1. 当前监视器识别&#xff1a; 使用“FP.Monitor”属性节点获取…

在AES加密中,设主密钥为“2B 7E 15 16 28 AE D2 A6 AB F7 15 88 09 CF 4F 3C”,试计算迭代第1轮使用的轮密钥。

题解: 1.分析: 第一轮使用的轮密钥是W[4]、W[5]、W[6]、W[7] w[i](4≤i≤43)求法: (1)i不为4的倍数 w[i] = w[i-1] ⊕w[i-4] (2)为4的倍数 w[i]=SubWord(RotWord(w[i-1]))⊕w[i-4]⊕Rcon[i/4] 解释: ①RotWord:将w[i-1]的4个字节循环上移一个字节 ②SubWo…

JVM的类是如何运行的

本文就是讲解 如何将.class文件转换为机器码

U盘中毒文件被隐藏怎么恢复文件?

很多用户都曾经遇到过U盘文件被病毒隐藏的问题&#xff0c;U盘作为拷贝、存储文件最主要的移动存储设备&#xff0c;里面经常存储了重要的文件&#xff0c;如果文件被隐藏了会给用户带来很多麻烦。那么U盘文件被病毒隐藏&#xff0c;应该怎么解决呢&#xff1f;本文列举了有效的…

QT中使用QAxObject类读取xlsx文件内容并显示在ui界面

一、源码 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow>QT_BEGIN_NAMESPACE namespace Ui { class MainWindow; } QT_END_NAMESPACEclass MainWindow : public QMainWindow {Q_OBJECTpublic:MainWindow(QWidget *parent nullptr);~MainWindow();pr…

Andrid异步更新UI:Handler(二)深入了解:Message你真的会创建?它是如何子线程和主线程通知?

目录 为什么会有HandlerHandler的原理&#xff0c;以及对象讲解主线程的loop在哪里&#xff0c;为什么主线程loop没有阻塞呢&#xff1f;Looper如何保证唯一Handler为什么会引发内存泄漏呢&#xff1f;Message应该如何创建它&#xff1f; 一、为什么会有Handler 线程分为主线…

软件工程造价师习题练习 18

1.在软件估算过程中&#xff0c;我们主要对项目的规模&#xff0c;质量&#xff0c;进度和成本进行估算 错误 正确 软件估算不对质量进行估算&#xff0c;只对项目的规模&#xff0c;进度&#xff0c;成本进行估算。 答案&#xff1a;错误 2.在使用类比法进行估算时&#xf…

基于单片机的电子指南针设计

摘要&#xff1a;随着科技的进步与发展&#xff0c;尤其是电子技术的推动下社会逐渐向智能化、信息化和人工智能等方面发展。与此同时市场更加需要掌握精确的方位角度信息&#xff0c;服务到生活、产业、出行、航行等各方各面。传统的指南针由于本身的物理特性&#xff0c;抗干…