【论文阅读】MedCLIP: Contrastive Learning from Unpaired Medical Images and Text

news2024/12/28 5:54:42

【论文阅读】MedCLIP: Contrastive Learning from Unpaired Medical Images and Text

  • 1.论文背景与动机
  • 2.MedCLIP的贡献
  • 3.提出的方法
  • 4.构建语义相似矩阵的过程
  • 5. 实验
  • 6. 结论与局限性

论文地址: pdf

github地址:项目地址

Zifeng Wang, Zhenbang Wu, Dinesh Agarwal, Jimeng Sun

Accepted by EMNLP’22
在这里插入图片描述

1.论文背景与动机

  • 医学图像与文本对比学习:传统的视觉-文本对比学习(如CLIP)通过匹配配对的图像和文本嵌入来提高表示学习的可转移性,并支持零样本预测,然后,医疗图像-文本数据集远小于互联网上的通用图像和标题
  • 数据不足与假阴性问题:医疗图像和报告之间的差异更加微妙和细粒度,导致传统方法产生假阴性,即不同患者的图像和报告可能具有相同的语义,但是错误的被视为负样本。
    在这里插入图片描述

2.MedCLIP的贡献

为了应对上述的挑战,提出医疗一种简单有效的方法,即MedCLIP,它有一下的贡献:

  • 解耦图像和文本:MedCLIP通过解耦图像和文本进行多模态对比学习,以组合方式扩展可训练数据,降低成本。
  • 基于医学知识的语义匹配损失:提出基于医学知识的语义匹配损失替代InfoNCE损失,以消除学习中的假阴性。

3.提出的方法

在这里插入图片描述

  • 视觉和文本编码器: 使用视觉编码器和文本编码器将图像和文本编码为嵌入向量
  • 医学知识提取器: 通过MetaMap工具从原始医疗报告中提取实体,并构建语义相似矩阵,实现任意两个独立采样的图像和文本的配对
  • 语义匹配损失: 通过比较图像和文本的语义标签来桥接图像和文本,是哟个softmax函数计算软目标和预测相似度,最总通过交叉损失进行训练。

4.构建语义相似矩阵的过程

  • 实体提取:首先,从医学文本中提取关键实体。例如,从文本“Small, nodular opacity in the right upper lobe”中提取“Lung Lesion”和“Lung Opacity”作为关键词
  • 构建目标与知识提取: 使用这些提取的实体构建目标,即知识提取器,它帮助识别和关联图像和文本数据集中的相关信息。
  • 医学图像和标签的处理: 系统从医学图像数据集中采样一批图像,这些图像可能被标记为“Normal: 0”和“Pneumonia: 1”等。
  • 编码器与嵌入提取: 文本编码器和图像编码器分别处理文本数据和图像数据,将他们转化为嵌入(即数学表达式形式),便于机器处理
  • 构建语义相似性矩阵: 根据提取的实体与图像标签构建一个语义相似性矩阵。这个矩阵衡量不同医学实体之间的相似性。具体来说,这个矩阵是通过对比文本实体和图像标签之间的语义相似度来构建1的。例如如果两个文本实体描述了相似的医学概念,或者一个同图像标签与一个文本实体与语义上相近,那么他们在语义相似矩阵中对对应的值就会较高。
  • 语义匹配损失计算: 利用预测的相似性矩阵计算语义匹配损失,以优化模型的性能,这涉及比较实际的相似性(从知识提取器得出)和模型预测的相似性。

5. 实验

  • 数据集:使用四个X射线数据集进行实验,包括CheXpert、MIMIC-CXR、COVID和RSNA Pneumonia。
  • 基线模型:与随机初始化模型、ImageNet预训练模型、CLIP和ConVIRT、GLoRIA等进行比较。
  • 实验结果:
    • 零样本分类:MedCLIP在所有数据集上均优于基线模型。
    • 数据效率:即使使用较少的训练数据,MedCLIP也优于使用更多数据的现有方法。
    • 微调分类:MedCLIP在微调后的分类任务中也表现最佳。
    • 图像-文本检索:MedCLIP在图像-文本检索任务中表现最佳,表明学习到的嵌入具有良好的语义信息。
    • 嵌入可视化:通过t-SNE可视化,MedCLIP生成的嵌入比CLIP更好地聚集。

6. 结论与局限性

  • 结论:MedCLIP是一个简单而有效的框架,通过扩展训练数据规模和引入医学知识,提高了预训练数据效率,并在零样本预测、监督分类和图像-文本检索任务中表现出色。
  • 局限性:尽管MedCLIP能够达到与微调模型相当的零样本预测准确性,但仍不适用于实际应用,首先是会遇到检测不正确的语义标签或缺失检测否定或不确定性短语的失败案例,其次是可能需要更多的预训练数据和改进的提示生成方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2266779.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

雷电模拟器安装Lxposed

雷电模拟器最新版支持Lxposed。记录一下安装过程 首先到官网下载并安装最新版,我安装的时候最新版是9.1.34.0,64位 然后开启root和系统文件读写 然后下载magisk-delta-6并安装 ,这个是吾爱破解论坛提供的,号称适配安卓7以上所有机型&#x…

全解:Redis RDB持久化和AOF持久化

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

VMware虚拟机安装银河麒麟操作系统KylinOS教程(超详细)

目录 引言1. 下载2. 安装 VMware2. 安装银河麒麟操作系统2.1 新建虚拟机2.2 安装操作系统2.3 网络配置 3. 安装VMTools 创作不易,禁止转载抄袭!!!违者必究!!! 创作不易,禁止转载抄袭…

HTML5实现喜庆的新年快乐网页源码

HTML5实现喜庆的新年快乐网页源码 前言一、设计来源1.1 主界面1.2 关于新年界面1.3 新年庆祝活动界面1.4 新年活动组织界面1.5 新年祝福订阅界面1.6 联系我们界面 二、效果和源码2.1 动态效果2.2 源代码 源码下载结束语 HTML5实现喜庆的新年快乐网页源码,春节新年网…

5G学习笔记之Non-Public Network

目录 0. NPN系列 1. 概述 2. SNPN 2.1 SNPN概述 2.2 SNPN架构 2.3 SNPN部署 2.3.1 完全独立 2.3.2 共享PLMN基站 2.3.3 共享PLMN基站和PLMN频谱 3. PNI-NPN 3.1 PNI-NPN概述 3.2 PNI-NPN部署 3.2.1 UPF独立 3.2.2 完全共享 0. NPN系列 1. NPN概述 2. NPN R18 3. 【SNPN系列】S…

大语言模型(LLM)中大数据的压缩存储及其重要性

在大型语言模型(LLM)中,KV Cache(键值缓存)的压缩方法及其重要性。 为什么要压缩KV Cache? 计算效率:在生成文本的过程中,每个生成的token都需要与之前所有的token的键值&#xff…

canvas之进度条

canvas之进度条 效果&#xff1a; 封装的组件 <template><div class"circle" :style"{ width: props.radius px, height: props.radius px }"><div class"circle-bg" :style"{ width: props.radius - 5 px, height: pr…

Boost之log日志使用

不讲理论&#xff0c;直接上在程序中可用代码&#xff1a; 一、引入Boost模块 开发环境&#xff1a;Visual Studio 2017 Boost库版本&#xff1a;1.68.0 安装方式&#xff1a;Nuget 安装命令&#xff1a; #只安装下面几个即可 Install-package boost -version 1.68.0 Install…

18.springcloud_openfeign之扩展组件二

文章目录 一、前言二、子容器默认组件FeignClientsConfigurationDecoder的注入Contract约定 对注解的支持对类上注解的支持对方法上注解的支持对参数上注解的支持MatrixVariablePathVariableRequestParamRequestHeaderSpringQueryMapRequestPartCookieValue FormattingConversi…

7-8 N皇后问题

目录 题目描述 输入格式: 输出格式: 输入样例: 输出样例: 解题思路&#xff1a; 详细代码&#xff08;dfs&#xff09;&#xff1a; 简单代码&#xff08;打表&#xff09;&#xff1a; 题目描述 在NN格的国际象棋盘上摆放N个皇后&#xff0c;使其不能互相攻击&#xff0c;即任…

现代网络负载均衡与代理导论

大家觉得有有参考意义和帮助记得及时关注和点赞&#xff01;&#xff01;&#xff01; Service mesh 是近两年网络、容器编排和微服务领域最火热的话题之一。Envoy 是目前 service mesh 数据平面的首选组件。Matt Klein 是 Envoy 的设计者和核心开发。 文章循序渐进&#xff0…

Kubernetes Gateway API-2-跨命名空间路由

1 跨命名空间路由 Gateway API 具有跨命名空间路由的核心支持。当多个用户或团队共享底层网络基础设施时,这很有用,但必须对控制和配置进行分段,以尽量减少访问和容错域。 Gateway 和 Route(HTTPRoute,TCPRoute,GRPCRoute) 可以部署到不同的命名空间中,路由可以跨命名空间…

Wend看源码-Java-集合学习(List)

摘要 本篇文章深入探讨了基于JDK 21版本的Java.util包中提供的多样化集合类型。在Java中集合共分类为三种数据结构&#xff1a;List、Set和Queue。本文将详细阐述这些数据类型的各自实现&#xff0c;并按照线程安全性进行分类&#xff0c;分别介绍非线程安全与线程安全的实现方…

集成方案 | Docusign + 蓝凌 EKP,打造一站式合同管理平台,实现无缝协作!

本文将详细介绍 Docusign 与蓝凌 EKP 的集成步骤及其效果&#xff0c;并通过实际应用场景来展示 Docusign 的强大集成能力&#xff0c;以证明 Docusign 集成功能的高效性和实用性。 在当今数字化办公环境中&#xff0c;企业对于提高工作效率和提升用户体验的需求日益迫切。蓝凌…

突围边缘:OpenAI开源实时嵌入式API,AI触角延伸至微观世界

当OpenAI宣布开源其名为openai-realtime-embedded-sdk的实时嵌入式API时&#xff0c;整个科技界都为之震惊。这一举动意味着&#xff0c;曾经遥不可及的强大AI能力&#xff0c;如今可以被嵌入到像ESP32这样的微型控制器中&#xff0c;真正地将AI的触角延伸到了物联网和边缘计算…

webrtc-internals调试工具

Google 的 Chrome&#xff08;87 或更高版本&#xff09;WebRTC 内部工具是一套内置于 Chrome 浏览器中的调试工具; webrtc-internals 能够查看有关视频和音频轨道、使用的编解码器以及流的一般质量的详细信息。这些知识对于解决音频和视频质量差的问题非常有帮助。 webrtc-int…

使用Webpack构建微前端应用

英文社区对 Webpack Module Federation 的响应非常热烈&#xff0c;甚至被誉为“A game-changer in JavaScript architecture”&#xff0c;相对而言国内对此热度并不高&#xff0c;这一方面是因为 MF 强依赖于 Webpack5&#xff0c;升级成本有点高&#xff1b;另一方面是国内已…

[bug]java导出csv用Microsoft Office Excel打开乱码解决

[bug]java导出csv用Microsoft Office Excel打开乱码 ‍ 现象 首先这个csv文件用macbook自带的 "Numbers表格" 软件打开是不乱码的, 但是使用者是Windows系统,他的电脑没有"Numbers表格"工具, ​​ 他用Microsoft Office Excel打开之后出现乱码,如下图…

关于分布式数据库需要了解的相关知识!!!

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///计算机爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于关于分布式数据库方面的相关内容&a…

tortoisegit推送失败

tortoisegit推送失败 git.exe push --progress -- "origin" testLidar:testLidar /usr/bin/bash: gitgithub.com: No such file or directory fatal: Could not read from remote repository. Please make sure you have the correct access rights and the reposit…