MedCLIP：CLIP + 医学语义匹配策略，解决模型误将不同患者同病症视为不相关

news2025/2/23 7:07:04

MedCLIP：CLIP + 医学语义匹配策略，解决模型误将不同患者同病症视为不相关

提出背景
流程图
解法拆解
子解法1：知识提取
子解法2：视觉和文本编码器
子解法3：语义匹配损失

论文：https://arxiv.org/pdf/2210.10163v1

代码：https://github.com/RyanWangZf/MedCLIP

现有的视觉-文本对比学习，如CLIP的目标是匹配配对的图像和标题嵌入，同时将其他嵌入推开，这改善了表示的可转移性并支持零样本预测。

然而，医学图像-文本数据集的数量远低于互联网上的普通图像和标题。

此外，以前的方法遇到了许多假阴性，即来自不同患者的图像和报告可能具有相同的语义，但错误地被视为阴性。

医生们使用X光图来诊断肺炎。

现在，我们有两张X光图，每张都显示了肺炎的特征，但这两张X光图来自不同的患者。

在使用CLIP这样的传统对比学习模型时，这种模型会试图找出图像和相对应的文本（比如诊断报告）之间的匹配关系。

但如果这些图像和文本来自不同的数据集（比如不同的患者），即使它们显示的是相同的病症（如肺炎），模型也会认为它们是不相关的。

这就是所谓的“假阴性”——实际上它们是相关的，因为都显示了肺炎，但模型错误地将它们归类为不相关。

这样的错误会影响模型的判断效果，使得模型在实际应用中的准确性和有用性下降。

因此，医学领域在使用这种模型时需要特别小心，以确保不会因为这种假阴性错误而错过正确的诊断信息。

我们用基于医学知识的语义匹配损失替换InfoNCE损失，以消除对比学习中的假阴性。

此外，我们为多模态对比学习解耦图像和文本，从而以低成本将可用训练数据扩展到组合量级。

目前在医学图像分析领域存在两个主要问题：

可用数据有限：许多医学图像数据集只提供了疾病的标签（比如“肺炎”），而没有提供详细的诊断报告。

因为有些研究方法需要同时使用图像和对应的详细文本报告，所以如果只有图像没有文本，或者只有文本没有图像，这些数据就不能被这些方法使用。

解耦图像和文本：MedCLIP方法不需要每个图像都必须有对应的文本报告，反之亦然。

这样就可以使用更多原本因为不是成对的而无法使用的图像和文本数据，大大增加了可以用于训练的数据量。
基于医学知识的多模态学习：这个方法通过利用医学知识，而不是单纯增加数据量，来提升模型对医学图像和文本的理解能力。

MedCLIP 方法通过一种创新的方式，使得我们可以使用更多以前无法使用的数据，同时减少了假阴性错误判断的情况，从而提高了医学图像分析的准确性和效率。

在这里插入图片描述

这张图展示了MedCLIP模型的工作流程。

MedCLIP是一个用于处理医学图像和文本数据的对比学习系统。下面是该图描述的各个步骤：

实体提取：
- 从医学文本中提取关键实体（如图中示例文本“Small, nodular opacity in the right upper lobe”中提取了"Lung Lesion"和"Lung Opacity"作为关键词）。
- 这些实体用于进一步分析和构建知识库。
目标构建与知识提取：
- 使用提取的实体构建目标，即知识提取器，它将帮助识别和关联图像和文本数据集中的相关信息。
医学图像与标签：
- 同时，系统从医学图像数据集中采样一批图像（图中的示例包括标记为“Normal: 0”和“Pneumonia: 1”的图像）。
编码器与嵌入提取：
- 文本编码器和图像编码器分别处理文本数据和图像数据，将它们转化为嵌入（即数学表达形式），便于机器处理。
语义相似性矩阵的构建：
- 根据提取的文本实体和图像标签构建一个语义相似性矩阵，该矩阵衡量不同医学实体之间的相似性。
语义匹配损失计算：
- 利用预测的相似性矩阵计算语义匹配损失，以优化模型的性能。这涉及比较实际的相似性（从知识提取器得出）和模型预测的相似性。