论文阅读：MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model

news2026/2/15 0:49:38

论文标题： MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model
翻译：
MedSegDiff：基于扩散概率模型的医学图像分割

名词解释：
高频分量（高频信号）对应着图像变化剧烈的部分，也就是图像的边缘（轮廓）或者噪声以及细节部分。

1. 动态条件编码

在大多数条件DPM中，条件先验是一个唯一的给定信息。然而，医学图像分割是出了名的模糊对象。病变或组织通常很难从其背景中区分出来。
低对比度的图像模式，如核磁共振成像或超声图像，使其更糟。只给定静态图像作为每一步的条件将很难学习。为了解决这个问题，我们提出了每个步骤的动态条件编码。我们注意到，一方面原始图像包含准确的分割目标信息，但难以与背景区分，另一方面，当前步分割图包含增强的目标区域，但不准确。这促使我们去整合当前步分割信息xt转化为有条件的原始图像编码进行相互补全。具体地说，我们在功能级别上实现集成。在原始图像编码器中，我们利用当前步长编码特征来增强其中间特征。条件特征图m k I的每个尺度与形状相同的xt编码特征m k x融合，k为层的指数。这种融合是通过一种类似于注意力的机制a来实现的。特别是，首先将两个特征映射应用层归一化并相乘以获得亲和映射。然后将亲和映射与条件编码特征相乘，增强关注区域。
虽然该策略是有效的，但另一个具体的问题是，积分xt嵌入会产生额外的高频噪声。为了解决这个问题，我们提出了FF-Parser来约束特征中的高频成分。

2. FF-Parser

我们以特征集成的路径方式连接ff解析器。它的功能是约束xt特性中与噪声相关的组件。我们的主要思想是学习一个参数化的关注(权重)映射应用于傅里叶空间特征。给定一个解码器特征映射m，我们首先沿着空间维度执行二维FFT(快速傅立叶变换)，然后，我们通过将参数化的关注映射A乘以M来调制M的频谱，最后，我们采用逆FFT将M0逆回空间域。
FF-Parser可以看作是频率滤波器的一种可学习版本，频率滤波器广泛应用于数字图像处理。与空间关注不同，它对特定频率的分量进行全局调整。从而可以学会约束高频分量进行自适应积分。
在这里插入图片描述

总体结构

总体结构，如图显示了一个t阶段示例。为了实现分割，我们通过原始图像先验条件步长估计函数，在本例中为原始图像嵌入，E x t为当前步骤的分割映射特征嵌入。将这原始图片嵌入和分割映射特征嵌入这两个分量相加并发送到UNet解码器D进行重构。步骤索引t与添加的嵌入和解码器功能集成在一起。在每一种情况下，它都是使用共享学习查找表嵌入的。
在这里插入图片描述