图
医学图像分割任务
代码
import torch
import torch.nn as nn
from timm.models.layers import DropPath
# 论文:D-Net:具有动态特征融合的动态大核,用于体积医学图像分割(3D图像任务)
# https://arxiv.org/abs/2403.10674
#代码:https://github.com/sotiraslab/DLK
'''
动态特征融合(DFF)模块:
我们提出了一个动态特征融合(DFF)模块,基于全局信息自适应地融合多尺度局部特征(图2)。
它是通过根据其全局信息动态选择重要特征来实现的融合。
具体来说,特征映射F l 1和F l 2沿着通道连接起来。
为了确保以下块可以采用融合特性,
需要一个通道减少机制来将通道的数量减少到原来的通道。
DFF中的信道减少采用1×1×1卷积,而不是简单的全局×信息。
通过级联平均池化(AVGPool)、卷积层(Conv1)和Sigmoid激活来提取这些信息来描述特征的重要性。
主要用于3D医学图像分割任务,同时也适用于所有CV3D图像任务。
'''
class DFF(nn.Module):
def __init__(self, dim):
# 调用父类的初始化方法
super().__init__()
# 创建一个自适应平均池化层,用于全局特征提取
self.avg_pool = nn.AdaptiveAvgPool3d(1)
# 创建一个顺序模型,用于特征的注意力加权
self.conv_atten = nn.Sequential(
nn.Conv3d(dim * 2, dim * 2, kernel_size=1, bias=False), # 3D卷积层,用于特征的线性变换
nn.Sigmoid() # Sigmoid激活函数,用于生成注意力权重
)
# 3D卷积层,用于特征的降维
self.conv_redu = nn.Conv3d(dim * 2, dim, kernel_size=1, bias=False)
# 3D卷积层,用于生成空间注意力
self.conv1 = nn.Conv3d(dim, 1, kernel_size=1, stride=1, bias=True)
# 另一个3D卷积层,用于生成空间注意力
self.conv2 = nn.Conv3d(dim, 1, kernel_size=1, stride=1, bias=True)
# Sigmoid激活函数,用于生成最终的空间注意力权重
self.nonlin = nn.Sigmoid()
def forward(self, x, skip):
'''
in: self, x, skip
x: 输入特征图1
skip: 输入特征图2(跳跃连接)
out: output
'''
# 沿通道维度拼接两个特征图
output = torch.cat([x, skip], dim=1)
# 使用平均池化和注意力卷积生成全局通道注意力
att = self.conv_atten(self.avg_pool(output))
# 将全局通道注意力应用于拼接后的特征图
output = output * att
# 使用降维卷积减少特征图的通道数
output = self.conv_redu(output)
# 使用两个卷积层分别生成空间注意力
att = self.conv1(x) + self.conv2(skip)
# 应用非线性激活函数生成最终的空间注意力权重
att = self.nonlin(att)
# 将空间注意力应用于降维后的特征图
output = output * att
# 返回最终的输出特征图
return output
"""HELP:
DFF 类实现了一个动态特征融合模块,它接收两个输入特征图 x 和 skip,这两个特征图通常是来自编码器的不同层。
在 __init__ 方法中,定义了模型所需的所有卷积层和激活函数。
forward 方法定义了模型的前向传播过程:
1 将两个输入特征图沿通道维度拼接。
2 使用平均池化和注意力卷积生成全局通道注意力。
3 将全局通道注意力应用于拼接后的特征图。
4 使用降维卷积减少特征图的通道数。
5 使用两个卷积层分别生成空间注意力,并将它们相加。
6 应用非线性激活函数生成最终的空间注意力权重。
7 将空间注意力应用于降维后的特征图,得到最终的输出特征图。
"""
if __name__ == '__main__':
input1 = torch.randn(1, 32, 16, 64, 64) # x: (B, C, D,H, W) 3D图像维度
input2 = torch.randn(1, 32, 16, 64, 64) # x: (B, C, D,H, W) 3D图像维度
model = DFF(32)
output = model(input1,input2)
print("DFF_input size:", input1.size())
print("DFF_Output size:", output.size())
原文
[2403.10674] D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation (arxiv.org)
代码: sotiraslab/DLK (github.com)
摘要:
Hierarchical transformers have achieved significant success in medical image segmentation due to their large receptive field and capabilities of effectively leveraging global long-range contextual information. Convolutional neural networks (CNNs) can also deliver a large receptive field by using large kernels, enabling them to achieve competitive performance with fewer model parameters. However, CNNs incorporated with large convolutional kernels remain constrained in adaptively capturing multi-scale features from organs with large variations in shape and size due to the employment of fixed-sized kernels. Additionally, they are unable to utilize global contextual information efficiently. To address these limitations, we propose Dynamic Large Kernel (DLK) and Dynamic Feature Fusion (DFF) modules. The DLK module employs multiple large kernels with varying kernel sizes and dilation rates to capture multi-scale features. Subsequently, a dynamic selection mechanism is utilized to adaptively highlight the most important spatial features based on global information. Additionally, the DFF module is proposed to adaptively fuse multi-scale local feature maps based on their global information. We integrate DLK and DFF in a hierarchical transformer architecture to develop a novel architecture, termed D-Net. D-Net is able to effectively utilize a multi-scale large receptive field and adaptively harness global contextual information. Extensive experimental results demonstrate that D-Net outperforms other state-of-the-art models in the two volumetric segmentation tasks, including abdominal multi-organ segmentation and multi-modality brain tumor segmentation. Our code is available at this https URL.
在医学图像分割领域,分层变换器(Hierarchical transformers)因其具有较大的感受野和有效利用全局长距离上下文信息的能力而取得了显著的成功。卷积神经网络(CNNs)也可以通过使用大卷积核来实现大感受野,这使得它们在模型参数较少的情况下也能取得有竞争力的性能。然而,采用大卷积核的CNN在适应性地捕获形状和大小变化较大的器官的多尺度特征方面存在限制,因为它们使用的是固定大小的卷积核。此外,它们也未能有效地利用全局上下文信息。为了解决这些限制,我们提出了动态大核(DLK)和动态特征融合(DFF)模块。DLK模块采用多个具有不同核大小和扩张率的大卷积核来捕获多尺度特征。随后,利用动态选择机制根据全局信息自适应地突出显示最重要的空间特征。此外,DFF模块被提出用于根据全局信息自适应地融合多尺度局部特征图。我们将DLK和DFF集成到分层变换器架构中,开发了一种称为D-Net的新型架构。D-Net能够有效地利用多尺度大感受野并自适应地利用全局上下文信息。广泛的实验结果表明,在包括腹部多器官分割和多模态脑肿瘤分割在内的两项体积分割任务中,D-Net的性能超过了其他最先进的模型。我们的代码可在 https://github.com/sotiraslab/DLK 上获取。