第16章：基于CNN和Transformer对心脏左心室的实验分析及改进策略

news2026/2/14 1:05:48

1. 项目需求

2. 网络选择

2.1 UNet模块

2.2 TransUnet

2.2.1 SE模块

2.2.2 CBAM

2.3 关键代码

3 对比试验

3.1 unet

3.2 transformer+SE

3.3 transformer+CBAM

4. 结果分析

5. 推理

6. 下载

1. 项目需求

本文需要做的工作是基于CNN和Transformer的心脏左心室分割，需要在Transformer网络中进行改进，以求期待更好的分割结果

数据集的样式如下：

这里的标签是这样的：

因为是二值的分割任务，这里心脏的左心室标签全部标记为1，看起来是全黑的，可以可视化看看

2. 网络选择

本文选择的网络是UNet和TransUnet，并且在TransUnet中加入注意力模块

2.1 UNet模块

Unet网络是一种用于图像分割任务的深度学习架构，由Ronneberger等人于2015年提出。Unet的结构类似于自编码器，采用对称的结构，分为编码器和解码器两部分。

编码器部分由卷积层和池化层构成，用于提取图像的特征并逐渐减小空间分辨率。解码器部分则由反卷积层和卷积层构成，用于将编码器提取的特征映射回原始分辨率，并生成分割结果。

在训练过程中，Unet通过将输入图像与对应的标签图像一起输入网络，利用损失函数计算网络输出与标签之间的差异，并通过反向传播算法调整网络参数，使得网络输出能够尽可能地接近标签图像。

Unet网络在图像分割任务中表现出色，尤其在医学图像分割等领域取得了很好的效果。其优点包括较小的参数数量、对少量训练样本的高效利用，以及良好的分割精度。

2.2 TransUnet

TransUNet是一种基于Transformer的图像分割模型，它结合了Transformer的自注意力机制和UNet的编码-解码结构。这个模型由微软研究院提出，旨在应用于医学图像分割任务。

TransUNet模型的架构主要分为两部分：Encoder部分和Decoder部分。Encoder部分主要利用Transformer的自注意力机制来提取图像的全局特征，而Decoder部分则类似于UNet的解码器，用于将特征映射回原始图像的分辨率并生成分割结果。

相较于传统的卷积神经网络，TransUNet模型在处理长程依赖关系和全局特征提取方面具有优势。它可以学习到更加细致和全局的特征表示，有助于提升图像分割的准确性和性能。

总的来说，TransUNet模型是一种结合了Transformer和UNet特点的先进图像分割模型，适用于医学图像等领域的任务。

2.2.1 SE模块

SE模块（Security Enhancement Module）是一种用于增强系统安全性的软件或硬件模块。它通常被用于加固系统的安全性，提高系统的防护能力，防止恶意攻击和数据泄露。SE模块可以实现诸如数据加密、访问控制、身份认证等功能，从而确保系统和数据的安全。在当今信息安全日益重要的环境下，SE模块成为许多系统和应用程序的重要组成部分，帮助用户保护其重要信息和资产不受损害。

2.2.2 CBAM

CBAM模块是一种用于解决关注机制（Attention Mechanism）的问题的模块。它结合了通道注意（Channel Attention）和空间注意（Spatial Attention）的方法，从而能够更加有效地捕捉输入特征图中的重要信息。通过CBAM模块，神经网络可以学习到更加具有区分度的特征表示，从而提升模型在各种视觉任务中的性能表现。CBAM模块已经在许多计算机视觉领域得到了成功的应用，成为提升模型性能的重要工具之一。

2.3 关键代码

代码部分，这里放了三个代码，分别是unet、transformer+SE、transformer+CBAM，可以自行选择

    # 1. cbam  注意力机制
    # model =TransUnet(in_channels=3,img_dim=224,vit_blocks=1,
    #              vit_dim_linear_mhsa_block=512, classes=nc)

    # 添加模块代码
    # model.vit.mlp_head.add_module('cbam', CBAM(1024))
    # model.vit.transformer.layers[0].mhsa.to_qvk.add_module('cbam', CBAM(1024))
    # model.vit.transformer.layers[0].mhsa.W_0.add_module('cbam', CBAM(1024))
    #
    #2.  unet
    model = U_Net(img_ch=3,output_ch=nc)

    # # # 3. se
    # model =TransUnet(in_channels=3,img_dim=224,vit_blocks=1,
    #              vit_dim_linear_mhsa_block=512, classes=nc)
    #
    # # 添加模块代码
    # model.vit.mlp_head.add_module('se', SE_Block(1024))
    # model.vit.transformer.layers[0].mhsa.to_qvk.add_module('se', SE_Block(1024))
    # model.vit.transformer.layers[0].mhsa.W_0.add_module('se', SE_Block(1024))

3 对比试验

因为对比试验，其他的参数都是一样的，如下所示：

    "train parameters": {
        "batch size": 4,
        "lr": 0.001,
        "lrf": 0.01,
        "ct": false,
        "epochs": 100,
        "num classes": 2,
        "best epoch": 96

3.1 unet

最好epoch

    "epoch:97": {
        "train log:": {
            "info": {
                "pixel accuracy": [
                    0.9996318221092224
                ],
                "Precision": [
                    "0.9721"
                ],
                "Recall": [
                    "0.9731"
                ],
                "F1 score": [
                    "0.9726"
                ],
                "Dice": [
                    "0.9726"
                ],
                "IoU": [
                    "0.9466"
                ],
                "mean precision": 0.9721232056617737,
                "mean recall": 0.9730567932128906,
                "mean f1 score": 0.9725897908210754,
                "mean dice": 0.9725897908210754,
                "mean iou": 0.9466421008110046
            }
        },
        "val log:": {
            "info": {
                "pixel accuracy": [
                    0.9994057416915894
                ],
                "Precision": [
                    "0.9563"
                ],
                "Recall": [
                    "0.9568"
                ],
                "F1 score": [
                    "0.9566"
                ],
                "Dice": [
                    "0.9566"
                ],
                "IoU": [
                    "0.9168"
                ],
                "mean precision": 0.9563419818878174,
                "mean recall": 0.9568029046058655,
                "mean f1 score": 0.956572413444519,
                "mean dice": 0.956572413444519,
                "mean iou": 0.916759729385376
            }

3.2 transformer+SE

最好的epoch：

       "train log:": {
            "info": {
                "pixel accuracy": [
                    0.9997045397758484
                ],
                "Precision": [
                    "0.9780"
                ],
                "Recall": [
                    "0.9780"
                ],
                "F1 score": [
                    "0.9780"
                ],
                "Dice": [
                    "0.9780"
                ],
                "IoU": [
                    "0.9569"
                ],
                "mean precision": 0.9780052900314331,
                "mean recall": 0.9779714941978455,
                "mean f1 score": 0.9779884219169617,
                "mean dice": 0.9779884219169617,
                "mean iou": 0.9569249749183655
            }
        },
        "val log:": {
            "info": {
                "pixel accuracy": [
                    0.9994567036628723
                ],
                "Precision": [
                    "0.9588"
                ],
                "Recall": [
                    "0.9619"
                ],
                "F1 score": [
                    "0.9604"
                ],
                "Dice": [
                    "0.9604"
                ],
                "IoU": [
                    "0.9237"
                ],
                "mean precision": 0.9588128328323364,
                "mean recall": 0.9618959426879883,
                "mean f1 score": 0.9603518843650818,
                "mean dice": 0.9603519439697266,
                "mean iou": 0.9237278699874878
            }
        }
    },

3.3 transformer+CBAM

最好的epoch：

    "epoch:96": {
        "train log:": {
            "info": {
                "pixel accuracy": [
                    0.9996169209480286
                ],
                "Precision": [
                    "0.9724"
                ],
                "Recall": [
                    "0.9705"
                ],
                "F1 score": [
                    "0.9714"
                ],
                "Dice": [
                    "0.9714"
                ],
                "IoU": [
                    "0.9445"
                ],
                "mean precision": 0.9724175333976746,
                "mean recall": 0.9704613089561462,
                "mean f1 score": 0.9714384078979492,
                "mean dice": 0.971438467502594,
                "mean iou": 0.9444631338119507
            }
        },
        "val log:": {
            "info": {
                "pixel accuracy": [
                    0.9994094967842102
                ],
                "Precision": [
                    "0.9582"
                ],
                "Recall": [
                    "0.9554"
                ],
                "F1 score": [
                    "0.9568"
                ],
                "Dice": [
                    "0.9568"
                ],
                "IoU": [
                    "0.9171"
                ],
                "mean precision": 0.9581836462020874,
                "mean recall": 0.9553713798522949,
                "mean f1 score": 0.9567754864692688,
                "mean dice": 0.956775426864624,
                "mean iou": 0.9171327948570251
            }
        }