SelfReg-UNet:解决UNet语义损失,增强特征一致性与减少冗余的优化模型

news2024/11/24 13:32:48

SelfReg-UNet:解决UNet语义损失,增强特征一致性与减少冗余的优化模型

    • 提出背景
    • 拆解
      • 类比:整理书架
      • 语义一致性正则化
      • 内部特征蒸馏
      • 为什么 UNet 会有语义损失?

 


提出背景

论文:https://arxiv.org/pdf/2406.14896

代码:https://github.com/ChongQingNoSubway/SelfReg-UNet

  1. UNet架构的核心优势:UNet通过编码器和解码器的结合,有效地将图像中的语义信息转化为精细的分割掩模,这对医学图像分割至关重要。

  2. 引入视觉变换器(ViT):为了克服传统卷积神经网络(CNN)在处理图像长距离依赖性方面的局限,研究者开始使用ViT。ViT通过自我关注机制提升了模型对远程信息的处理能力,但在处理局部细节上存在不足。

  3. 混合模型的发展:为了结合CNN和ViT的优点,研究者开发了混合UNet模型,这些模型既能捕获广泛的依赖关系,也能关注局部细节,但增加了计算复杂性和模型参数。

  4. 跳跃连接的创新:如Att-Unet和Unet++等变体通过改进跳跃连接来优化信息流,例如引入注意力机制或使用新的连接方式,以期过滤掉不相关的特征并提高分割精度。

  5. 监督不对称和特征冗余问题:研究发现,现有UNet模型中存在的监督不对称和特征冗余问题可能导致语义信息的损失。为此,我们提出了语义一致性正则化和内部特征蒸馏策略,旨在通过更精确的监督和特征信息的有效传递来解决这些问题。

UNet语义损失主要指在医学图像分割任务中,网络由于训练或结构限制而未能正确理解或保留图像中的重要语义信息,导致分割结果与真实情况存在偏差。

具体来说,这种损失通常表现为分割精度低下,错分和漏分现象,尤其是在图像中具有相似纹理或密集重叠的结构时更为明显。

例如,在进行肿瘤分割的任务中,UNet可能因为语义损失而将肿瘤周围的正常组织错误地识别为肿瘤组织(错分),或者没有完全覆盖实际的肿瘤边界(漏分)。

这种情况往往是由于网络在编码过程中丢失了部分重要的局部信息,或者解码过程中未能正确重建这些关键信息导致的。

在这里插入图片描述
这张图展示了医学图像分割领域中UNet架构的应用和分析。图中包括三个部分:

  1. UNet架构(图a):
    • 展示了UNet的整体结构,包括输入图像、通过多个编码器层的处理,中间的瓶颈层,随后是解码器层和最终的输出分割图像。
    • 这种架构特别强调了编码器和解码器之间的跳跃连接,这有助于保留重要的空间信息,以提高分割的准确性。

UNet结构组成:

  • 输入:展示了一个输入的医学图像示例。
  • 编码器部分:由四个编码器块(E1, E2, E3, E4)构成,每个块包含两个CNN/Transformer层。这些块负责逐步降低图像的空间分辨率,同时增加特征维度,以提取越来越抽象的特征。
  • 瓶颈部分(B):位于编码器和解码器之间,通常是特征提取和变换的核心部分,负责进一步处理特征。
  • 解码器部分:包括四个解码器块(D1, D2, D3, D4),功能与编码器相反,逐步恢复图像的空间分辨率并减少特征维度,以重构图像。
  • 跳跃连接:跳跃连接将编码器中的特征直接连接到解码器的相应层,这有助于恢复图像的精细结构,因为它允许网络利用浅层特征来精确地分割图像。
  • 输出分割:最终的输出示例,显示了分割后的图像,其中不同的颜色代表不同的组织或结构。

虽然每个块理论上包含两层,但图示中只显示了每个块的最后一层,以简化视觉表示。这有助于清晰地理解UNet的高层结构和数据流动方式,而不混淆过多的层级细节。

这样的结构设计使UNet特别适用于各种图像分割任务,特别是在医学图像处理领域,其中精确的分割至关重要。

  1. 注意力图(图b):

    • 展示了在不同编码器和解码器层中,使用ViT和CNN结合的UNet模型产生的注意力图。这些图显示了模型在处理输入图像时如何聚焦于图像的关键区域。
    • 注意力机制帮助模型更有效地处理图像中的信息,尤其是在重要的特征上,以提高分割的准确度。
  2. 特征相似性矩阵(图c):

    • 比较了在浅层(左侧矩阵)和较深层(右侧矩阵)特征之间的相似性。深层特征展示了更加集中和一致的自相似性,说明模型在深层提取的特征更加专注于主要的图像内容。
    • 这种分析有助于了解不同层次上特征的表达和重要性,对优化模型结构和改进算法性能至关重要。

总体而言,这张图说明了UNet模型在处理医学图像分割任务时如何聚焦和提取关键特征,以及通过不同方法(如ViT和CNN结合使用)改进信息处理。

拆解

这部分论文介绍了UNet在医学图像分割中学习特征的方法及其面临的问题,并提出了两种解决策略。

类比:整理书架

有一个书架满载着各种书籍,这些书籍代表不同的数据或特征。你的目标是整理这个书架,使得相关的书籍靠近彼此,而不相关的书籍被适当地隔开。同时,你还想去掉那些重复的或者几乎不被阅读的书籍,以便为更有用的书籍腾出空间。

增强特征一致性 对应于将相似主题或内容的书籍放在一起。在UNet中,这意味着保证网络学习到的特征在不同层次和位置上保持一致性,从而确保在图像分割中能够正确识别和标记图像的各个部分。

减少冗余 对应于去除重复的书籍或很少被查看的书籍。在UNet中,这意味着减少不必要的、重复的特征表示,这些表示可能不会为最终的任务(如图像分割)增加任何额外的信息价值。通过去除这些冗余特征,模型能够更加高效地运作,同时避免过拟合,并提升处理速度和性能。

通过这种方式,优化后的模型(如SelfReg-UNet)就像是一个被精心整理过的书架,不仅容易找到所需的信息,而且还有效地利用了空间,去除了不必要的元素。

这样的系统不仅能更快地找到所需信息,还提高了整体的功能性和效率。

改善UNet在处理医学图像分割时出现的语义丢失和特征冗余问题。

语义一致性正则化

  1. 语义一致性正则化 (Semantic Consistency Regularization, SCR)
    • 目的: 解决UNet中编码器和解码器之间的监督不对称问题。
    • 方法: 使用具有最多语义信息的特征图(例如D1层观察到的)对其他所有层提供额外的监督。
    • 逻辑: 由于解码器中的D1层对地面真实分割区域有准确的理解,利用这一层的特征来增强其他层的学习,减少语义丢失。
    • 技术细节: 使用平均池化和随机通道选择操作对特征进行对齐,并通过L2范数作为距离度量。

内部特征蒸馏

  1. 内部特征蒸馏 (Internal Feature Distillation, IFD)
    • 目的: 解决深层特征中的冗余问题。
    • 方法: 从浅层特征向深层特征传递信息,使用Lp范数惩罚来引导更深层特征学习有用的上下文信息。
    • 逻辑: 通过增强深层特征对上下文信息的敏感度,来提高模型的整体性能和精确度。
    • 技术细节: 将通道划分为上半部和下半部,以此划分作为边界来确保浅层和深层具有相同数量的特征。
  • 将SCR和IFD的损失与交叉熵和Dice损失相结合,通过调整平衡参数λ1和λ2来优化模型性能。

这些解决策略形成了一个链条,从监督不对称和特征冗余两个角度出发,通过SCR和IFD两种技术相结合来优化UNet模型的性能。

每种策略针对UNet在医学图像分割中面临的具体问题提出了针对性的解决方案,互为补充,共同提升模型的准确性和效率。

在这里插入图片描述
这张图展示了论文中提到的两种操作方法:语义一致性正则化(Semantic Consistency Regularization, SCR)和内部特征蒸馏(Intra-Feature Distillation, IFD)。

这两种方法都是为了优化UNet在处理医学图像分割时的特征表示。具体说明如下:

(a) 语义一致性正则化 (SCR)

  • 操作步骤

    1. 随机通道选择:从输入的特征图 ( F m ( l ) ) ( F^{(l)}_m ) (Fm(l)) 中随机选择特定通道。
    2. 平均池化:对选择的特征图进行空间维度的平均池化,从而减少特征图的空间维度。
    3. L2-范数:对处理后的特征图进行L2范数计算,以获得最终的特征表示 ( F f i n a l ) ( F_{final} ) (Ffinal)
  • 目的:这一步骤通过随机选择通道并进行平均池化,从而提取最具代表性和语义一致的特征,用于增强整个网络的语义一致性。

(b) 内部特征蒸馏 (IFD)

  • 操作步骤

    1. 通道划分:将输入的特征图 ( F ) 在通道维度上均等分为上半部 ( F t o p ) ( F_{top} ) (Ftop) 和下半部 ( F b o t t o m ) ( F_{bottom} ) (Fbottom)
    2. L2-范数:分别对上半部和下半部的特征图进行L2范数处理,以提取和强化特征。
  • 目的:通过将特征图分割为两部分并独立处理,这种方法旨在减少特征冗余,并通过蒸馏技术从浅层特征向深层特征传递有价值的信息,促进模型学习更为精确和有用的特征表示。

这两种方法都是针对UNet架构中存在的特征冗余和监督不对称问题提出的解决方案,旨在通过改进特征处理和优化信息流,提高模型对医学图像的分割精度和效率。

为什么 UNet 会有语义损失?

UNet架构在处理医学图像分割时面临特征一致性和冗余的两大问题,主要由以下几个方面引起:

  1. 网络深度和特征抽象
  • 深度与抽象:UNet通过其多层编码器和解码器结构进行深度特征抽象。在向下采样过程中,尽管模型可以捕获广泛的上下文信息,但同时可能会丢失关键的局部信息,如边缘和纹理细节。这种信息的丢失在编码器到解码器的信息重建过程中可能导致不一致性。
  • 信息重建的挑战:在解码器阶段,模型试图重建图像的细节,依赖于编码器阶段提取的特征。如果这些特征已经丢失了必要的信息,解码器重建的图像可能与原始图像在语义上不一致。
  1. 跳跃连接和特征利用
  • 跳跃连接的局限:虽然跳跃连接旨在改善特征一致性,通过将编码器中的高分辨率特征直接与解码器中的对应特征相连接,但这种方法也存在局限。如果跳跃连接传递的特征本身包含冗余或不相关的信息,那么这些问题将直接影响到最终的分割结果。
  • 特征冗余:随着网络深度的增加,许多高级特征可能会开始表现出相似性,尤其是在处理大量相似图像或图像区域时。这种高级特征的相似性可能导致特征冗余,即多个通道或特征图可能包含重复的信息,从而增加了计算负担且没有提供额外的洞察力。
  1. 训练数据和标签质量
  • 数据和标签的质量:UNet的性能高度依赖于训练数据的质量和标签的准确性。如果训练数据中存在标签错误或质量不一,可能导致模型学习到错误或不一致的特征表示,进而影响模型的泛化能力和实际应用的准确性。
  1. 网络设计和优化
  • 设计选择和优化策略:UNet的架构设计和训练策略,如损失函数的选择、正则化方法以及优化算法,都会对特征的一致性和冗余有显著影响。不当的设计选择可能导致模型对某些特征过度依赖,而忽略了其他重要特征。

解决这些问题通常需要在模型设计时考虑更精细的特征管理策略,例如通过改进的跳跃连接设计、引入注意力机制或使用先进的正则化技术来提高特征的有效性和减少不必要的冗余。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1862242.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8关键点pose训练自己的数据集

这里写自定义目录标题 YOLOv8关键点pose训练自己的数据集一、项目代码下载二、制作自己的关键点pose数据集2.1 标注(非常重要)2.1.1 标注软件2.1.2 标注注意事项a.多类别检测框b.单类别检测框2.2 格式转换(非常重要)2.3 数据集划分三、YOLOv8-pose训练关键点数据集3.1 训练…

七天速通javaSE:第三天 程序控制结构:练习题

文章目录 前言一、基础1.计算从0~100之间奇数之和和偶数之和2. 用for循环输出0~1000之间能被5整除的数,每行输出三个 二、进阶1. 九九乘法表2.等边三角形 前言 本文主要讲解三种基本程序控制结构的练习题,以期熟练掌握顺序、选择、循环三种基本结构 一、…

Go 语言学习笔记之通道 Channel

Go 语言学习笔记之通道 Channel 大家好,我是码农先森。 概念 Go 语言中的通道(channel)是用来在 Go 协程之间传递数据的一种通信机制。 通道可以避免多个协程直接共享内存,避免数据竞争和锁的使用,从而简化了并发程…

前端开发流程与技术选型

目录 一、简介 二、前端职责 三、开发步骤 四、技术选型 五、页面展示 一、简介 做一个网站时,能看到的一切都是前端程序员的工作,负责网页或者app的结构、样式、用户操作网站时的事件逻辑(比如点击一个按钮)。 二、前端职…

鸿蒙开发系统基础能力:【@ohos.inputMethodEngine (输入法服务)】

输入法服务 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import inputMethodEngine from ohos.inputMethodEngine;inputMethodEngine 常量值。 系统能力:以下各项对应…

TCP: 传输控制协议

TCP: 传输控制协议 TCP的服务TCP 的首部小结 本系列文章旨在巩固网络编程理论知识,后续将结合实际开展深入理解的文章。 TCP的服务 T C P和U D P都使用相同的网络层(I P),T C P却向应用层提供与U D P完全不同的服务。 T C P提供一…

GPOPS-II教程(2): 可复用火箭再入大气层最优轨迹规划问题

问题描述 考虑一类可复用火箭再入大气层最优轨迹规划问题,其动力学方程为 { r ˙ v sin ⁡ γ , θ ˙ v cos ⁡ γ sin ⁡ ψ r cos ⁡ ϕ , ϕ ˙ v cos ⁡ γ cos ⁡ ψ r , v ˙ − F d m − F g sin ⁡ γ , γ ˙ F l cos ⁡ σ m v − ( F g v − v r …

malloc和new的本质区别

目录 一、结论 二、示例 1.实现类T 2.用malloc分配类T的内存空间 3.用new分配类T的内存空间 一、结论 malloc 和 new 都是用于在运行时动态分配内存的机制。但它们之间存在一些本质的区别,主要是在使用方面,现在我们直接说结论,然后在通过…

日光模拟器对显示器光干涉影响

太阳光模拟器应用领域 抬头显示器TFT日光照射仿真太阳光模拟器LED显示器阳光耐候老化测试仪器中的光照实验抬头显示器TFT日光照射仿真太阳光模拟器全光谱阳光太阳辐射环境模拟系统中的光LCD和OLED显示器强光试验太阳光模拟器日光模拟器的光谱匹配度测量方法新型LED太阳模拟器光…

Android音频系统

最近在做UAC的项目,大概就是接收内核UAC的事件,也就是声音相关事件。然后就是pcm_read和AudioTrackr->write之间互传。感觉略微有点奇怪,所以简单总结一下。 1 UAC的简要流程 open_netlink_socket 打开内核窗口,类似于ioctl。…

Verilog的逻辑系统及数据类型(一):四值逻辑系统

目录 1. Verilog采用的四值逻辑系统2.主要数据类型2.1 net(线网)2.2 寄存器类 (register)2.3 Verilog中net和register声明语法2.3.1 net声明2.3.2 寄存器声明 2.4 选择正确的数据类型2.5 选择数据类型时常犯的错误2.5.1 信号类型确定方法总结…

使用 Spring Boot 3.x 与图形学技术,添加电子印章防伪特征

使用 Spring Boot 3.x 与图形学技术,添加电子印章防伪特征 在电子办公和无纸化办公日益普及的今天,电子印章的使用越来越广泛。然而,如何确保电子印章的安全性和防伪能力成为了一个亟待解决的问题。本文将通过 Spring Boot 3.x 和图形学技术,深入探讨如何为电子印章添加防…

速卖通自养号测评:安全高效的推广手段

在速卖通平台上,卖家们常常寻求各种方法来提升商品的曝光、转化率和店铺权重。其中,自养号测评作为一种低成本、高回报的推广方式,备受关注。然而,若操作不当,也可能带来风险。以下是如何安全有效地进行自养号测评的指…

label studio数据标注平台的自动化标注使用

(作者:陈玓玏) 开源项目,欢迎star哦,https://github.com/tencentmusic/cube-studio 做图文音项目过程中,我们通常会需要进行数据标注。label studio是一个比较好上手的标注平台,可以直接搜…

MAB规范(3):Chapter6 Glossary 术语表

第6章 - 术语表 此章不做过多的批注,都是些简单的术语解释。

【算法学习】判断点在多边形内外的算法以及确定内外两点连线与边界的交点

1.前言: 在GIS开发中,经常会遇到确定一个坐标点是否在一块区域的内部这一问题。 如果这个问题不是一个单纯的数学问题,例如:在判断DEM、二维图像像素点、3D点云点等含有自身特征信息的这些点是否在一个区域范围内部的时候&#x…

Java三层框架的解析

引言:欢迎各位点击收看本篇博客,在历经很多的艰辛,我也是成功由小白浅浅进入了入门行列,也是收货到很多的知识,每次看黑马的JavaWeb课程视频,才使一个小菜鸡见识到了Java前后端是如何进行交互访问的&#x…

20240626 每日AI必读资讯

🌍警告!OpenAI宣布全面封锁中国API接入! - 7月9号开始封锁不支持的国家API - 如果在OpenAI不允许的国家使用其 API 将面临封杀 🔗 警告!OpenAI 宣布全面封锁中国 API 接入-CSDN博客 🎵索尼、环球音乐、华…

29-Matplotlib数学表达式

Matplotlib数学表达式 Matplotlib 中的文本字符串都可以使用 Text Markup(一种文本标记语言)显现出来,具体的使用方法是将文本标记符放在一对美元符号$内,语法格式如下: #数学表达式 plt.title(r$\alpha > \beta$…

【c语言】二级指针

1,定义 本质还是从指针的角度去理解,只不过存的指针的值 2,使用方法