T-Mamba:用于牙齿 3D CBCT 分割的频率增强门控长程依赖性

news2024/11/28 8:26:10

T-Mamba:用于牙齿 3D CBCT 分割的频率增强门控长程依赖性

  • 摘要
  • Introduction
  • 方法
    • T-Mamba architecture
    • Tim block

T-Mamba: Frequency-Enhanced Gated Long-Range Dependendcy for Tooth 3D CBCT Segmentation

摘要

三维成像中的高效牙齿分割对于正畸诊断至关重要,但由于CBCT图像中的噪声、低对比度和伪影,这仍然是一个挑战。

卷积神经网络(CNNs)和变压器(transformers)都已成为图像分割中流行的架构。然而,由于内在的局部性或计算复杂性,它们在处理长距离依赖方面的有效性受到限制。

为了解决这个问题,我们提出了T-Mamba,将共享位置编码和基于频率的特征整合到视觉Mamba中,以解决空间位置保留和频率域特征增强的限制。

此外,我们还设计了一个门选择单元,以自适应地整合空间域中的两个特征和频率域中的一个特征。T-Mamba是首次将基于频率的特征引入视觉Mamba的工作。

大量实验证明,T-Mamba在公共牙齿CBCT数据集上取得了新的SOTA结果,并且相较于之前的方法在较大幅度上取得了性能提升,即 IoU + 3.63%,SO + 2.43%,DSC + 2.30%,HD - 4.39mm,ASSD - 0.37mm。

代码和模型:https://github.com/isbrycee/T-Mamba

Introduction

现代数字牙科的进化关键在于三维(3D)成像的获取与分割。这项技术在口腔及颌面学科领域有多种用途,包括正畸诊断和治疗规划。牙齿分割,即从3D数字模型中提取具有强度和密度的一组体素,是数字工作流程中的必要阶段。然而,精确的牙齿分割过程由于多种原因而具有挑战性。首先,由于3D数字模型固有的高噪声和低对比度特性,难以观察。此外,CBCT图像中金属充填物和修复体的存在引入了导致畸变的伪影,显著增加了识别牙齿的难度。最后,CBCT通常在自然咬合状态下获取,由于上下牙齿密度相似,区分它们也构成了挑战。

深度学习在医学图像分割领域得到了广泛应用,许多研究者致力于利用深度学习技术实现CBCT图像中牙齿的自动分割,如Chen等人(2023年);Cui等人(2019年);Cui等人(2021年);Yin等人(2023年)。卷积神经网络(CNNs)和Transformers架构因其能够学习复杂的图像特征并提供准确的分割结果,在医学图像分割方面显示出巨大的潜力。CNNs能够捕获平移不变性并提取局部特征,而Transformers擅长捕捉全局上下文信息并提高长距离依赖的能力。由于这种互补特性,许多研究探索了通过混合网络架构将Transformers融入CNNs中。然而,Transformers的明显缺点是资源密集型,因为自注意力机制与输入大小成二次方增长,并且在处理高分辨率生物医学图像时在速度和内存使用方面构成挑战。尽管大量努力致力于降低Transformers的计算复杂性,但这往往以牺牲模型准确性为代价,如Maaz等人(2022年);Zhai等人(2023年)。因此,在CNNs中有效增强长距离依赖仍然是一个未解决的问题。

近年来,受到Mamba在语言建模领域的成功启发,许多研究将这种成功从语言领域转移到视觉领域,旨在实现线性复杂度同时不牺牲全局感受野 Liu等人(2024);Zhu等人(2024)。然而,我们发现在利用视觉Mamba帮助卷积神经网络(CNN)建模长距离依赖时存在两个局限性。首先,CNN可以直接处理2D或3D特征,而视觉Mamba的结构旨在处理1D特征序列。在CNN和视觉Mamba混合架构中,视觉Mamba的特征转换不可避免地导致空间位置信息的丢失。这种空间上下文在需要密集精确位置预测的任务中尤为重要。其次,由于CT和X射线等医学图像的固有成像原理,这些图像从视觉角度具有高噪声和低对比度的自然属性。对于这类图像,基于频域的特征表示更准确、独特和鲁棒。然而,CNN和视觉Mamba模型通常仅从空域提取语义特征,忽略了丰富的基于频域的信息。正如Azad等人(2021)所指出的,高频成分捕捉纹理细节,而低频成分编码形状信息。因此,将频域特征与空域表示相结合,有望增强医学图像中的图像特征提取,从而提高预测的准确性。

受到这两个局限性的启发,我们设计了一个名为T-Mamba的网络,它将我们提出的Tim(牙科视觉Mamba)块与DenseVNet Gibson等人(2018)的多尺度特征相结合,用于牙科CBCT图像分割。Tim块展现出三个关键优势:(1)它包含一个共享的双位置嵌入,用于补偿在重塑操作期间丢失的位置信息。值得注意的是,我们在每个特征尺度内使用单一位置嵌入。这不仅在相同尺度的特征图之间保证了空间位置的保留,还减少了模型参数和计算负担。(2)它提取频域中的图像特征,因此我们可以为具有高噪声和低对比度的医学图像导出更准确、独特和鲁棒的特征表示。基于不同尺度特征的性质,我们为每个尺度定制了不同的带通滤波策略。(3)它包括一个门选择单元,用于自适应地整合空域中的两个特征(正向和反向)和频域中的一个特征。

门选择单元是数据依赖的,可以根据输入序列标记为三个不同的特征分配权重。

在牙齿CBCT分割任务上进行了大量实验,以验证T-Mamba的有效性。我们的T-Mamba在公共牙齿CBCT数据集上的表现大幅超越了先前最先进的结果,即IoU提高了3.63%,SO提高了2.43%,DSC提高了2.30%,HD降低了4.39毫米,ASSD降低了0.37毫米。此外,我们还进行了消融研究,以验证我们提出的Tim块中三个组件的有效性。据我们所知,T-Mamba是首次将频域特征融入到视觉Mamba框架中的开创性工作。

主要贡献可以总结如下:

  1. 我们提出了T-Mamba,它将我们设计的Tim块与DenseVNet结合,用于牙齿CBCT分割的全局和局部视觉上下文建模。
  2. Tim块是首次通过引入基于频率的特征,为高噪声和低对比度的医学图像提取更鲁棒和独特的表示。
  3. 在没有额外修饰的情况下,T-Mamba在公共牙齿CBCT数据集上取得了新的SOTA结果,并且以较大的幅度超过了先前SOTA方法,如IoU提高了3.63%,SO提高了2.43%,DSC提高了2.30%,HD降低了4.39毫米,ASSD降低了0.37毫米。

方法

3.1 实验设计
实验设计基于随机完全区组设计(RCBD),设有三个重复。

Preliminaries for Mamba
高级状态空间模型(SSM),即结构化状态空间序列模型(S4)和Mamba,是一类系统,它们通过隐藏状态 h ( t ) ∈ R N h(t) \in \mathbb{R}^N h(t)RN 将一维连续函数或序列 x ( t ) ∈ R ↦ y ( t ) ∈ R x(t) \in \mathbb{R} \mapsto y(t) \in \mathbb{R} x(t)Ry(t)R 进行映射。从数学上讲,这些模型通常被表述为线性常微分方程(ODEs),如公式(1)所示:

$ \begin{split} h’(t) &= \mathrm{A}h(t) + \mathrm{B}x(t), \ y(t) &= \mathrm{C}h(t), \end{split} \tag{1}$

其中参数包括 A ∈ R N × N \mathcal{A} \in \mathbb{R}^{N \times N} ARN×N 作为演化参数,以及 B ∈ R N × 1 \mathrm{B} \in \mathbb{R}^{N \times 1} BRN×1 C ∈ R 1 × N \mathrm{C} \in \mathbb{R}^{1 \times N} CR1×N 作为投影参数。

基于SSM的模型作为连续时间模型,在整合到深度学习算法中时应当进行离散化。这种离散化转换对于将模型与输入数据中蕴含的底层信号的采样率对齐至关重要[1]。给定输入 x ( t ) ∈ R L × D x(t) \in \mathbb{R}^{L \times D} x(t)RL×D,一个在信号流程中的长度为 L L L 的采样向量[2],公式(1)可以使用零阶保持(ZOH)规则离散化为如下形式:

$ \begin{split} h_t &= \overline{\mathbf{A}}h_{t-1} + \overline{\mathbf{B}}x_t \ y_t &= \overline{\mathbf{C}}h_t \ \overline{\mathbf{A}} &= e^{\Delta\mathbf{A}} \ \overline{\mathbf{B}} &= \Delta\mathbf{A}{-1}(e{\Delta\mathbf{A}} - \mathbf{I}) \cdot \Delta\mathbf{B} \ \overline{\mathbf{C}} &= \mathbf{C}, \end{split} \tag{2}$

其中 Δ ∈ R D \Delta \in \mathbb{R}^D ΔRD 是时间尺度参数。

最终,模型通过在结构化卷积核 K ‾ \overline{\mathbf{K}} K 内的全局卷积操作计算输出 y y y

其中, K ‾ \overline{\mathbf{K}} K是一个包含 L L L个元素的向量,每个元素由 C \mathbf{C} C和不同次幂的 A ‾ \overline{\mathbf{A}} A B ‾ \overline{\mathbf{B}} B的乘积组成。 y y y是向量 K ‾ \overline{\mathbf{K}} K与向量 y t y_t yt的Kronecker积。

T-Mamba architecture

我们通过利用Mamba的线性扩展优势,增强了卷积神经网络(CNN)的表征建模能力,并提出了一种用于图像分割的通用网络T-Mamba。T-Mamba的网络架构如图1所示,它将我们提出的Tim模块与DenseVNet在多尺度特征上进行了融合。T-Mamba包含三个特征尺度,并采用了经典的单阶段V型架构。我们在DenseVNet的每个CNN层后简单地插入Tim模块,以建模长距离依赖。T-Mamba能够在空间域和频率域捕获局部的细粒度特征和长距离依赖。我们希望它能为生物医学图像分析中高效的长距离依赖建模开辟新的途径。
在这里插入图片描述

Tim block

原始的Mamba块是为1-D序列设计的,这不适用于需要空间感知理解的任务。Vision Mamba Zhu等人,2024年提出的Vim块在Mamba块上集成了双向序列建模。基于这个强大的设计,我们通过在Vim块中引入三个组件来进一步增强视觉特征建模,这对于2D和3D牙齿分割任务至关重要:1) 共享双向位置编码补偿;2) 基于频率的带通滤波;3) 门控选择单元。我们的牙齿视觉Mamba(Tim)块如图1所示。

共享双向位置编码补偿。 我们的T-Mamba网络将卷积层的局部特征提取能力与SSMs捕捉长距离依赖的能力相结合。卷积层通常处理2-D或3-D特征图,而我们设计的Tim块专注于处理1-D序列。因此,将高维特征重塑为1-D特征标记是必要的。然而,这一过程不可避免地会导致关键位置信息的丢失,这对于密集预测任务是至关重要的。为了减轻这一点,我们采用共享位置嵌入来补偿在重塑操作中丢失的位置信息。

具体来说,对于一个形状为(B, C, H, W, D)的输入特征,我们首先将其展平为1-D特征标记,其形状为(B, L, C),其中L = H × W × D,然后向特征标记中添加一个可学习的位置嵌入,其形状为(C, L),以保留位置信息。遵循[transformer is all u need],我们通过正弦函数初始化位置嵌入:

KaTeX parse error: {split} can be used only in display mode.

其中pos是沿L的位置,i是沿C的索引。关于Tim块的输出,我们还需要将1-D特征标记重塑为高维特征,以供下一次卷积操作使用。为了进一步强化1-D特征标记中的空间信息,在将其重塑回高维特征之前,之前使用过的位置嵌入被再次添加到1-D特征标记中。请注意,在每个特征尺度上我们只使用单一的位置嵌入。这种做法确保了在同一尺度特征图中空间位置保持不变,同时减少了模型参数和计算负担。我们认为,在Tim块的输入和输出中添加共享双向位置嵌入,可以显著保留高维特征的位置信息。通过消融实验,我们验证了使用共享双向位置编码相比于使用单一位置嵌入能带来更高的性能。

基于频率的带通滤波。傅里叶域在提取基于频率的图像信息分析中起着主要作用,很明显,即使是在质量较差的X射线和CT图像中,也可以在频率域中捕捉到细微的细节和轮廓。Said等人,2004;余毅等人,2021年和Azad等人,2021;李等人,2024年。卷积层具有强烈的纹理诱导偏差,它们倾向于学习基于纹理的特征。以频率的形式表示对象可以减少纹理偏差的影响,因为只有高频部分负责纹理信息(如边界),而低频部分可能与形状有关。受到这一点的启发,我们通过增强频率域中的特征提取来演进Vim的结构。具体来说,我们首先将序列标记X转换到傅里叶域,然后使用可学习的权重参数提取频率特征,并实施带通滤波,最后进行逆傅里叶变换以恢复信号。之后,通过带有最大池化操作的激活 Z ′ Z^{\prime} Z来聚合频率特征。整个过程可以表述为:

$\begin{split}\mathcal{F}{freq}=IFFT(Bandpass(W{f}(FFT(X))))* Maxpool(Z^{\prime}),\ Bandpass=\begin{cases}&X*(|X|<s_{low}),x\in low-level=“” features,\=“” &x*(s_{low}<|x|

其中 S l o w S_{low} Slow S h i g h S_{high} Shigh是带通滤波的阈值。在实验中,我们设置 S l o w S_{low} Slow=0.1和 S h i g h S_{high} Shigh=0.9。低级别、中级别、高级别分别表示我们网络中的三种不同特征尺度。

门选择单元。演进的Vim块包括空间域中的两个特征(前后方向)和频率域中的一个特征。我们设计了一个门选择单元,旨在自适应地融合这些独特的特征。输入嵌入序列首先下采样到一个固定维度,如2048,并通过MLP(多线性投影)进行投影,并通过一个全连接层预测与三个特征相对应的三个比例。之后,通过三个特征的加权和得到 f f u s e f_{fuse} ffuse,然后通过一个线性层进行投影,门选择单元输出 f f u s e f_{fuse} ffuse的总和、残差信息以及共享位置嵌入。

KaTeX parse error: {split} can be used only in display mode.

请注意,内嵌公式和单独成行的公式未翻译,并且内嵌公式与文本之间保留了空格。

其中,shared pos 是前面提到的共享位置嵌入。门选择单元(Gate Selection Unit)是数据依赖的,因为这三个权重系数是从源数据 X 计算得出的,然后这些权重系数被用来更新 X 的三种不同形式的特征。因此,门选择单元可以自适应地根据不同的输入调整这三种形式特征的组合,从而获得更好的特征表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1576972.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习 —— 数据分析与图表绘制

本文使用工具 Anaconda下载安装与使用 Jupyter Notebook的使用 本文使用数据集 机器学习实验所需内容.zip 以朝阳医院2018年销售数据为例&#xff0c;目的是了解朝阳医院在2018年里的销售情况&#xff0c;这就需要知道几个业务指标&#xff0c;本次的分析…

Netty学习——源码篇13 命中缓存的分配

上一篇分析了DirectArena内存分配大小的大概流程(Netty池化内存管理机制),知道了其先命中缓冲&#xff0c;如果没有命中&#xff0c;再去分配一款连续内存。现在分析命中缓存的相关逻辑。前面说到PoolThreadCache中维护了三个缓存数组(实际上是6个&#xff0c;这里仅以Direct为…

matlab/simulink仿真全合集---电力电子的simulink仿真

simulink仿真新手大礼包&#xff0c;共整理了9份simulink仿真模型&#xff0c;每一份都是完美运行&#xff0c;适合电气工程专业/电力电子专业的新手学习。 1、Boost电路 simulink 仿真&#xff0c;boost 电路模块搭建和用传递函数进行验证&#xff0c; 电流开环控制 、电流闭…

基于Spring boot+Vue的业余排球俱乐部会员管理系统

5 系统功能模块的具体实现 5.1超级会员角色 5.1.1 登录 超级管理员登录通过用户名和密码去数据库查询用户表&#xff0c;该名称是否在用户表中存在&#xff0c;如果存在&#xff0c;则通过用户名和密码查询密码是否正确&#xff0c;然后吧用户的信息存在jwt的负载里&#xf…

C语言 | Leetcode C语言题解之第14题最长公共前缀

题目&#xff1a; 题解&#xff1a; char* longestCommonPrefix(char** strs, int strsSize) {if (strsSize 0) {return ""; } for (int i 0; i < strlen(strs[0]); i) {for (int j 1; j < strsSize; j) {if (strs[0][i] ! strs[j][i]){strs[0][i] \0;ret…

ics-05-攻防世界

题目 点了半天只有设备维护中心能进去 御剑扫一下 找到一个css 没什么用 再点击云平台设备维护中心url发生了变化 设备维护中心http://61.147.171.105:65103/index.php?pageindex试一下php伪协议 php://filter/readconvert.base64-encode/resourceindex.php base64解一下…

【二分查找】Leetcode 山脉数组的峰顶索引

题目解析 852. 山脉数组的峰顶索引 这到题使用暴力枚举的查找方法发现这段数组是有二段性的&#xff0c;峰顶左边的一段区间是一段递增区间&#xff0c;右边的一段区间是一段递减区间 算法讲解 class Solution { public:int peakIndexInMountainArray(vector<int>&am…

vue快速入门(十二)v-key索引标志

注释很详细&#xff0c;直接上代码 新增内容 v-key的使用场景数组筛选器的使用 源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-…

漫谈:“标准”是一种幻觉 C++语言标准的意义

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 “标准”这个词很迷惑&#xf…

1688详情API接口:解锁多元化应用场景java php c++

随着互联网的快速发展&#xff0c;数据交换和信息共享已成为企业日常运营不可或缺的一部分。在这样的背景下&#xff0c;API&#xff08;应用程序接口&#xff09;接口作为实现数据互通的重要工具&#xff0c;受到了越来越多企业的青睐。1688详情API接口作为阿里巴巴旗下的重要…

黑盒测试—错误推测法

上一篇文章介绍了取款业务的场景测试法&#xff0c;在这里继续用上次的场景&#xff0c;对银行的ATM机进行存款&#xff0c;错误推测法算是对场景测试法的补充&#xff0c;错误推测法通常是根据经验来推测可能产生的结果&#xff0c;由原因推测结果。 上一篇文章地址&#xff…

分布式 SpringCloudAlibaba、Feign与RabbitMQ实现MySQL到ES数据同步

文章目录 ⛄引言一、思路分析⛅实现方式⚡框架选择 二、实现数据同步⌚需求分析⏰搭建环境⚡核心源码 三、测试四、源码获取⛵小结 ⛄引言 本文参考黑马 分布式Elastic search Elasticsearch是一款非常强大的开源搜索引擎&#xff0c;具备非常多强大功能&#xff0c;可以帮助…

python(使用循环显示四种模式)

代码&#xff1a; # 模式A for i in range(1, 6):for j in range(1, 6):if i j:print(i, end"")else:print(" ", end"")print()# 模式B for i in range(1, 6):for j in range(1, 6):if i j 7:print(j, end"")else:print(" &q…

Java常用API_正则表达式_检验字符串是否满足规则——基础使用方法及综合练习

正则表达式可以校验字符串是否满足一定的规则&#xff0c;并用来校验数据格式的合法性。 简单举例&#xff1a; 校验一个qq号是否符合要求 要求&#xff1a;6位到20位之内&#xff0c;不能以0开头&#xff0c;必须全是数字 代码演示&#xff1a; public class Test1 {public…

FreeRTOS移植到标准库

源码下载 1&#xff1a;从官网获取freeRTOS源码 freeRTOS官网 2&#xff1a;FreeRtos源码文件阐述 3&#xff1a;移植FreeRtos源码 FreeRTOS移植步骤1&#xff1a;添加FreeRTOS源码&#xff0c;将FreeRTOS源码添加到基础工程&#xff0c;头文件等路径2&#xff1a;添加FreeR…

VRRP+MSTP+BFD

一、组网 二、要求 PC6&#xff08;vlan 10内PC&#xff09;访问1.1.1.1走JR-1——CORE1——MSR到1.1.1.1 PC7&#xff08;vlan 20内PC&#xff09;访问1.1.1.1走JR-2——CORE2——MSR到1.1.1.1 链路故障时切换路线&#xff0c;来回路径一致 三、配置步骤 SR bfd echo-sou…

Spring AI 来了,打造Java生态大模型应用开发新框架!

Spring AI 来了&#xff0c;打造Java生态大模型应用开发新框架&#xff01; Spring AI 开发框架设计理念Spring AI 主要功能特性如下 Spring AI 应用开发案例案例一&#xff1a;基于大模型的对话应用开发案例二&#xff1a;RAG 检索增强应用开发案例三&#xff1a;Function Cal…

基于springboot的高校招生系统(含源码+sql+视频导入教程+文档+PPT)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于springboot的高校招生系统1拥有两种角色&#xff1a;管理员和用户 管理员&#xff1a;学生管理、专业管理、报名管理、录取通知管理、招生公告管理等 用户&#xff1a;登录注册、报…

智慧园区革新之路:山海鲸可视化技术引领新变革

随着科技的飞速发展&#xff0c;智慧园区已成为城市现代化建设的重要组成部分。山海鲸可视化智慧园区解决方案&#xff0c;作为业界领先的数字化革新方案&#xff0c;正以其独特的技术优势和丰富的应用场景&#xff0c;引领着智慧园区建设的新潮流。 本文将带大家一起了解一下…

【linux】基础IO(三)

上一节基础IO我们着重理解了重定向与缓冲区&#xff0c;这节我们需要重点理解文件再磁盘中是怎样存储。以及上一节我们没有涉及到的知识。 stderr到时有什么用&#xff1f; 目录 fd-> 0 1 2&#xff1a;初步理解2怎样将错误与正确输出都打印在一个文件&#xff1f; 文件在硬…