Diffusion Mamba:用于CT到MRI转换的Mamba扩散模型

news2025/1/11 18:45:56

Diffusion Mamba:用于CT到MRI转换的Mamba扩散模型

    • 提出背景
      • 拆解
      • 左侧:整体框架
      • 中间:Mamba块的细节
      • 右侧:螺旋扫描的细节

 


提出背景

论文:https://arxiv.org/pdf/2406.15910

代码:https://github.com/wongzbb/DiffMa-Diffusion-Mamba

使用图像生成模型,尤其是扩散模型和生成对抗网络(GANs),将计算机断层扫描(CT)图像转换为磁共振成像(MRI)图像的可能性。

这种转换尝试在不增加额外成本的情况下扩展诊断检查的范围。CT成像在成本效益和速度方面表现优异,尤其适用于骨骼和钙化组织,但在软组织的成像上存在限制,而MRI则提供了更高清晰度的软组织图像,但成本和时间上的需求较高。

Mamba模型,作为一种在SSMs中引入时变参数以提高并行处理效率的技术,已经被扩展应用到视觉和医学图像生成中。

这项技术特别适合处理大规模和高维度数据,但在处理图像数据时,直接应用Mamba可能会影响图像的空间完整性。因此,引入了新的扫描技术,如螺旋扫描模块,以保持图像结构的连续性和完整性。

此外,这项研究还提出了通过视觉嵌入器预训练和跨序列监督来优化重要区域的权重分配,从而更精确地重建MRI图像。

通过这种方法,研究人员能够在保持参数数量不变的情况下,比传统的基于CNNs和ViTs的方法取得更好的性能。

拆解

扩散模型架构Diffusion Mamba(简称DiffMa),该模型专为MRI图像的扩散模型训练而设计。


这张图描绘了Diffusion Mamba(DiffMa)框架的结构细节,特别强调了用于MRI图像生成的扩散模型的各个组件和工作流程。

左侧:整体框架

  • 嵌入层:首先,噪声潜在MRI图像通过嵌入层进行处理,这一层处理输入的图像,将其分解成多个块,并且为每个块添加条件标签(如m、c、t等)。
  • Mamba块序列:这些输入块随后被一系列Mamba块处理,这些块通过长跳连接和线性处理层次地处理这些数据。
  • 重排和线性层:处理后的数据被重新排列,并通过线性层进行进一步的处理,最终生成预测的噪声图像。

中间:Mamba块的细节

  • 条件处理:输入令牌被带有条件信息的多层感知机(MLP)处理,这有助于模型根据给定的医学条件进行更精确的生成。
  • 螺旋扫描:采用螺旋扫描技术来处理输入数据,此技术通过对数据进行螺旋形扫描来强调结构信息,增强生成图像的质量。
  • 层标准化和比例变换:在螺旋扫描后,数据通过层标准化进行标准化,并进行必要的比例和位移调整。

右侧:螺旋扫描的细节

  • 前向扫描和1D卷积:展示了螺旋扫描内部的细节,包括前向扫描和1D卷积层,这有助于处理和识别图像序列中的关键特征。
  • 层标准化:最后,通过层标准化确保数据的一致性和标准化。

这个图形展示了DiffMa模型在处理医学图像,尤其是MRI图像时的复杂性和多层次处理结构,突出了在模型中使用的先进技术,如螺旋扫描和条件化的多层感知机。

这种结构旨在提高生成图像的精确度和相关性,特别是在处理具有复杂内部结构的医学图像时。

DiffMa使用视觉Mamba处理图像块序列。

特别关注螺旋扫描和跨序列注意力两个组件。

  1. 子解法1:使用螺旋扫描模块
    • 功能:在处理图像块时保持空间连续性。
    • 原因:传统的扫描模式可能无法有效考虑空间连续性,螺旋扫描可以通过特定的排序模式保持图像块之间的结构关系,从而保持空间信息的完整性。

在这里插入图片描述

这张图显示了2D图像螺旋扫描的八种不同模式。

每个模式包括两种方向的扫描方式,这些模式在处理图像数据时被用来以不同的顺序遍历图像的像素或区块。

图中每种扫描方式的详细说明如下:

  1. 左上至右下:两行四列的图表展示了螺旋形扫描的不同方式。

    • 第一行从左到右显示了螺旋向内和向外的顺时针方向。
    • 第二行从左到右显示了逆时针方向的螺旋向内和向外。
  2. 每种模式的用途

    • 顺时针和逆时针螺旋:两种基本方向,顺时针通常用于常规的数据扫描,而逆时针则可能用于特殊情况或提供不同的数据视角。
    • 向内和向外:螺旋可以从外围向中心移动,或者从中心向外扩展,这两种方式可以根据数据的特性和需要突出的图像区域来选择使用。
  3. 实际应用

    • 每个块在处理图像时选择其中一个扫描模式,这有助于模型更好地理解和解析图像的结构和空间关系。
    • 不同的螺旋扫描模式可以用来强调图像的不同特性,例如,从外向内的扫描可能更关注中心特征,而从内向外的扫描则可能更注重边缘特征。

这些螺旋扫描模式为图像分析提供了灵活的方法,使得图像处理模型能够根据不同的应用场景选择最合适的数据遍历方式,从而优化性能和结果。

通过这样的技术,可以在保留关键结构信息的同时,增加处理图像数据的维度和深度。

  1. 子解法2:采用跨序列注意力机制

    • 功能:增强模型对于不同图像块序列中的细微差异的识别能力。
    • 原因:在扩散模型中,理解和利用图像块间的关系对于生成高质量的MRI图像至关重要。跨序列注意力通过对CT图像块生成的软掩模和嵌入进行处理,使模型能够更加精确地关注图像中的关键区域。
  2. 子解法3:利用变分自编码器(VAE)生成噪声潜在空间表示

    • 功能:为MRI图像提供一个初始的噪声潜在空间表示,作为DiffMa模型的输入。
    • 原因:噪声潜在空间表示可以模拟实际MRI图像在成像过程中可能出现的随机变异,为模型训练提供更加真实的数据基础。
  3. 子解法4:使用视觉编码器和视觉嵌入器对CT图像进行处理

    • 功能:将CT图像转换为适合模型处理的嵌入向量。
    • 原因:通过专门的视觉编码器,如BioMedCLIP,和预训练的视觉嵌入器处理CT图像,可以精确地捕捉CT图像与MRI图像之间的差异,为后续的扩散过程提供关键信息。

在这里插入图片描述
这张图展示了视觉嵌入器(Vision Embedder)的框架,这是用于处理CT图像数据的神经网络架构,旨在生成图像嵌入和软掩膜,以供进一步的图像处理和分析使用。

  1. 潜在CT

    • 原始的CT图像数据作为输入,显示在图像左下角。
  2. 卷积层和展平(Conv2d & Flatten)

    • 图像数据首先经过二维卷积层(Conv2d)处理,这有助于提取图像的空间特征。
    • 卷积后的数据通过展平操作转换成一维数组,以便进行进一步处理。
  3. 池化层(MaxPool2d & AvgPool2d)

    • 使用最大池化(MaxPool2d)和平均池化(AvgPool2d)技术对卷积后的特征进行下采样,这有助于减少计算量并保留关键信息。
  4. 多层感知机(MLP)

    • 池化后的数据送入多层感知机(MLP),MLP能够进一步处理数据,学习更高级的特征表示。
  5. 标准化层和加权组合(Layer Norm, ⊗ & σ)

    • 在数据进入MLP之前,先经过层标准化(Layer Norm),保证数据在不同的批次间具有相同的分布。
    • 数据通过一个特殊的操作(⊗ & σ),可能表示了一个加权或标准化步骤,用于调整和优化特征权重。
  6. 输出:CT嵌入和软掩膜(CT Embeddings & Soft Masks)

    • 最终,生成的CT嵌入和软掩膜被输出。CT嵌入为后续处理提供了密集的特征表示,而软掩膜可能用于指导或优化图像生成过程中的注意力机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1860922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

macOS Sequoia 15 beta 2 (24A5279h) Boot ISO 原版可引导镜像下载 (iPhone Mirroring 现已支持)

macOS Sequoia 15 beta 2 (24A5279h) Boot ISO 原版可引导镜像下载 (iPhone Mirroring 现已支持) iPhone 镜像、Safari 浏览器重大更新、备受瞩目的游戏和 Apple Intelligence 等众多全新功能令 Mac 使用体验再升级 请访问原文链接:https://sysin.org/blog/macOS-…

有没有品质高的开放式蓝牙耳机推荐,这几款开放式耳机非常值得

随着科技的发展,越来越多的人选择开放式蓝牙耳机,对比传统的耳机,开放式蓝牙耳机可以提供更加自然的听觉体验,减少外部环境隔绝感,增强安全性,透气设计舒适度更高,也更加的干净卫生。深受运动爱…

如何挑选护眼灯?一分钟带你了解挑选护眼灯的六大准则!

小时候,对正确用眼知识一无所知,也不明白何种光线环境对眼睛最为友善,结果如今的近视度数已濒临千度大关。虽然早已习惯佩戴眼镜的生活,但近视所带来的诸多不便仍旧在日常生活中无处不在。因此,对于家中孩子的视力健康…

echarts+vue2实战(二)

目录 一、WebSocket【双向通信】的使用 1.1、前端 1.2、后端 二、前端组件的合并与优化 三、全屏切换 3.1、单页面切换 3.2、同页面多端联动 四、主题切换 4.1、单页面切换 4.2、同页面多端联动 一、WebSocket【双向通信】的使用 1.1、前端 在utils文件夹里创建soc…

【漏洞复现】华测监测预警系统——SQL注入漏洞

声明:本文档或演示材料仅供教育和教学目的使用,任何个人或组织使用本文档中的信息进行非法活动,均与本文档的作者或发布者无关。 文章目录 漏洞描述漏洞复现测试工具 漏洞描述 华测监测预警系统2.2版本存在sql注入,UserEdit接口S…

用构造函数为对象的数据成员实现输入和输出时间

在C程序中,对象的初始化是一个不可缺少的重要问题。不应该让程序员在这个问题上花过多的精力,C在类的设计中提供了较好的处理方法。 为了解决这个问题,C提供了构造函数(constructor)来处理对象的初始化。构造函…

【前端】HTML+CSS复习记录【1】

文章目录 前言一、p、br(段落、换行)二、短语标签(用来呈现为被强调的文本)三、sub、sup(下标、上标)四、b(加粗文本)五、块级元素与行内元素六、元素嵌套七、html注释系列文章目录 …

axios全局封装AbortController取消重复请求

为什么? 问题:为什么axios要配置AbortController?防抖节流不行吗? 分析: 防抖节流本质上是用延时器来操作请求的。防抖是判断延时器是否存在,如果存在,清除延时器,重新开启一个延…

【JavaEE】浅谈线程(二)

线程 线程的常见属性 线程属性可以通过下面的表格查看。 •ID 是线程的唯⼀标识,不同线程不会重复 • 名称是各种调试⼯具⽤到(如jconsoloe) • 状态表示线程当前所处的⼀个情况,下⾯我们会进⼀步说明 • 优先级高的线程理论上来…

从公共仓库拉取推送的镜像并启动_将镜像内部目录挂载到外部目录使用_从镜像中复制文件到本机目录_从本机目录复制文件到镜像中---分布式云原生部署架构搭建010

然后我们再去找一个机器 docker ps docker rm -f 0ab docker images docker rmi guignginx 把这个机器的之前的这个镜像,在运行的 和 之前的都删除掉 然后我们去仓库中,拉取我们刚刚推送的 可以看到右边是命令 docker pull leifengyang/guignginx:v1.0 然后再来看总结命…

Unity踩坑记录

1. 如果同时在父物体和子物体上挂载BoxCollider&#xff0c;那么当使用&#xff1a; private void OnTriggerEnter2D(Collider2D collision){if (collision.CompareTag("CardGroup")){_intersectCardGroups.Add(collision.GetComponent<CardGroup>());}} 来判…

基于Java微信小程序民宿短租系统设计和实现(源码+LW+调试文档+讲解等)

&#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者&#xff0c;博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f31f;文末获取源码数据库&#x1f31f;感兴趣的可以先收藏起来&#xff0c;还…

精通pip:Python开发者的必备技能

目录 1. 安装 pip 2. 使用 pip 安装包 3. 卸载包 4. 更新包 5. 列出已安装的包 6. 搜索包 7. 使用 requirements.txt 文件安装多个包 8. 升级 pip 自身 9. 虚拟环境 10. 冻结依赖 11. 使用国内镜像源 12. 安装特定版本的包 13. 批量安装包 14. 显示帮助信息 15.…

常微分方程算法之编程示例三(预估-校正法)

目录 一、研究问题 二、C代码 三、计算结果 一、研究问题 本节我们采用预估校正法&#xff08;改进欧拉法&#xff09;求解算例。 预估-校正法的原理及推导请参考&#xff1a; 常微分方程算法之预估-校正法&#xff08;改进Euler法&#xff09;_、改进欧拉法-CSDN博客https…

东昂科技从创业板改道北交所:大客户依赖症明显,巨额分红又募投补流

《港湾商业观察》施子夫 黄懿 2024年6月24日&#xff0c;厦门东昂科技股份有限公司&#xff08;以下简称&#xff0c;东昂科技&#xff09;在北交所网站披露第二轮审核问询函的回复。自2024年1月IPO申请获北交所受理以来&#xff0c;东昂科技已经收到北交所下发的两轮审核问询…

探索SoMeLVLM:面向社交媒体处理的大型视觉语言模型

SoMeLVLM: A Large Vision Language Model for Social Media Processing 论文地址: https://arxiv.org/abs/2402.13022https://arxiv.org/abs/2402.13022发表在ACL 2024 1.概述 在线社交媒体平台涌现出海量的文本与视觉内容,深刻揭示了人们如何交流、互动以及自我表达。随着通…

动态规划数字三角形模型——AcWing 275. 传纸条

动态规划数字三角形模型 定义 动态规划数字三角形模型是在一个三角形的数阵中&#xff0c;通过一定规则找到从顶部到底部的最优路径或最优值。 运用情况 通常用于解决具有递推关系、需要在不同路径中做出选择以达到最优结果的问题。比如计算最短路径、最大和等。 计算其他…

研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(下)

根据前两篇学习&#xff0c;如何创建人物连续性公式&#xff0c;或多或少都会联想到 Midjourney 里面的 Seed 值&#xff0c;是否能运用到 Dall e3 里面&#xff0c;那么今天这篇文章更新来了&#xff01;&#xff01; 继续感谢这位伟大的作者&#xff1a;AshutoshShrivastava…

五大基于Cesium的开源框架及其优劣势,一文导读。

2024-03-12 10:49贝格前端工场 OpenGL基础上有了webGL&#xff0c;webGL基础上有了Cesium&#xff0c;Cesium基础上有了N多开源框架&#xff0c;本文带大家看一下。 1. CesiumJS CesiumJS 是 Cesium 引擎的核心框架&#xff0c;提供了丰富的 API 和组件&#xff0c;用于构建…

基于Java微信小程序校园订餐系统设计和实现(源码+LW+调试文档+讲解等)

&#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者&#xff0c;博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f31f;文末获取源码数据库&#x1f31f;感兴趣的可以先收藏起来&#xff0c;还…