【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

news2025/2/24 14:26:11

4篇应用解耦表示学习的文章,这里只关注如何解耦,更多细节不关注,简单记录一下。

1.Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion

Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, 2019, Proceedings, Part III 22. Springer International Publishing, 2019: 447-456.

【核心思想】

通过特征解耦门控融合技术,提高了在部分成像模态缺失时的分割准确性。方法是将输入的多种成像模态解耦为模态特定的外观代码模态不变的内容代码,然后将它们融合为一个共享表示。这种方法增强了面对缺失数据时分割过程的鲁棒性,并在多种缺失模态的场景中显示出显著的改进。论文还使用了BRATS挑战数据集来验证方法的有效性,并展示了与当前最先进方法相比的竞争性能。

这篇文章中的解耦在于对不同模态使用各自独立的encoder编码为内容编码和样式编码

【网络结构】

image-20240116154208633

模型关键在于它采用了创新的特征解耦和门控融合技术,这里只关注特征解耦,另外的部分在我另外一篇博客中有记录。

  • 特征解耦部分:负责将不同成像模态(如MRI)的数据分解为模态特定的外观特征和跨模态的内容特征。

    对于外观代码,并将其设置为8位向量,假设其先验分布是中心各向同性高斯 N ( 0 , I ) N(0, I) N(0,I),使用KL散布逼近。

    对于模态不变性的内容编码,将它们融合成表达肿瘤基本语义内容的集成表示。为保证解耦是有效性,所获得的内容表示 z z z 应该能够在给定某种模态的任何外观代码的情况下重建原始图像。为了鼓励这种重建能力,论文通过引入一组特定于模态的解码器来设计伪循环一致性损失(使用 L1-Norm 来减轻生成的图像变得模糊的情况。

    为了模拟缺失模态,使用了modality 级别的dropout,也就是图中的 δ i \delta_{i} δi,这种思路在后续很多的论文中被采用,如mmFormer(MICCAI,2022),MMMViT(Biomedical Signal Processing and Control,2024)…

2.Disentangle domain features for cross-modality cardiac image segmentation

Pei C, Wu F, Huang L, et al. Disentangle domain features for cross-modality cardiac image segmentation[J]. Medical Image Analysis, 2021, 71: 102078.

本文的核心思想是提出一种新的跨模态医学图像分割方法,它通过特征分离技术解决了源域和目标域数据之间的差异。这种方法将图像特征分为领域不变特征(DIFs)和领域特定特征(DSFs),通过创新的零损失函数和自注意力模块来增强特征的表现力。文章通过在心脏图像分割任务上的实验验证了其有效性,展示了在处理不同成像模式的医学图像时的优越性能。

image-20240116174503834

源域的有标签数据集表示为 $ X_s = {(x_{si}, y_{si}) | i = 1, \ldots, n} $,目标域的无标签数据集表示为 $ X_t = {x_{tj} | j = 1, \ldots, m}$。作者提出了一种特征分离的方法,以学习两个域的领域不变特征(DIFs)和领域特定特征(DSFs)该框架首先使用四个编码器将每个域的特征分离为DIFs和DSFs(其中style也是从标准正态分布中采样的8bits向量)。然后,它们交换DIFs并将其解码为具有保持解剖结构和交换风格(域/成像方式)的特定于域的图像。作者对生成的图像进行重复的编码和解码操作,形成了CycleGAN的改进版本。为了增强特征分离操作,作者进一步采用了零损失,迫使从源域图像中提取的目标域特定特征的值为零,反之亦然(背后的假设是,如果编码器只能从源域中提取 DSF,那么它将从目标域的图像中提取零信息)。成功分离特征后,可以使用DIFs和相应的标签来训练分割模型。为了实现更准确的分割,作者引入了一个额外的判别器,以限制生成分割的解剖形状。为了模拟图像区域间的长距离、多层次依赖关系,作者引入了自注意力模块。

3.Unsupervised domain adaptation via disentangled representations: Application to cross-modality liver segmentation

Yang J, Dvornek N C, Zhang F, et al. Unsupervised domain adaptation via disentangled representations: Application to cross-modality liver segmentation[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, 2019, Proceedings, Part II 22. Springer International Publishing, 2019: 255-263.

本论文的核心思想是提出了一种无监督领域适应方法,通过使用解离表示来处理跨模态医学图像(如CT和MRI)之间的转换。这个方法通过将图像分解到一个共享的、与域无关的内容空间一个特定于域的风格空间,实现了在不同医学成像模态之间有效适应。这样的设计旨在维护不同领域间复杂的语义信息,同时在具体的医学图像分割任务,如肝脏分割上,展现出卓越的性能和泛化能力。

image-20240117103458061

  • 解耦表示学习模块:该模块由两个主要组件组成,一个用于重建的变分自动编码器(VAE)和一个用于对抗训练的生成对抗网络(GAN)。训练 VAE 组件进行域内重建,其中重建损失最小化,以鼓励编码器和生成器彼此相反。用于跨域翻译的 GAN 组件经过训练,可以鼓励潜在空间的解开,将其分解为内容和风格子空间。模块由几个联合训练的编码器 E c 1 E_{c1} Ec1 E c 2 E_{c2} Ec2 E s 1 E_{s1} Es1 E s 1 E_{s1} Es1,生成器 G 1 G_1 G1 G 2 G_2 G2和判别器 D 1 D_1 D1 D 2 D_2 D2组成。生成器试图通过使用交换样式代码成功的跨域生成来欺骗鉴别器。由于解开的样式代码 si ∈Si,底层映射被假定为多对多。收敛时有 p ( c 1 ) = p ( c 2 ) p\left(c_{1}\right)=p\left(c_{2}\right) p(c1)=p(c2),这是保存解剖信息的共享内容空间。
  • 纯内容图像的域适应:一旦学习到解离的表示后,可以仅使用内容代码ci而不使用风格代码si来重建仅包含内容的图像。对于CT和MR,它们的内容代码都嵌入在一个共享的潜在空间中,该空间包含解剖结构信息并排除模态外观信息。论文在来自CT领域的仅包含内容的图像上训练一个分割模型,并直接将其应用于来自MR领域的仅包含内容的图像。

4.Disentangled representation learning in cardiac image analysis

Chartsias A, Joyce T, Papanastasiou G, et al. Disentangled representation learning in cardiac image analysis[J]. Medical image analysis, 2019, 58: 101535.

核心思想是开发一种新的医学影像处理方法,特别是针对心脏影像。该方法通过空间解剖网络(SDNet)将医学影像分解为两个组成部分:一个空间解剖因子和一个非空间方式因子。这种方法使得医学影像的分析更为有效,适用于半监督分割、多任务分割和回归、以及影像到影像的合成。这种解耦表示不仅提高了分割任务的性能,而且为医学影像分析提供了更具解释性和多样性的方法。

image-20240117100202820

首先使用解剖编码器 f a n a t o m y f_{anatomy} fanatomy 将输入图像编码为多通道空间表示,即解剖因子 s s s 。然后 s s s 可以用作分割网络 h h h 的输入,以生成多类分割掩码(或某些其他特定于任务的网络)。模态编码器 f f f 模态使用因子 s s s 和输入图像来生成表示成像模态的潜在向量 z z z。将两个表示 s s s z z z 组合起来,通过解码器网络 g g g 重建输入图像。

  • 解剖编码器:U-Net。空间表示是一个由相同空间尺寸的多个二进制通道组成的特征图。一些通道包含单独的解剖(心脏)子结构,而其他对重建必要的结构则自由分布在剩余通道中,而其余通道包含了周围的图像结构(尽管更混合,解剖上不那么明显)。空间表示是通过使用softmax激活函数得到的,以强制每个像素在通道间的激活值之和为一。
  • 模态表示:输入解剖因子和原始图像,学习后验分布。论文采用VAE 学习低维潜在空间,使得学习到的潜在表示与设置为各向同性多元高斯 p ( z ) = N ( 0 , 1 ) p(z)=\mathcal{N}(0,1) p(z)=N(0,1) 的先验分布匹配。

基于以上四篇论文可以对Disentangled representation learning简要总结如下:

Disentangled representation learning 是一种机器学习方法,旨在从复杂数据集中学习出表示,这些表示能够揭示数据中的基础结构和变化因素。该领域的关键思想是将真实世界数据中的变化因素(如物体的位置、大小、颜色、纹理、解剖结构等)分离出来,并以一种方式表示,使得这些因素相互独立。以下是该领域的一些常见做法和应用:

常见做法

  1. 变分自编码器(VAEs): 通过潜在空间的学习来表示数据。在这个潜在空间中,不同的维度尝试捕捉数据的不同特征。
  2. 生成对抗网络(GANs): 在GANs中,可以进行修改以鼓励潜在空间的不同维度表示不同的数据特征。
  3. 信息瓶颈(Information Bottleneck): 这种方法通过限制模型可以访问的信息量,迫使模型学习更有效的数据表示。
  4. 约束优化: 在模型训练过程中引入特定的约束,例如正则化项,以鼓励表示的分离。
  5. 监督或半监督学习: 使用带标签的数据来引导学习过程,确保潜在空间中的不同维度对应于特定的、有意义的变化。

应用

  1. 图像处理: 在图像编辑、风格转换、面部表情生成等领域,分离表示学习使得可以独立地操纵图像的不同特征。
  2. 数据压缩: 通过学习数据的有效表示,可以实现更高效的数据压缩。
  3. 强化学习: 在强化学习中,分离表示可以帮助更好地理解环境状态和决策因素。
  4. 异常检测: 分离的表示可以用于识别数据中的异常或偏差,因为它们可能不遵循正常数据的分布。
  5. 生物医学数据分析: 在这个领域,分离表示可以用于识别不同的生物标志物或疾病特征。

这些方法和应用展示了分离表示学习在理解和操作复杂数据方面的潜力。通过这种方法,可以更容易地识别和利用数据中的关键特征,从而在各种任务中实现更好的性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1391540.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

trucksim与simulink联合仿真基于pid控制算法实现车道保持

一、pid算法原理不做过多解释自行百度,这里采用的是位置式pid。 效果视频:https://www.bilibili.com/video/BV1CN4y1p7gb/?vd_sourcea1425ad8eaf3586e891a6d0040eb89cc 二、trucksim界面操作截图 三、simulink模型截图 采用的P ; I和…

NG+WAF实现应用安全访问

一、基本概念 什么是waf? Web应用防火墙(waf)是通过执行一系列针对HTTP/HTTPS的安全策略来专门为Web应用提供保护的一款产品,WAF是一种工作在应用层的、通过特定的安全策略来专门为Web应用提供安全防护的产品。 什么是ngx_lua_…

SparkSQL——DataFrame

DataFrame Dataframe 是什么 DataFrame 是 SparkSQL中一个表示关系型数据库中 表的函数式抽象, 其作用是让 Spark处理大规模结构化数据的时候更加容易. 一般 DataFrame可以处理结构化的数据, 或者是半结构化的数据, 因为这两类数据中都可以获取到 Schema信息. 也就是说 DataFra…

2018年认证杯SPSSPRO杯数学建模B题(第一阶段)动态模糊图像全过程文档及程序

2018年认证杯SPSSPRO杯数学建模 B题 动态模糊图像 原题再现: 人眼由于存在视觉暂留效应,所以看运动的物体时,看到的每一帧画面都包含了一段时间内 (大约 1/24 秒) 的运动过程,所以这帧画面事实上是模糊的。对电影的截图来说&…

eNSP学习——终端直连三层网关设备进行通信

VLAN 配置 一 . 功能简介 将设备中的某些接口定义为一个单独的区域,将指定接口加入到指定 VLAN 中之后,接口就可以转发 指定 VLAN 报文。从而实现 VLAN 内的主机可以直接通信,而 VLAN 间的主机不能直接互通,将广播报文 …

前端安全相关

请求后端接口必须带上sign 以上主要是解决:除了数据泄露外,一些重要功能的接口如果没有做好保护措施也会被恶意调用造成DDoS、条件竞争等攻击效果 一些营销活动类的Web页面,领红包、领券、投票、抽奖等活动方式很常见。此类活动对于普通用户…

Linux miniGUI移植分析

框架介绍 常用GUI程序对比 https://www.cnblogs.com/zyly/p/17378659.html MiniGUI分为底层的GAL(图形抽象层)和IAL(输入抽象层),向上为基于标准POSIX接口中pthread库的Mini-Thread架构和基于Server/Client的Mini-L…

WebGL中开发AR应用

WebGL在本质上是用于在浏览器中进行3D和2D图形渲染的技术,而增强现实(AR)通常需要与现实世界的环境进行交互。要在WebGL中开发AR应用,您可以采取以下步骤,希望对大家有所帮助。北京木奇移动技术有限公司,专…

固定拍摄点位下的NeRF技术应用(算法探讨)

NeRF(神经辐射场)技术可以用于物体定位。NeRF 是一种深度学习方法,它通过对场景的大量照片进行训练来创建三维场景的高度逼真的渲染。这项技术能够从多个角度捕捉场景的细节,并通过神经网络理解场景的三维结构。 使用 NeRF 进行物…

容器部署的nextcloud配置onlyoffice时开启密钥

容器部署的nextcloud配置onlyoffice时开启密钥 配置 进入onlyoffice容器 docker exec -it 容器id bash编辑配置vi /etc/onlyoffice/documentserver/local.json enable设置为true,并配置secret 重启容器,并将配置的密钥填入nextcloud密钥页面 docker r…

协方差矩阵自适应调整的进化策略(CMA-ES)

关于CMA-ES,其中 CMA 为协方差矩阵自适应(Covariance Matrix Adaptation),而进化策略(Evolution strategies, ES)是一种无梯度随机优化算法。CMA-ES 是一种随机或随机化方法,用于非线性、非凸函数的实参数(…

【每日小bug】mybatis plus id注解错误导致的问题

插入数据 id不为自增 指定了主键,没有指定自增。会导致出现 修改如上 报错 Data truncation: Out of range value for column ‘id’ at row 1 数据库是bigint,java中是Integer。 修改如上

现代工程科技杂志现代工程科技杂志社现代工程科技编辑部2023年第21期目录

能源科技 配网故障停电原因及改进对策研究 上官安琪 110kV变电站电气自动化技术及应用策略 陈祥 变电运维误操作事故预控措施分析 高翔;韦婉 智能变电站变电运维安全与设备维护探究 温亮亮;覃万全 110kV变电站电气设计及其防雷保护案例研析 谢旭平 变电运维…

springboot-简单测试 前端上传Excel表格后端解析数据

导入依赖 <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>5.2.2</version></dependency><dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxm…

力扣白嫖日记(sql)

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 610.判断三角形 表&#xff1a;Triangle 列名类型xintyintzint 在sql中&#xff0c;(x,y,z)是该表的主键列…

微信小程序---如何创建分包

1.在项目根目录中&#xff0c;创建分包的根目录&#xff0c;名为subpkg&#xff0c;这个名字可以自己定义 2.在 pages.json 中&#xff0c;和 pages 节点平级的位置声明 subPackages 节点&#xff0c;用来定义分包相关的结构&#xff1a; 3.在分包目录&#xff0c;点击右键新建…

变革在即:为什么您现在就需要将大型语言模型融入系统与产品开发

“有些问题看起来易于构想和展示原型&#xff0c;但将其发展成实际产品却极为艰难。比如自动驾驶&#xff1a;展示一辆汽车在街区自动行驶很简单&#xff0c;但要把这一技术转化为成熟的产品却需要十年时间。” - Karpathy 本文旨在探讨如何将大语言模型&#xff08;LLMs&#…

新能源汽车智慧充电桩方案:如何实现充电停车智慧化管理?

一、方案概述 基于新能源汽车充电桩的监管运营等需求&#xff0c;安徽旭帆科技携手合作伙伴触角云共同打造“智能充电设备&#xff0b;云平台&#xff0b;APP小程序”一体化完整的解决方案&#xff0c;为充电桩车位场所提供精细化管理车位的解决办法&#xff0c;解决燃油车恶意…

全面了解网络性能监测:从哪些方面进行监测?

目录 摘要 引言 CPU内存监控 磁盘监控 网络监控 GPU监控 帧率监控 总结 摘要 本文介绍了网络性能监测的重要性&#xff0c;并详细介绍了一款名为克魔助手的应用开发工具&#xff0c;该工具提供了丰富的性能监控功能&#xff0c;包括CPU、内存、磁盘、网络等指标的实时监…

布局数字隔离器件领域,世强硬创获中科格励微授权代理

近年来&#xff0c;因数字隔离器件传输速度更强、绝缘性能更强、可靠性更好等特点&#xff0c;正在快速替代光耦器件。 为推动国内数字隔离器产品终端应用&#xff0c;实现不同层次需求的国产替代&#xff0c;世强先进&#xff08;深圳&#xff09;科技股份有限公司&#xff0…