【技术追踪】GeCA:高分辨率医学图像合成的神经元胞扩散(MICCAI-2024)

news2024/11/24 6:46:06

  扩散方法与传统方法相结合,挺有意思~

  本文提出一种称为生成式元胞自动机 (Generative Cellular Automata,GeCA) 的新模型系列,其灵感来自于生物体从单细胞进化而来的过程,显著提高了11 种不同眼科疾病分类任务的表现。


论文:An Organism Starts with a Single Pix-Cell: A Neural Cellular Diffusion for High-Resolution Image Synthesis
代码:https://github.com/xmed-lab/GeCA (即将开源)


0、摘要

  生成建模寻求近似真实数据的统计特性,使合成的新数据与原始分布非常相似。生成对抗网络(GANs)和去噪扩散概率模型(DDPMs)代表了生成建模方面的重大进步,它们分别从博弈论和热力学中获得了灵感。然而,通过生物进化的视角来探索生成建模,在很大程度上仍未被开发。

  本文介绍了一个新的模型家族,称为生成式元胞自动机(GeCA),其灵感来自于从单个细胞进化而来的生物体。针对两种数据模态的眼部疾病分类,GeCA 是一种有效的增强工具。

  OCT成像数据稀缺,类别分布具有固有倾斜,GeCA显著提高了11种不同眼部疾病分类的性能,与传统基线相比,平均F1评分增加了12%。

  在相似的参数限制下,GeCAs 的性能优于两种包含 UNet 或最先进的基于 Transformer 的去噪扩散模型方法。(好牛的样子,(●’◡’●)


1、引言

1.1、深度学习在眼底照相和OCT应用中的限制

  (1)数据稀缺:缺乏公开可访问的数据集,特别是对于OCT;
  (2)类不平衡:疾病分布倾斜性;

1.2、目前生成模型合成数据的局限

  (1)大部分生成模型严重依赖于 UNet 和 Transformers,需要大量参数,在大规模数据集上进行训练;在医学成像领域,数据集、标注和计算资源往往稀缺;

  (2)神经元胞自动机(Neural Cellular Automata,NCA)受生物过程启发,在更少的参数下改善各种任务性能;在生成任务中,NCA 具有低分辨率输出,且缺乏全面的性能比较,在下游任务的评估中,NCA的图像生成效率仍然是一个未解决的挑战;

1.3、本文贡献

  (1)提出生成式元胞自动机(GeCA),一种集成了神经元胞自动机(NCA)和扩散目标的新模型,专门针对 NCA 的独特结构进行了定制;
  (2)利用基因遗传指导(GHG)来改进 GeCA 的图像采样。GHG 使 GeCA 在图像生成和视网膜疾病分类方面超过了 SOTA DiT,其参数仅占 DiT 的一半;
  (3)证明合成图像可增强训练数据集的能力,提高了 OCT 多标签视网膜疾病分类任务性能;

PS:元胞自动机学习传送:【数学建模】元胞自动机(CA)详解 + Matlab代码实现 (还怪好玩的耶~


2、生成式元胞自动机

2.1、一个生物体从一个小细胞开始

  NCA 将输入图像建模为 H × W {H×W} H×W 的网格,包含 H × W {H×W} H×W 个实体,命名为:pix-cells(像素元胞)。每个 pix-cells 代表一个时间依赖的状态空间表示,促进类似于细胞向生物体的动态进化,即像素演化为图像。
  将每个 pix-cells 在步骤 m {m} m 处的状态参数化为标量向量,定义为:
在这里插入图片描述
   C i n {C^{in}} Cin:表示图像输入通道,灰度为1, RGB为3;
   C γ {C^{\gamma}} Cγ:表示位置编码,由一个连续平滑的正弦函数定义,促进网格内的空间感知;
   C o u t {C^{out}} Cout:表示 pix-cells 的输出状态;
   C h {C^{h}} Ch:表示 pix-cells 的隐藏状态变量;

  为了从像素进化为图像,本文遵循传统的 NCA,采用一个随机规则:意味着一个 pix-cells 在第 m {m} m 步以概率 p {p} p 随机更新,反映了生物体中细胞更新的非同步性质。

  针对 pix-cells 更新, C i n {C^{in}} Cin C γ {C^{\gamma}} Cγ 是恒定的,只用关注 C o u t {C^{out}} Cout C h {C^{h}} Ch,该过程如 图2 中 GeCA step 所示,被定义为:
在这里插入图片描述
  与 SOTA 扩散 Transformer(DiT)中的 M {M} M 层分层建模不同,本文将 Θ {Θ} Θ 参数化为一个具有局部自注意机制的 single DiT block,特别是在 pix-cells 的8个最近相邻中计算。
  局部注意策略,允许每个 pix-cells 根据等式(2),使用 Θ {Θ} Θ ,独立生长 M {M} M 次。

  GeCA 方法将图像生成的重点转向了局部空间交互,避免了 UNet 和标准 transformers 等传统模型中的全局上下文依赖。但 GeCA 通过 C h {C^{h}} Ch 积累长期的状态空间表示来获得全局一致性,与 NCA 、Mamba、通用 Transformers 和 MLP-mixers 中记录的基本概念相一致。

  GeCA 总体框架:
在这里插入图片描述

2.2、元胞扩散:将细胞进化为生物体

  为训练模型参数 Θ {Θ} Θ ,引入的成熟的扩散过程,并在正向和反向步骤中进行特定的修改。

  在正向扩散过程中,将 C o u t {C^{out}} Cout C h {C^{h}} Ch 初始化为0,除了位于 H × W {H×W} H×W 网格中心的单个 pix-cells ,它用随机标量初始化,作为元胞过程的起点。 C γ {C^{\gamma}} Cγ 用一个正弦位置编码来初始化, C i n {C^{in}} Cin 可以在每个 pix-cells 的正向扩散过程中描述为(只有 C i n {C^{in}} Cin 参与了扩散过程):
在这里插入图片描述
  使用等式(2)实现 M {M} M 次元胞更新来发展 C o u t {C^{out}} Cout C h {C^{h}} Ch ,当 T → ∞ {T → ∞} T 时, C T i n {C_{T}^{in}} CTin 为各向同性高斯分布,优化过程为从 pix-cells 预测噪声:
在这里插入图片描述

2.3、通过基因遗传改进反向采样

  GeCA 用 pix-cells 表示输入图像,它是一个时间依赖的状态空间表示,长期信息由内部隐藏状态 C h {C^{h}} Ch 保存,可类比为遗传物质。
  因此,利用 t + 1 {t+1} t+1 时刻的 C h {C^{h}} Ch 来指导反向生成过程, 反映了遗传特性,本文修改了反向过程中的每个步骤,以启动 pix-cells 的隐藏状态 C h {C^{h}} Ch

在这里插入图片描述
  同时,对于每个时间步,网格中心像素 pix-cells C o u t {C^{out}} Cout 被定义为:

在这里插入图片描述
  该过程被称为基因遗传指导(Gene Heredity Guidance,GHG),为 C i n {C^{in}} Cin 去噪和 C h {C^{h}} Ch 细化设置了一个合理的起点,去噪采样一个 pix-cells C 0 i n {C_{0}^{in}} C0in ,遵循传统的扩散步骤:

在这里插入图片描述

2.4、视网膜疾病分类

  由于数据稀缺和偏态的类别分布,从OCT图像中分类视网膜疾病面临重大挑战。利用生成建模来有效地增强数据集,与传统的增强技术相比,这一策略被证明可以显著增强下游分类任务。

  本文合成了一个扩展的训练集,反映了原始训练集的分布,给定原始数据集类别分布: p o r i g ( y ) {p_{orig}(y)} porig(y) y {y} y 表示数据集标签, N o r i g {N_{orig}} Norig 表示原始数据集大小,目标是将数据集扩展五倍: N a u g = 5 × N o r i g {N_{aug} = 5×N_{orig}} Naug=5×Norig ,同时保留 p o r i g ( y ) {p_{orig}(y)} porig(y),这是通过确保增强数据集中,每个标签 y {y} y 的计数 C o c u n t a u g ( y ) {Cocunt_{aug}(y)} Cocuntaug(y),是其原始计数的5倍来实现的:

在这里插入图片描述


3、实验与结果

3.1、数据集

  (1)多标签OCT数据集:OCT-ML,共203例患者369只眼的1435个样本,有多种疾病(11类),包括正常、干性老年性黄斑变性(dAMD)、湿性年龄相关性黄斑变性(wAMD)、糖尿病视网膜病变(DR)、中枢性浆液性脉络膜视网膜病变(CSC)、色素上皮脱离(PED)、黄斑视网膜上膜(MEM)、液体(FLD)、渗出(EXU)、脉络膜新生血管(CNV)和视网膜血管阻塞(RVO)。

  数据分布:
在这里插入图片描述

  (2)DeepDRiD数据集:眼底成像数据,有5类。1080训练,120验证,400测试。

3.2、基线与实施细节

  (1)与DiT和LDM比较;
  (2)使用相同的 Classifier Free Guidance (CFG) 策略实现条件生成;
  (3)所有生成都在类似于LDM的隐空间中完成的,输出大小为256×256;
  (4)batch size=128,训练14000个epoch;
  (5)下游分类任务采用Resnet34,Adam优化器;

3.3、生成建模评估

  特征似然发散(Feature Likelihood Divergence,FLD)量化的泛化差距(generalization gap,GG),可评价:新颖性 novelty(不同于训练样本)、保真度 fidelity 和合成样本的多样性 diversity;

  定量评估:

在这里插入图片描述

  可视化:

在这里插入图片描述

3.4、视网膜疾病分类

  所有生成模型都显著地提高了分类任务的各种指标性能。GeCA 扩展训练数据集获得了mean average precision(mAP为73.28%)。

在这里插入图片描述

3.5、GHG 消融

  Gene Heredity Guidance (GHG)的影响:
在这里插入图片描述


  感觉是基于每一步扩散过程结果再进行了元胞更新~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1904546.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

k8s 部署 springboot 项目内存持续增长问题分析解决

写在前面 工作中遇到,请教公司前辈解决,简单整理记忆博文内容涉及一次 GC 问题的分析以及解决理解不足小伙伴帮忙指正 😃,生活加油 99%的焦虑都来自于虚度时间和没有好好做事,所以唯一的解决办法就是行动起来,认真做完…

ES7210高性能四通道音频ADC转换模拟麦克风为IIS数字咪头

特征 高性能多位 Delta-Σ 音频 ADC 102 dB 信噪比 -85 分贝 THDN 24 位,8 至 100 kHz 采样频率 I2S/PCM 主串行数据端口或从串行数据端口 支持TDM 256/384Fs、USB 12/24 MHz 和其他非标准音频系统时钟 低功耗待机模式 应用 麦克风阵列 智能音箱 远场语音捕获 订购…

npm安装完yarn还是用不了?

前言 解决 找到你的包全局安装目录 复制路径,配置到Path全局环境变量 结果 不过发现在idea里还是用不了,此时你会想,这什么烂贴,没一点屁用 不过在重启idea之后,你也许就不会这么想了

【网络安全】实验五(身份隐藏与ARP欺骗)

一、本次实验的实验目的 (1)了解网络攻击中常用的身份隐藏技术,掌握代理服务器的配置及使用方法 (2)通过实现ARP欺骗攻击,了解黑客利用协议缺陷进行网络攻击的一般方法 二、搭配环境 打开三台虚拟机&#…

本地多卡(3090)部署通义千问Qwen2-72B大模型提速实践:从龟速到够用

最近在做文本风格转化,涉及千万token级别的文本。想用大模型转写,在线的模型一来涉及数据隐私,二来又不想先垫钱再找报销。本地的7-9B小模型又感觉效果有限,正好实验室给俺配了4卡3090的机子,反正也就是做个推理&#…

掌握MySQL基础命令:数据表结构修改详细操作

MySQL数据表(Table)是MySQL数据库中存储数据的基本结构单元。简单来说,数据表可以被看作是一个二维的、由行(Row)和列(Column)组成的表格,其中每一行代表了一个记录(Reco…

微服务的分布式事务解决方案

微服务的分布式事务解决方案 1、分布式事务的理论模型1.1、X/Open 分布式事务模型1.2、两阶段提交协议1.3、三阶段提交协议 2、分布式事务常见解决方案2.1、TCC补偿型方案2.2、基于可靠性消息的最终一致性方案2.3、最大努力通知型方案 3、分布式事务中间件 Seata3.1、AT 模式3.…

数据跨境法案:美国篇上

近年来随着全球数字化的加速发展,数据已成为国家竞争力的重要基石。在这样的背景下,中国软件和技术出海的场景日益丰富。本系列邀请到在跨境数据方面的研究人员针对海外的数据跨境政策进行解读。 本期将针对美国对数据跨境流动的态度和政策进行阐释。过…

基础权限存储

一丶要求 建立用户组shengcan,其id为 2000建立用户组 caiwu,其id 为2001建立用户组 jishu,其id 为 2002建立目录/sc,此目录是 shengchan 部门的存储目录,只能被 shengchan 组的成员操作4.其他用户没有任何权限建立目录/cw,此目录…

两个全开源的3D模型素材下载网站源码 3D图纸模型素材 三维图形素材会员下载站源码

今天推荐两个全开源的3D模型素材下载网站源码 3D图纸模型素材 三维图形素材会员下载站源码,这两个源码完整,都是基于thinkphp内核开发的,框架稳定,带数据库,源码文件,可以直接部署使用。 第一个&#xff1a…

数据库课设---学生宿舍管理系统(sql server+C#)

1.引言 1.1 内容及要求 设计内容:设计学生宿舍管理系统。 设计要求: (1)数据库应用系统开发的需求分析,写出比较完善系统功能。 (2)数据库概念模型设计、逻辑模型设计以及物理模型设计。 …

【基于R语言群体遗传学】-10-适应性与正选择

在之前的博客中,我们学习了哈代温伯格模型,学习了Fisher模型,学习了遗传漂变与变异的模型,没有看过之前内容的朋友可以先看一下之前的文章: 群体遗传学_tRNA做科研的博客-CSDN博客 一些新名词 (1&#xf…

AI绘画Stable Diffusion【图生图教程】:图片高清修复的三种方案详解,你一定能用上!(附资料)

大家好,我是画画的小强 今天给大家分享一下用AI绘画Stable Diffusion 进行 高清修复(Hi-Res Fix),这是用于提升图像分辨率和细节的技术。在生成图像时,初始的低分辨率图像会通过放大算法和细节增强技术被转换为高分辨…

隔离级别-隔离级别中的锁协议、隔离级别类型、隔离级别的设置、隔离级别应用

一、引言 1、DBMS除了采用严格的两阶段封锁协议来保证并发事务的可串行化,实现事务的隔离性,也可允许用户选择一个可以保证应用程序正确执行并且能够使并发度最大的隔离性等级 2、通常用隔离级别来描述隔离性等级,以下将主要介绍ANSI 92标准…

【数据结构】链表带环问题分析及顺序表链表对比分析

【C语言】链表带环问题分析及顺序表链表对比分析 🔥个人主页:大白的编程日记 🔥专栏:C语言学习之路 文章目录 【C语言】链表带环问题分析及顺序表链表对比分析前言一.顺序表和链表对比1.1顺序表和链表的区别1.2缓存利用率&#…

Blender新手入门笔记收容所(一)

基础篇 基础操作 视角的控制 控制观察视角:鼠标中键平移视图:Shift鼠标中键缩放视图:滚动鼠标中键滚轮 选中物体后:移动物体快捷键G,移动后单击鼠标就会定下来。 进入移动状态后:按Y会沿着Y轴移动进入移动…

谷粒商城学习笔记-17-快速开发-逆向工程搭建使用

文章目录 一,克隆人人开源的逆向工程代码二,把逆向工程集成到谷粒商城的后台工程三,以商品服务为例,使用逆向工程生成代码1,修改逆向工程的配置2,以Debug模式启动逆向工程3,使用逆向工程生成代码…

机器学习Day12:特征选择与稀疏学习

1.子集搜索与评价 相关特征:对当前学习任务有用的特征 无关特征:对当前学习任务没用的特征 特征选择:从给定的特征集合中选择出相关特征子集的过程 为什么要特征选择? 1.任务中经常碰到维数灾难 2.去除不相关的特征能降低学习的…

ASCII码对照表(Matplotlib颜色对照表)

文章目录 1、简介1.1 颜色代码 2、Matplotlib库简介2.1 简介2.2 安装2.3 后端2.4 入门例子 3、Matplotlib库颜色3.1 概述3.2 颜色图的分类3.3 颜色格式表示3.4 内置颜色映射3.5 xkcd 颜色映射3.6 颜色命名表 4、Colorcet库5、颜色对照表结语 1、简介 1.1 颜色代码 颜色代码是…

Koa2实现多并发文件上传

koa2批量上传文件 目前的是为了实现批量导入md文件&#xff0c;发布文章。这样就不用自己一篇一篇同步文章了。一次可以同步几千篇文章。 实现界面 内容 主要包含上传的文件标题&#xff0c;文件大小&#xff0c;上传状态。 <el-upload ref"uploader" v-model:…