MedNeXt: Transformer-driven Scaling ofConvNets for Medical Image Segmentation

news2024/11/18 9:21:53

论文标题;MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation

论文链接:2303.09975.pdf (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/pdf/2303.09975.pdf

论文: MedNeXt:用于医学图像分割的转换器驱动的ConvNets缩放

项目地址:MIC-DKFZ/MedNeXt: MedNeXt is a fully ConvNeXt architecture for 3D medical image segmentation (MICCAI 2023). (github.com)icon-default.png?t=N7T8https://github.com/MIC-DKFZ/MedNeXt

 摘要

       人们对采用基于TransformerTM的架构进行医学图像分割的兴趣与日俱增。然而,由于缺乏大规模的标注医学数据集,使得获得与自然图像相同的性能具有挑战性。相比之下,卷积网络具有更高的感应偏差,因此很容易训练成高性能。最近,ConvNeXt架构试图通过镜像变压器块来实现标准ConvNet的现代化。在这项工作中,我们对此进行了改进,以设计一种现代化的、可扩展的卷积体系结构,以应对数据稀缺的医疗环境的挑战。本文介绍了一种Transformer型的大核分割网络MedNeXt,它引入了

1)完全ConvNeXt 3D编解码器网络用于医学图像分割,

2)剩余的ConvNeXt上下采样块以保持跨尺度的语义丰富,

3)通过对小核网络进行上采样来迭代增加核大小,以防止有限医疗数据的性能饱和,

4)MedNeXt的多层次(深度、宽度、核大小)的复合伸缩。

       这导致了在CT和MRI模式和不同数据集大小的4个任务上的最先进的性能,代表了医学图像分割的现代化深度架构。

1 介绍

       Transformers在医学图像分割中被广泛采用,作为混合架构的组件或独立技术,以实现最先进的性能。学习远程空间依赖关系的能力是Transformer架构在视觉任务中的主要优势之一。然而,由于其有限的归纳偏差,Transformers受到大型注释数据集的必要性的困扰,以最大限度地提高性能优势。虽然这些数据集在自然图像中很常见(ImageNet-1 k ,ImageNet-21 k ),但医学图像数据集通常缺乏丰富的高质量注释。为了保留卷积固有的归纳偏差,同时利用变压器的架构改进,最近引入了ConvNeXt ,以重新建立卷积网络对自然图像的竞争性能。ConvNeXt架构使用了一个反向瓶颈,反映了Transformers的瓶颈,由一个深度层、膨胀层和收缩层组成。除了大的依赖性内核,以复制其可扩展性和远程表示学习。作者将大型内核ConvNeXt网络与巨大的数据集配对,以超越以前最先进的基于Transformer的网络。相比之下,堆叠小内核的VGGNet 方法仍然是设计医学图像分割中ConvNet的主要技术。开箱即用的数据高效解决方案,如nnUNet,使用标准UNet 的变体,在广泛的任务中仍然有效。

       ConvNeXt架构将Vision和Swin Transformers的可扩展性和远程空间表示学习能力与ConvNets的固有归纳偏差相结合。此外,反向瓶颈设计允许我们扩展宽度(增加通道),同时不受内核大小的影响。在医学图像分割中的有效使用将允许以下益处:

1)通过大内核学习长距离空间依赖性,

2)不那么直观,同时缩放多个网络级别。

       要实现这一点,需要一些技术来对抗大型网络在有限的训练数据上过度拟合的趋势。尽管如此,最近已经尝试将大内核技术引入医学视觉领域。在[18]中,通过将内核分解为dependency和dependency扩张内核来使用大内核3D-UNet [5],以提高器官和脑肿瘤分割的性能-探索内核缩放,同时使用恒定数量的层和通道。ConvNeXt架构本身用于3D-UX-Net [17],其中SwinUNETR [8]的Transformer被ConvNeXt块取代,以实现多个分割任务的高性能。然而,3D-UX-Net仅在标准卷积编码器中部分使用这些块,限制了它们可能的好处。

       在这项工作中,我们最大限度地发挥了ConvNeXt设计的潜力,同时独特地解决了医学图像分割中有限数据集的挑战。我们提出了第一个完全ConvNeXt 3D分割网络MedNeXt,这是一个可扩展的编码器-解码器网络,并做出了以下贡献:

- 我们利用纯粹由ConvNeXt块组成的架构,使ConvNeXt设计具有网络范围的优势。

- 我们引入了残差反向瓶颈来代替常规的上采样和下采样块,以保持上下文的丰富性,同时重新调整以利于密集分割任务。修改后的残差连接特别改善了训练期间的梯度流。

- 我们引入了一种简单但有效的迭代增加内核大小的技术UpKern,通过使用经过训练的上采样小内核网络进行初始化来防止大内核MedNeXts的性能饱和。

- 由于我们的网络设计,我们建议应用多个网络参数的复合缩放,允许宽度(通道),感受野(内核大小)和深度(层数)缩放的正交性。

       MedNeXt相对于由基于transformer的卷积和大型内核网络组成的基线实现了最先进的性能。我们在不同模态(CT,MRI)和大小(范围从30到1251个样本)的4个任务上显示了性能优势,包括器官和肿瘤的分割。我们提出MedNeXt作为标准ConvNets的强大和现代化的替代方案,用于构建医学图像分割的深度网络。

2 方法

2.1 完全ConvNeXt 3D分割架构

       在以前的工作中,ConvNeXt将Vision Transformers和Swin Transformers的架构见解提炼成卷积架构。ConvNeXt模块继承了Transformers的许多重要设计选择,旨在限制计算成本,同时扩展网络,这表明与标准ResNet相比,性能有所改善。在这项工作中,我们利用这些优势,采用ConvNeXt的总体设计作为类似3D-UNET宏观体系结构的构建块,以获得MedNeXt。我们还将这些块扩展到上采样层和下采样层,形成了第一个用于医学图像分割的完全ConvNeXt体系结构。宏体系结构如图1a所示。MedNeXt块(类似于ConvNeXt块)具有3层镜像变压器块,C通道输入说明如下:

图1:(a)MedNeXt的架构设计。网络有4个编码器和解码器层,每个层有一个瓶颈层。MedNeXt块也存在于上采样和下采样层中。在每个解码器层使用深度监督,在较低分辨率下具有较低的损失权重。所有残差都是加性的,而卷积被填充以保持张量大小。(b)除了内核大小(k1,k2)之外,具有相似配置(θ)的一对MedNeXt架构的上采样内核(UpKern)初始化。(c)MedNeXt-L(5×5×5)排行榜性能。

1.去卷积层:这一层包含一个内核大小为k × k × k的Dependency卷积,然后进行归一化,输出通道为C。我们使用通道式GroupNorm [32]来实现小批量的稳定性[27],而不是原始的LayerNorm。卷积的依赖性允许这一层中的大内核复制Swin-Transformers的大注意力窗口,同时限制计算,从而将“繁重的工作”委托给扩展层。

2.扩展层:对应于Transformers中的类似设计,该层包含具有CR输出通道的过完备卷积层,其中R是扩展比,然后是GELU激活。较大的R值允许网络在计算1×1×1内核限制时进行宽度扩展。重要的是要注意,这一层有效地将宽度缩放与前一层中的感受野(内核大小)缩放相结合。

3.压缩层:卷积层,具有1×1×1内核和C输出通道,执行特征图的通道压缩。

       MedNeXt是卷积的,并保留了ConvNets固有的归纳偏差,允许在稀疏医学数据集上进行更容易的训练。我们的完全ConvNeXt架构还支持在标准和上/下采样层进行宽度(更多通道)和感受野(更大的内核)缩放。除了深度缩放(更多层),我们还探索了这3种正交缩放类型,以设计一种复合可扩展MedNeXt,用于有效的医学图像分割。

2.2 剩余反向瓶颈恢复

        最初的ConvNeXt设计使用了独立的下采样层,这些下采样层由标准的跨距卷积组成。一个等价的上采样块将是标准跨距转置卷积。但是,此设计不会在重采样时隐式利用宽度或基于内核的ConvNeXt缩放。我们通过将反向瓶颈扩展到MedNeXt中的重采样块来改进这一点。这是通过在分别用于下采样和上采样MedNeXt块的第一深度层中插入步进卷积或转置卷积来实现的。相应的通道减少或增加被插入到我们的MedNeXt 2×Up或Down块设计的最后一个压缩层中,如图1a所示。此外,为了实现更容易的梯度流,我们增加了1×1×1卷积的残差连接或步长为2的转置卷积。这样做,MedNeXt充分利用了Transformers反向瓶颈的优势,在其所有组件中以较低的空间分辨率保留了丰富的语义信息,这将有利于密集医学图像分割任务。

图1:(a)MedNeXt的架构设计。网络有4个编码器和解码器层,每个层有一个瓶颈层。MedNeXt块也存在于上采样和下采样层中。在每个解码器层使用深度监督,在较低分辨率下具有较低的损失权重。所有残差都是加性的,而卷积被填充以保持张量大小。(b)除了内核大小(k1,k2)之外,具有相似配置(θ)的一对MedNeXt架构的上采样内核(UpKern)初始化。(c)MedNeXt-L(5×5×5)排行榜性能。

2.3 UpKern:无饱和的大核卷积

      大卷积核近似于Transformers中的大注意力窗口,但仍然容易出现性能饱和。自然图像分类中的ConvNeXt架构,尽管具有ImageNet-1 k和ImageNet-21 k等大型数据集的优势,但在大小为7×7×7的内核上饱和。医学图像分割任务具有显著较少的数据,并且在大型内核网络中性能饱和可能是一个问题。为了提出一个解决方案,我们从Swin Transformer V2 中汲取灵感,其中一个大注意力窗口网络被另一个用较小注意力窗口训练的网络初始化。具体来说,Swin Transformers使用偏置矩阵B ∈ R(2 M −1)×(2 M −1)来存储学习到的相对位置嵌入,其中M是注意力窗口中的补丁数量。在增加窗口尺寸时,M增加并且需要更大的B。作者提出了将现有的偏置矩阵空间插值到更大的尺寸作为预训练步骤,而不是从头开始训练,这证明了性能的提高。我们提出了一个类似的方法,但定制卷积内核,如图1b所示,以克服性能饱和。UpKern允许我们通过对大小不兼容的卷积核(表示为张量)进行三线性上采样,用兼容的预训练小核网络初始化大核网络,从而迭代地增加核大小。具有相同张量大小的所有其他层(包括归一化层)通过复制未更改的预训练权重来初始化。这导致了一种简单但有效的MedNeXt初始化技术,它有助于大型内核网络克服医学图像分割常见的相对有限的数据场景中的性能饱和。

图1:(a)MedNeXt的架构设计。网络有4个编码器和解码器层,每个层有一个瓶颈层。MedNeXt块也存在于上采样和下采样层中。在每个解码器层使用深度监督,在较低分辨率下具有较低的损失权重。所有残差都是加性的,而卷积被填充以保持张量大小。(b)除了内核大小(k1,k2)之外,具有相似配置(θ)的一对MedNeXt架构的上采样内核(UpKern)初始化。(c)MedNeXt-L(5×5×5)排行榜性能。

2.4 深度、宽度和感受野的复合标度

        复合缩放[29]是这样一种想法,即在多个级别(深度,宽度,感受野,分辨率等)上同时缩放提供了超越单一级别缩放的好处。在3D网络中无限缩放核大小的计算要求很快变得令人望而却步,并导致我们在不同级别上同时进行缩放。与图1a保持一致,我们的缩放测试了块计数(B),扩展比(R)和内核大小(k)-对应于深度,宽度和感受野大小。我们使用MedNeXt的4种型号配置来完成此操作,详见表1(左)。基本功能设计(MedNeXt-S)使用的通道数(C)为32,R = 2,B = 2。其他变体仅在R(MedNeXt-B)或R和B(MedNeXt-M)上增加。最大的70-MedNext-block架构使用高R和B值(MedNeXt-L),用于证明MedNeXt能够显著扩展依赖性(即使在标准内核大小下)。我们进一步探索大的内核大小,并对每种配置进行k = {3,5}的实验,以通过MedNeXt架构的复合缩放来最大化性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1139741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

echart绘制环形进度条

原型: <template><div class="chart"><div ref="chartRef" class="chart-bar" :style="{ width, height }"></div><div class="num">{{ sideText }}</div></div> </templa…

一文教你如何将Eclipse项目导入到IDEA运行

&#x1f4d6;本篇超级详细案例截图教学 Eclipse web项目如何导入到Intellij IDEA中&#xff0c;图片点击可放大仔细看 工具版本说明&#xff1a; 工具 版本 Intellij IDEA 2022.3 tomcat 8.5 JDK 1.8 步骤一 .导入一个已存在的工程 1.1 File–>New–>Proj…

损失函数总结(八):MultiMarginLoss、MultiLabelMarginLoss

损失函数总结&#xff08;八&#xff09;&#xff1a;MultiMarginLoss、MultiLabelMarginLoss 1 引言2 损失函数2.1 MultiMarginLoss2.2 MultiLabelMarginLoss 3 总结 1 引言 在前面的文章中已经介绍了介绍了一系列损失函数 (L1Loss、MSELoss、BCELoss、CrossEntropyLoss、NLL…

LIS系统-实现检验报告集中管理

LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化&#xff0c;检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后&#xff0c;自动生成打印报告&#xff0c;通过网络存储在数据库中&#xff0c;使医生能够通过医生工作站方便、及时地…

基于springboot实现网吧管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现网吧管理系统演示 摘要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#x…

JDK11下载、安装与配置、运行第一个Java程序教程

JDK已经更新到20.0.2了&#xff0c;JDK11是相对比较稳定的版本&#xff0c;网上的JDK11安装配置教程一大堆&#xff0c;但是很多都过时了&#xff0c;自己整理了一篇JDK11下载安装的详细步骤&#xff0c;带有每一步的完整的图文教程&#xff0c;大家可以根据自己的需要下载。 …

pytorch 入门 (五)案例三:乳腺癌识别识别-VGG16实现

本文为&#x1f517;小白入门Pytorch内部限免文章 &#x1f368; 本文为&#x1f517;小白入门Pytorch中的学习记录博客&#x1f366; 参考文章&#xff1a;【小白入门Pytorch】乳腺癌识别&#x1f356; 原作者&#xff1a;K同学啊 在本案例中&#xff0c;我将带大家探索一下深…

pytorch深度学习实践(二):梯度下降算法详解和代码实现(梯度下降、随机梯度下降、小批量梯度下降的对比)

目录 一、梯度下降1.1 公式与原理1.1.1 cost(w)1.1.2 梯度1.1.3 w的更新 1.2 训练过程可视化1.3 代码实现 二、随机梯度下降&#xff08;stochastic gradient descent&#xff0c;SDG&#xff09;2.1 公式与原理2.1.1 w的更新 2.2 代码实现2.3 梯度下降和随机梯度下降的优缺点对…

漏洞复现-jquery-picture-cut 任意文件上传_(CVE-2018-9208)

jquery-picture-cut 任意文件上传_&#xff08;CVE-2018-9208&#xff09; 漏洞信息 jQuery Picture Cut v1.1以下版本中存在安全漏洞CVE-2018-9208文件上传漏洞 描述 ​ picture cut是一个jquery插件&#xff0c;以友好和简单的方式处理图像&#xff0c;具有基于bootstrap…

Vue3-小兔鲜项目

1.初始化项目 npm init vuelatest src目录调整 Git项目管理 基于create-vue创建出来的项目默认没有初始化git仓库&#xff0c;需要我们手动初始化 执行命令并完成首次提交 1.git init 2.git add 3.git commit -m "init" 别名路径联想提示 什么是别名路径联想…

通过requests库使用HTTP编写的爬虫程序

使用Python的requests库可以方便地编写HTTP爬虫程序。以下是一个使用requests库的示例&#xff1a; import requests# 发送HTTP GET请求 response requests.get("http://example.com")# 检查响应状态码 if response.status_code 200:# 获取响应内容html response.…

推荐5款助你高效工作的小软件

现在&#xff0c;有很多实用的工具和软件可以帮助我们更高效地完成各种任务。以下是5款值得推荐的工具软件&#xff0c;能够极大地提高我们的工作效率。 1.电子书阅读器——Koodo Reader ​ Koodo Reader 是一款开源免费的电子书阅读器&#xff0c;支持多达15种主流电子书格式…

laravel+vue2 element 一套项目级医院手术麻醉信息系统源码

手术麻醉临床信息系统源码&#xff0c;PHPmysqllaravelvue2 手术麻醉临床信息系统&#xff0c;采用计算机和通信技术&#xff0c;实现监护仪、麻醉机、输液泵等设备输出数据的自动采集&#xff0c;采集的数据能够如实准确地反映患者生命体征参数的变化&#xff0c;并实现信息高…

搜维尔科技:【应用】配备MTi-3的轻便型ROV,在水下进行地理标记视觉检测

部署潜水员进行水下摄像&#xff0c;不仅难度高而且费用昂贵&#xff0c;需要受过潜水和摄像两方面培训的专业人员来进行。但有些水下作业任务例如拍摄海底管道内部的照片&#xff0c;由于人员无法进入或危险度高的原因&#xff0c;无法由潜水员完成。 如今&#xff0c;俄罗…

看谷歌浏览器源码,为什么p标签和div标签为块元素

看谷歌浏览器源码 谷歌源码路径&#xff1a;third_party/blink/renderer/core/html/resources/html.css 为什么块级元素独占一行&#xff1f; 是谷歌浏览器设置div的默认样式 display:block 它才独占一行 p标签和div标签为块元素 strong,b,i,em等等标签为行内元素

如何在Excel中实现三联类模板?

本文由葡萄城技术团队原创并首发。转载请注明出处&#xff1a;葡萄城官网&#xff0c;葡萄城为开发者提供专业的开发工具、解决方案和服务&#xff0c;赋能开发者。 前言 在一些报表打印应用场景中&#xff0c;会有类似于如下图所示的排版格式&#xff1a; 一般情况下将这种类…

k8s statefulSet 学习笔记

缩写: sts 通过 kubectl api-resources 可以查到&#xff1a; NAMESHORTNAMESAPIVERSIONNAMESPACEDKINDstatefulsetsstsapps/v1trueStatefulSet web-sts.yaml apiVersion: v1 kind: Service metadata:name: nginxlabels:app: nginx spec:ports:- port: 80name: web-sts-svc…

22年上半年下午题

第一大题题目 第一大题解答 第一小问 看加工交互和说明来得出实体的名字。如果不太确定&#xff0c;可以多去看几条数据流来确认答案。仔细一点&#xff0c;这分稳啦。 第二小问 需要对应加工结合说明得出数据存储的名称。 一般可以在后面加上表字或者加上信息表。自拟&…

2023年Q3企业邮箱安全性报告:境内钓鱼邮件超过境外攻击

10月25日&#xff0c;Coremail邮件安全联合北京中睿天下信息技术有限公司发布《2023年第三季度企业邮箱安全性研究报告》。2023年第三季度企业邮箱安全呈现出何种态势&#xff1f;作为邮箱管理员&#xff0c;我们又该如何做好防护&#xff1f; 以下为精华版阅读&#xff0c;如需…

u盘资料不小心删掉怎么找回来?一文教会你恢复方法

案例描述&#xff1a;“平时我都是使用U盘来存储和传输公司重要的资料。昨天&#xff0c;不小心将一个文件夹整个删除&#xff0c;里面包含了我准备好几个月的工作成果和重要的项目资料。怎么办&#xff01;&#xff01;&#xff01;救救我的宝贝资料吧&#xff01;” 在日常生…