Transformer在医学影像中的应用综述-分割

news2024/9/22 1:47:26

文章目录

  • Transformers in Medical Imaging: A Survey
    • 摘要
    • 方法
      • 手工的方法
      • 基于卷积的方法
      • 基于Transformer的方法
      • 影像分割
        • 2D
        • 3D
      • 多器官分割
        • 纯transformer
        • 混合Transformer
          • 单规模结构
            • transformer在编码器中
            • Transformer在编码器和解码器之间
            • Transformer在编码器和解码器中
            • Transformer在解码器中
          • 多规模结构
            • 2D
            • 3D
        • 小结

Transformers in Medical Imaging: A Survey

摘要

继在自然语言任务上取得前所未有的成功之后,Transformers 已经成功地应用于几个计算机视觉问题,取得了最先进的结果,并促使研究人员重新考虑卷积神经网络(cnn)作为事实上的算子的霸主地位。利用计算机视觉的这些进步,医学成像领域也见证了与具有局部接受域的cnn相比,能够捕获全局上下文的Transformers的兴趣越来越大。受这种转变的启发,在本调查中,我们试图全面回顾Transformers 在医学成像中的应用,涵盖各个方面,从最近提出的建筑设计到未解决的问题。具体来说,我们研究了transformer在医学图像分割、检测、分类、重建、合成、配准、临床报告生成等任务中的应用。特别是,对于这些应用程序中的每一个,我们都开发了分类,确定了特定于应用程序的挑战,并提供了解决这些挑战的见解,并强调了最近的趋势。此外,我们对该领域的整体现状进行了批判性的讨论,包括确定关键挑战,开放问题,并概述了有希望的未来方向。我们希望这项调查将进一步点燃社区的兴趣,并为研究人员提供有关Transformer模型在医学成像中的应用的最新参考。
代码地址

方法

在这里插入图片描述

手工的方法

解决医学成像任务的传统算法是基于由现场专家利用领域知识设计的手工制作的数学模型。针对一系列医学成像问题,开发这些专注于精炼判别特征和高效优化算法的手工模型一直是过去的中心研究课题。医学成像中成功的手工制作模型包括全变分、非局部自相似性、稀疏性/结构化稀疏性、小波系数上的马尔可夫树模型和未经训练的神经网络。这些模型在医学领域被广泛用于图像分割、重建、疾病分类、增强和异常检测,因为它们具有坚实的数学基础和鲁棒性、恢复性和复杂性方面的理论支持。此外,与基于深度学习的方法不同,它们不需要大型带注释的医学成像数据集进行训练。
然而,由于无法充分利用大型医学影像数据集的表达能力,这些手工制作的模型往往具有较差的判别能力。因此,这些模型往往不能代表高维复杂医学成像数据的细微差别,从而影响医学成像诊断系统的性能。为了避免差的判别性和泛化问题,人们提出了学习手工模型来更好地利用数据。代表性的方法包括最优方向、K-SVD、数据驱动的紧框架、低秩模型和分段平滑图像模型。接下来,我们将解释文献中探讨的流行的数据驱动方法。

基于卷积的方法

cnn能够有效地从大规模医疗数据集中学习判别特征和提取可泛化先验,从而在医学成像任务中提供出色的性能,使其成为现代基于人工智能的医学成像系统的重要组成部分。cnn的进步主要得益于新颖的架构设计、更好的优化程序、特殊硬件(如gpu)的可用性和专门构建的开源软件库。

基于Transformer的方法

在这里插入图片描述
Vit的结构
在这里插入图片描述

影像分割

2D

在这里插入图片描述

  1. BAT:边界感知Transformer,在Transformer架构中设计了一个边界智能注意门,以利用关于边界的先验知识。对边界注意门的辅助监督为有效训练BAT提供了反馈。
  2. FAT-Net:基于双编码器的特征自适应Transformer网络:由编码器中的CNN和Transformer支路组成。为了有效地融合这两个分支的特征,设计了高效存储的译码器和特征自适应模块。
  3. GT U-Net:由变压器层和卷积层组成的分组Transformer U-Net,分别对全局和局部上下文进行编码。已经提出了一种形状敏感的傅立叶描述子损失函数来处理模糊齿边界。此外,在GT U-Net中引入了分组和瓶颈结构,大大降低了计算成本。
  4. AGMB-Transformer:解剖引导多支路Transformer:结合群卷积和渐进Transformer网络的优势
  5. TransBridge:一种轻量级的参数高效混合模型。TransBridge由transformer和基于cnn的编码器-解码器结构组成,用于超声心动图左心室分割
  6. COTR-Net:由卷积层和变压器层组成,用于端到端肾脏、肾囊肿和肾肿瘤的分割。具体来说,COTR-Net的编码器由几个卷积变换块组成,解码器由几个上采样层组成,这些上采样层与编码器有跳过连接。编码器权重使用预训练的ResNet架构进行初始化以加速收敛,并且在解码器层中利用深度监督来提高分割性能。
  7. Cell-DETR:将一个专门的注意力分支集成到DETR框架中,以获得除框预测之外的实例分割掩码
  8. MBT-Net:保留更多的局部细节,并充分利用全局背景,多支路混合Transformer网络

3D

  1. TransBTS:使用3D CNN提取局部3D体积空间特征,并使用transformer编码全局特征
  2. Bi-Transformer U-Net (BiTr-UNet): BiTr-UNet包含一个注意力模块来完善编码器和解码器的特征,并且有两个ViT层(而不是TransBTS中的一个),BiTr-UNet采用后处理策略,如果预测的分割量小于阈值[141],则消除该分割量,然后通过多数投票进行模型集成
  3. VT-UNet:以分层方式分割3D医学图像,引入了两个自注意层来捕获全局和局部上下文,在解码器中引入基于窗口的自注意和交叉注意模块以及傅里叶位置编码,显著提高了VT-UNet的精度和效率,VT-UNet对数据伪像具有鲁棒性,并表现出较强的泛化能力
  4. Swin UNETR:以一种高效的移位窗口划分方案计算自注意力,验证集上表现最好的模型
  5. Spectral Transformer(spectrr):可变形来学习跨光谱维度的上下文特征。为了丢弃不相关的光谱带,他们引入了一种基于稀疏性的方案。此外,他们对每个波段采用单独的组归一化,以消除光谱图像之间分布不匹配造成的干扰。
  6. RAT-Net:区域感知变压器网络:将乳腺肿瘤区域信息融合到多个尺度上,以获得精确分割

多器官分割

分割方法分为纯变压器(仅ViT层)和混合架构(包括cnn和ViT层)。

纯transformer

  1. 基于transformer的三维医学图像分割模型,该模型利用三维医学图像patch相邻线性嵌入之间的自注意力
  2. Swin- unet:在局部窗口内计算自注意力,并且相对于输入图像具有线性计算复杂度

混合Transformer

基于混合体系结构的方法结合了transformer和cnn的互补优势,有效地建模全局上下文并捕获局部特征以进行准确分割。我们进一步将这些混合模型分为单尺度和多尺度方法

单规模结构

这些方法仅在一个尺度上处理输入的图像信息,与多尺度体系结构相比,由于计算复杂度低,在医学图像分割中得到了广泛的应用。我们可以根据模型中Transformer层的位置对单尺度体系结构进行分类。这些子类别包括编码器中的变压器,编码器和解码器之间的变压器,编码器和解码器中的变压器以及解码器中的变压器

transformer在编码器中
  1. TransUNet
  2. TransFuse:通过BiFusion模块有效地融合Transformer层和CNN层的特征。BiFusion模块利用自关注和多模态融合机制来选择性地融合特征
  3. 门控轴向注意层:在小型医学图像分割数据集上表现良好
  4. Swin UNETR:具有代理任务的新型自监督学习框架,在5,050张CT数据集图像上预训练Transformer编码器
  5. Claw UNet的编码部分集成Transformer层提出了TransClaw UNet,以利用多尺度信息
  6. levi - unet:多阶段架构
Transformer在编码器和解码器之间

Transformer层位于u形架构的编码器和解码器之间
第一项工作是TransAttUNet:注意力和多尺度跳跃连接来增强传统UNet的灵活性,同时利用全局空间注意和变形自注意的表达能力
轴向融合变压器UNet (AFTerUNet):在编码器和解码器之间包含一个计算效率高的轴向融合层,可以有效地融合片间和片内信息,用于3D医学图像分割。

Transformer在编码器和解码器中

UTNet,它有效地将自关注机制的复杂性从二次型降低到线性
nnFormer:基于交错编解码器的架构,其中卷积层编码精确的空间信息,变压器层编码全局上下文
DS-TransUNet:将Swin变压器在u型架构中的优势结合起来用于医学图像分割

Transformer在解码器中

SegTran:用于二维和三维医学图像分割的SE Transformer,还提出了一种可学习的正弦位置编码,帮助模型对空间关系进行编码

多规模结构
2D

PMTrans:利用多分辨率注意力来捕获不同图像尺度上的相关性,使用金字塔结构。PMTrans在不改变自注意计算的总体复杂度的情况下,通过自适应的小块分割方案来访问不同的接受域。
Multi-Compound transformer (MCTrans):不仅学习相同语义类别的特征一致性,还捕获不同语义类别之间的相关性

3D

UNETR由一个纯变压器作为编码器来学习输入量的序列表示。编码器通过跳过连接连接到基于cnn的解码器,以计算最终的分割输出
UNETR的缺点之一是在处理大型3D输入量时计算复杂性大
在这里插入图片描述
图中关注可变形注意力模块

小结

在多个层次提取特征的高计算成本阻碍了多尺度架构在医学分割任务中的适用性。这些多尺度架构利用了对输入图像信息的多层次处理,并取得了比单尺度架构更好的性能。因此,为多尺度处理设计高效的变压器结构是一个值得关注的问题。

大多数提出的基于vit的模型都是在ImageNet数据集上进行预训练的,用于医学图像的下游任务分割。这种方法是次优的,因为在自然和医学图像模式之间有很大的领域差距。目前,研究医学影像数据集的自监督预训练对ViTs分割性能影响的研究很少。然而,这些工作表明,当直接应用于其他医学成像模式(MRI)时,在一种模式(CT)上预训练的ViT表现不理想,因为大的域间隙使其成为一个令人兴奋的探索途径。

目前基于视觉视觉的方法主要集中在二维医学图像分割上。通过结合时间信息来设计定制的建筑组件以实现高效的高分辨率和高维分割的体图像尚未得到广泛的研究。最近,已经做出了一些努力,例如,UNETR使用基于Swin Transformer的架构来避免二次计算复杂性;然而,这需要社会各界的进一步关注。

除了关注数据集的规模之外,随着vit的出现,我们注意到需要收集更多样化和更具挑战性的医学成像数据集。尽管各种具有挑战性的数据集对于衡量vit在其他医学成像应用中的性能也至关重要,但由于该领域大量涌入了基于vit的模型,因此它们与医学图像分割特别相关。我们相信这些数据集将在探索ViTs在医学图像分割中的局限性方面发挥决定性作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/909226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【React】生命周期和钩子函数

概念 组件从被创建到挂载到页面中运行,再到组件不用时卸载的过程。 只有类组件才有生命周期。 分为三个阶段: 挂载阶段更新阶段销毁阶段 三个阶段 挂载阶段 钩子函数 - constructor 创建阶段触发 作用:创建数据 之前定义状态是简写&…

Datawhale Django 后端开发入门 Task05 DefaultRouter、自定义函数

一、DefaultRouter是Django REST framework中提供的一个路由器类,用于自动生成URL路由。路由器是将URL与视图函数或视图集关联起来的一种机制。Django REST framework的路由器通过简单的配置可以自动生成标准的URL路由,从而减少了手动编写URL路由的工作量…

五种消息模型简单说明

五种消息模型简单说明 RabbitMQ提供了6种消息模型,但是第6种其实是RPC,并不是MQ,因此不予学习。那么也就剩下5种。但是其实3、4、5这三种都属于订阅模型,只不过进行路由的方式不同。  我们通过一个demo工程来了解下RabbitMQ的…

代码随想录算法训练营(23/6/25)LeetCode 84.柱状图中最大的矩形

LeetCode 84.柱状图中最大的矩形 今天是算法训练营的打卡的最后一天,我开始觉得我能坚持下来,但因为个人原因,还有期末考试我花太多心思,打卡就一直断断续续,博客没怎么写,最终也写完了

ctfshow-web10 with rollup 绕过

0x00 前言 CTF 加解密合集CTF Web合集 0x01 题目 0x02 Write Up 基本方法,到处点一点,点到取消的时候,突然发现,可以下载一个文件: 看到这个源码,可以看到只能是通过满足下面的条件来拿到flag&#xff…

sql server 快速安装

目录标题 一、下载二、直接选择基本安装二、下载ssms(数据库图形化操作页面)三、开启sa账号认证(一)第一步:更改身份验证模式(二)第二步:启用 sa 登录 一、下载 下载地址&#xff1…

ModaHub魔搭社区:AI Agent在操作系统场景下的AgentBench基准测试

近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估,包括基于API的商业模型和开源模型。 他们发现,顶级商业LLM在复杂环境中表现出…

【leetcode 力扣刷题】链表基础知识 基础操作

链表基础知识 基础操作 链表基础操作链表基础知识插入节点删除节点查找节点 707. 设计链表实现:单向链表:实现:双向链表 链表基础操作 链表基础知识 在数据结构的学习过程中,我们知道线性表【一种数据组织、在内存中存储的形式】…

基于原生Servlet使用模板引擎Thymeleaf访问界面

我们常在Spring Boot项目中使用Thymeleaf模板引擎,今天突发奇想,尝试原生Servlet访问! 说做就做 搭建完整的WEB项目 其中的大部分依赖都是后续报错 追加进来的 导入依赖 thymeleaf-3.0.11.RELEASE.jar 第一次访问 访问地址: http://localhost:8080…

利用屏幕水印学习英语单词,无打扰英语单词学习

1、利用屏幕水印学习英语单词,不影响任何鼠标键盘操作,不影响工作 2、利用系统热键快速隐藏(ALT1键 隐藏与显示) 3、日积月累单词会有进步 4、软件下载地址: 免安装,代码未加密,安全的屏幕水印学习英语…

Linux学习之ftp安装、vsftpd安装和使用

ftp需要两个端口: 数据端口 命令端口 ftp有两种模式: 被动模式:建立命令连接之后,服务器等待客户端发起请求。 主动模式:建立命令连接之后,服务器主动向客户端发起数据连接,因为客户端可能有防火…

6-2 使用函数求素数和

分数 20 全屏浏览题目 切换布局 作者 张高燕 单位 浙大城市学院 本题要求实现一个判断素数的简单函数、以及利用该函数计算给定区间内素数和的函数。 素数就是只能被1和自身整除的正整数。注意:1不是素数,2是素数。 函数接口定义: int p…

相关变化率的例子

如图,不解释。 很多物理学上的物理量,直接使用微分和导数来定义,因此可以不加证明的直接使用这些物理量。 解: d l 2 , d w 3 dl 2, dw 3 dl2,dw3 v l 2 w 2 , d v − 2 l d l 2 w d w 2 l 2 w 2 − 2 12 2 2 5…

内网渗透神器CobaltStrike之内网信息收集(九)

收集域内信息 Windows命令 查看网关的ip地址, DNS的ip地址、域名等等:shell ipconfig /all 查看当前主机所在的域: shell net view /domain 查看当前域的主机列表: shell net view 查看指定域的主机列表: shell net view /domain:[domain] 若beacon用户是域控, 则…

数据同步工具比较:选择适合您业务需求的解决方案

在当今数字化时代,数据已经成为企业的核心资产。然而,随着业务的扩展和设备的增多,如何实现数据的高效管理和同步成为了一个亟待解决的问题。本文将介绍几种常见的数据同步工具,并对比它们的功能、性能和适用场景,帮助…

二、9.硬盘驱动程序

文件系统是运行在操作系统中的软件模块,是操作系统提供的一套管理磁盘文件读写的方法和数据组织、存储形式,因此,文件系统=数据结构+算法,哈哈,所以它是程序。它的管理对象是文件,管…

互斥锁的概念,与部分接口

何为互斥 一种对共享数据的保护,防止多线程同时访问共享资源的时,数据混乱的问题。在互斥期间,保证执行流由并行改为串行。任何时刻,互斥保证有且只有一个执行流进入临界区,访问临界资源,通常对临界资源起…

苍穹外卖 day2 反向代理和负载均衡配置的代码

为什么要整这些玩意 为了并发,为了容错,为了高可用 一 反向代理的代码 server{listen 80;server_name localhost;location /api/{proxy_pass http://localhost:8080/admin/; #反向代理} }**proxy_pass:**该指令是用来设置代理服务器的地址&…

1小时学会Python

1.Hello world 安装完Python之后,打开IDLE(Python GUI) ,该程序是Python语言解释器,你写的语句能够立即运行。 我们写下一句著名的程序语句: 并按回车,你就能看到这句被K&R引入到程序世界的名言。 在解释器中选择"File"--"New Window" 或快捷键 …