【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

news2025/1/11 21:04:06

Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023.

【论文概述】

本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Transformers(Hybrid Vision Transformers,HVTs)在医学图像分割方面的最新进展。文中讨论了这些技术如何通过模拟图像中的长距离关系来提高诊断、治疗计划和疾病监测的准确性。同时,还探讨了这些方法在不同医学图像模态(如CT、MRI、X射线等)中的实际应用,以及它们面临的挑战和未来的发展方向。

本文中规中矩,对涉及到的方法只是简单陈列,并没有细致的优缺点探讨,可以作为寻找对应方向论文的一个参考,笔记中对涉及到的方法根据之前读文经历进行简单的优缺点归纳。

【本文模型的分类方法】

  1. 本文首先对基于ViT的医学图像分割方法进行了全面综述,将其分为两大类:基于ViT的方法(ViT-based methods)和混合视觉Transformers的方法(HVT-based methods)。
  2. 对于基于ViT的方法,进一步将其细分为以下四类:
  • ViT在编码器(encoder)中的应用。

  • ViT在解码器(decoder)中的应用。

  • ViT在编码器-解码器之间(in between encoder-decoder)的应用。

  • 编码器和解码器都采用基于ViT的架构(both the encoder and decoder are ViT-based architectures)。

    3.对于混合视觉Transformers(HVT)的方法,提出了一个分类法:

  • 基于编码器的集成(encoder-based integration)。

  • 基于解码器的集成(decoder-based integration)。

【医学图像分割存在的一些挑战】

1.在医学图像中的对象内发现的尺寸范围很广

2.结构轮廓的模糊性,加上它们的不同纹理变化和复杂形状,这很容易产生不准确的结果

3.当将感兴趣的对象与背景隔离时,低强度对比度带来的挑战

4.没有足够的训练数据集

【4.1 ViT-based Medical Image Segmentation Approaches】

这一部分从四个方面探讨了ViTs在医学图像分割中的应用,包括ViT在编码器(Encoder)、解码器(Decoder)、编码器-解码器中的应用,以及ViT在编码器和解码器之间的应用。以下是对这些部分的总结:

  1. ViT in Encoder

    image-20231218083803640
    • 优点:通过在编码器中使用ViT,模型能有效捕获全局信息和多尺度特征,从而增强特征提取能力。
    • 代表模型:例如UNETR(UNet Transformer),利用ViT作为编码器来有效捕获输入体积的多尺度全球信息。
    • 缺点:可能会增加模型的计算复杂性和训练难度。
  2. ViT in Decoder

    image-20231218083930090
    • 优点:将ViT应用于解码器可以提高预测边界精度,并区分背景和兴趣对象。
    • 代表模型:如ConvTransSeg,采用CNN编码器和基于ViT的解码器。
    • 缺点:解码阶段的全局信息处理可能不如编码阶段有效。
  3. ViT in both Encoder-Decoder

    image-20231218084202901
    • 优点:在编码器和解码器都使用ViT的架构能全面利用ViT的长距离关注机制。
    • 代表模型:例如Swin-Unet和、nnFormer、MISSFormer、TransDeepLab,这些模型在编码器和解码器中都使用ViT结构,以捕获图像的全局和局部特征。
    • 缺点:这种方法可能导致更高的计算成本和更复杂的模型结构。
  4. ViT in between Encoder-Decoder

    image-20231218084439447
    • 优点:此方法通过在编码器和解码器之间引入ViT,可以在局部和全局特征之间建立更有效的连接。
    • 代表模型:例如ATTransUNet和DCA(Dual Cross-Attention)、ViT-V-Net,它们在编码器和解码器之间使用ViT,以改善特征融合和上下文建模。
    • 缺点:可能需要更复杂的训练策略来优化特征融合。

【4.2. Hybrid ViT-Based Medical Image Segmentation Approaches】

探讨了混合视觉Transformers(Hybrid Vision Transformers, HVTs)在医学图像分割中的应用。这些方法结合了卷积神经网络(CNNs)和视觉变换器(ViTs)的优势,以提高分割性能。以下是对这一部分内容的总结,包括三个主要方面:

  1. Hybrid ViT in Encoder

    image-20231218084947421
    • 优点:通过在编码器中结合HVT,模型能够同时捕获全局和局部特征,提高特征表示的丰富性。
    • 代表模型:例如TransUNet,结合了ViT的全局感知能力和U-Net的局部特征提取能力;TransBTS,结合了ViT和3D CNN,用于处理3D医学体积数据。
    • 缺点:混合模型可能会增加模型复杂度,需要更多的计算资源。
  2. Hybrid ViT in Decoder

    image-20231218085028808
    • 优点:在解码器中应用HVT可以提高分割边界的准确性,特别是在处理复杂的医学图像时。
    • 代表模型:例如UNetFormer,结合了3D Swin Transformer和CNN,以及基于变换器的解码器。
    • 缺点:这种方法可能导致解码阶段的计算负担加重。
  3. Hybrid ViT in both Encoder-Decoder

    image-20231218085135604
    • 优点:在编码器和解码器中都使用HVT可以充分利用ViT和CNN的优势,实现全面的特征提取和细节捕获。
    • 代表模型:例如MaxViT-UNet、SwinBTS,利用3D Swin Transformer和卷积操作来学习局部和全局级别的特征。
    • 缺点:这种结构可能导致模型过于复杂,难以训练和优化。

【5. ViT-based Medical Image Segmentation Applications】

作者详细讨论了基于视觉Transformers(Vision Transformers, ViTs)的医学图像分割应用,覆盖了从CT图像到X射线图像的多种医学成像方式。以下是对这一部分内容的概括总结:

  1. CT图像(CT Images)
    • 应用了ViT的方法能有效地处理CT图像,提高了病灶检测的准确性。
    • 代表模型:如TransBTS,利用ViT与3D CNN相结合,以处理3D CT数据。
  2. 病理学图像(Histopathological Images)
    • 在病理学图像分析中,ViT有助于细胞结构的精准分割和识别。
    • 代表模型:如TransPath,它将ViT与传统的CNN技术结合,以提高细胞和组织的分割效果。
  3. 显微镜图像(Microscopy Images)
    • ViT在处理显微镜图像时展现了提高分割准确性的潜力,特别是在复杂的细胞结构分割方面。
    • 代表模型:例如使用ViT的各种混合方法,它们结合CNN的局部特征识别能力和ViT的全局信息处理能力。
  4. MRI图像(MRI Images)
    • ViT在MRI图像分割中特别有效,能够处理复杂的脑部结构。
    • 代表模型:如Swin UNETR和TransBTS,它们在处理脑肿瘤分割等高复杂度任务中表现出色。
  5. 超声图像(Ultrasound Images)
    • ViT在超声图像分割中有助于提高边界检测的准确性,特别是在不规则形状的肿瘤识别方面。
    • 代表模型:例如结合ViT和CNN技术的混合模型,用于提高超声图像中特定组织或病变的识别能力。
  6. X射线图像(X-Ray Images)
    • ViT在X射线图像分割中表现出对细节的高敏感性,特别是在骨骼和其他硬组织的分割方面。
    • 代表模型:如结合CNN和ViT的模型,用于提高诸如肺部疾病识别和骨折检测的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1320965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apache CouchDB 垂直权限绕过漏洞 CVE-2017-12635 已亲自复现

Apache CouchDB 垂直权限绕过漏洞 CVE-2017-12635 已亲自复现 漏洞名称影响版本影响版本 漏洞复现环境搭建漏洞利用 漏洞名称 影响版本 Apache CouchDB是一个开源的NoSQL数据库,专注于易用性和成为“完全拥抱web的数据库”。它是一个使用JSON作为数据存储格式&…

城市智能图书柜需求说明书

1. 简介 1.1 项目概括 本项目主要实现智能图书柜对图书的借出、还回、续借、查询、上下架、盘点的功能,对于读者,可以进行读者证的办理,读者信息的录入和完善。 1.2 项目背景 ​ 目前大量读者距离图书馆较远,无法方便、快捷地…

董宇辉“小作文事件”:东方甄选的危机与挑战

导言 近期,东方甄选公司的创始人董宇辉因涉及“小作文事件”而引起轩然大波。东方甄选作为一家在招聘领域崭露头角的公司,经历了充满曲折的发展历程。本文将深入探讨这一事件对东方甄选公司的发展带来的危机和挑战,以及公司可能采取的解决策略…

阿里云主导《Serverless 计算安全指南》国际标准正式立项!

日前,在韩国召开的国际电信联盟电信标准分局 ITU-T SG17 全会上,由阿里云主导的《Serverless 计算安全指南》国际标准正式立项成功。 图 1 项目信息 在现今数字化时代,Serverless 计算正逐渐成为云计算的一个新的发展方向,其灵活…

智能优化算法应用:基于蛾群算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于蛾群算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于蛾群算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.蛾群算法4.实验参数设定5.算法结果6.参考文献7.MA…

docker在线安装nginx

1、查看所有镜像 1、不带容器卷常规启动nginx,命令如下 docker run --name nginx-test -p 8089:80 -d a6bd71f48f68 2、在宿主机创建/usr/local/data/nginxdocker/目录,在此目录下创建html和logs文件夹,然后将容器内的 nginx.conf 和 html 下…

React基础巩固日志1

书写了一篇vue3的基础构建之后,不能带着各位一起学习vue3了,因为我要面试上海的前端岗位了,所以从现在开始,我要带着大家一起学习React了。 以下是我使用react书写的要掌握的react的知识点: ** ** 那么下面我们就一一通…

美颜SDK技术对比,深入了解视频美颜SDK的工作机制

如何在实时视频中呈现更加自然、美丽的画面,而这正是美颜SDK技术发挥作用的领域之一。本文将对几种主流视频美颜SDK进行深入比较,以揭示它们的工作机制及各自的优劣之处。 随着科技的不断进步,美颜技术已经从简单的图片处理发展到了视频领域…

【Filament】绘制矩形

1 前言 Filament环境搭建中介绍了 Filament 的 Windows 和 Android 环境搭,绘制三角形中介绍了绘制纯色和彩色三角形,本文将使用 Filament 绘制纯色和彩色矩形。 2 绘制矩形 本文项目结构如下,完整代码资源 → Filament绘制矩形。 2.1 自定义…

【Matlab算法】灰狼优化算法问题(Grey Wolf Optimization)(附MATLAB完整代码)

灰狼优化算法问题 前言算法描述:算法特点: 正文代码实现 前言 灰狼优化算法(Grey Wolf Optimization,GWO) 是一种模拟灰狼社会行为的启发式优化算法。它是由Seyedali Mirjalili等人于2014年提出的,灵感来源…

Acrel-1000DP分布式光伏系统在某重工企业18MW分布式光伏中应用——安科瑞 顾烊宇

摘 要:分布式光伏发电特指在用户场地附近建设,运行方式以用户侧自发自用、余电上网,且在配电系统平衡调节为特征的光伏发电设施,是一种新型的、具有广阔发展前景的发电和能源综合利用方式,它倡导就近发电,就…

React实现全局Loading

css #__loading {position:fixed;top: 0;left: 0;z-index: 99999;display: flex;align-items: center;justify-content: center;width: 100%;height: 100%;background: rgba(0, 0, 0, 0); } 页面代码 使用了antd的Spin组件 import React from react import ReactDOM from re…

C语言入门(字符串正反连接(fgets()、gets()用法))

目录 ​编辑 题目描述 输入格式 输出格式 样例输入 样例输出 解题思路 题目描述 所给字符串正序和反序连接&#xff0c;形成新串并输出 输入格式 任意字符串&#xff08;长度<50&#xff09; 输出格式 字符串正序和反序连接所成的新字符串 样例输入 123abc 样例输出 12…

2023.12.18杂记

今天特地搜了一下国内不错的博客网站&#xff0c;本来想在掘金上写的&#xff0c;但是怕被人喷&#xff08;&#xff0c;所以还是决定在csdn上写了哈哈哈。 这篇文章主要整理一下我今天写代码时遇到的疑惑以及记录一下思考过程吧。 第一个注意的地方&#xff0c;我们的get查询…

前端开发中的webpack打包工具

前端技术发展迅猛&#xff0c;各种可以提高开发效率的新思想和框架层出不穷&#xff0c;但是它们都有一个共同点&#xff0c;即源代码无法直接运行&#xff0c;必须通过转换后才可以正常运行。webpack是目前主流的打包模块化JavaScript的工具之一。 本章主要涉及的知识点有&am…

【PHP入门】2.1-运算符

-运算符- 运算符&#xff1a;operator&#xff0c;是一种将数据进行运算的特殊符号&#xff0c;在PHP中一共有十种运算符之多。 2.1.1赋值运算符 赋值运算&#xff1a;符号是“”&#xff0c;表示将右边的结果&#xff08;可以是变量、数据、常量和其它运算出来的结果&#…

音视频学习(二十一)——rtmp收流(tcp方式)

前言 本文主要介绍rtmp协议收流流程&#xff0c;在linux上搭建rtmp服务器&#xff0c;通过自研的rtmp收流库发起取流请求&#xff0c;使用ffmpegqt实现视频流的解码与播放。 关于rtmp协议基础介绍可查看&#xff1a;https://blog.csdn.net/www_dong/article/details/13102607…

sqlserver dba日常操作

查询慢sql的方法 1.whoisactive 安装方法 http://whoisactive.com/downloads/下载地址 将下载好的zip包放到sqlserver服务器中 文件-打开-文件-下载好的zip包-在查询窗口点击执行 新建一个查询窗口&#xff0c;输入sp_whoisactive&#xff0c;获取当前运行的所有sql语句 使用…

windows 安装jenkins

下载jenkins 官方下载地址&#xff1a;Jenkins 的安装和设置 清华源下载地址&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/jenkins/windows-stable/ 最新支持java8的版本时2.346.1版本&#xff0c;在清华源中找不到&#xff0c;在官网中没找到windows的下载历史&#xff…

ELK(九)—logstash

目录 简介安装部署测试 配置详解编写配置文件连接elasticsearch将数据推送到elasticsearch中。 简介 Logstash 是一个开源的服务器端数据处理管道&#xff0c;由 Elastic 公司维护和开发。它被设计用于从不同来源收集、处理和转发数据&#xff0c;以供 Elasticsearch 进行存储…