论文研读:ViT-V-Net—用于无监督3D医学图像配准的Vision Transformer

news2024/11/23 11:53:57

目录

摘要

介绍

方法

VIT-V-Net体系结构

损失函数 

图像相似性度量

变形场正则化

结果与讨论


摘要

在过去的十年里,卷积神经网络(ConvNets)在各种医学成像应用中占据了主导地位并取得了最先进的性能。然而,由于缺乏对图像中远程空间关系的理解,ConvNet的性能仍然受到限制。最近提出的用于图像分类的视觉转换器(VIT)使用了一种纯粹基于自我注意的模型,该模型学习远程空间关系以关注图像的相关部分。然而,由于连续的下采样,VIT强调低分辨率的特征,导致缺乏详细的定位信息,不适合图像配准。最近,几种基于VIT的图像分割方法被与ConvNets相结合,以提高对详细定位信息的恢复。受它们的启发,我们提出了VIT-V-Net,它连接了VIT和ConvNet,以提供3D医学图像配准。

介绍

近年来,由于在自然语言处理方面取得了巨大的成功,人们对开发基于自我注意的体系结构越来越感兴趣。、Dosovitski等人。(Dosovitski等人,2020)提出了视觉转换器(VIT),这是第一个纯粹基于自我注意的网络,并在图像识别方面取得了最先进的性能。在这一进展之后,TransUnet(Chen等人,2021年)是在用于二维(2D)医学图像分割的预先训练的VIT的基础上开发的。

然而,医学成像方式通常产生体积图像(即,3D图像),并且2D图像不能充分利用从3D体积获得的空间对应关系。因此,发展3D方法在医学图像配准中更为可取。在这项工作中,作者提出了一项研究,以研究VIT在体积医学图像配准中的应用。提出了一种采用混合ConvNet-Transformer结构的VIT-V-Net,用于自监督体图像配准。在该方法中,VIT被应用于运动图像和固定图像的高层特征,这需要网络学习图像中点之间的远距离关系。编码级和解码级之间的长跳跃连接被用来保持定位信息流。实验结果表明,简单地将VoxelMorph的网络结构替换为Vit-V-Net,就可以获得优于VoxelMorph和传统注册方法的性能。

方法

设f和m分别为固定图像和运动图像。我们假设f和m是单通道灰度图像,并且它们是仿射对齐的。我们的目标是预测一个变换函数φ,它将m(即m◦φ)翘曲到f,其中φ=Id+u,u表示位移矢量的流场,Id表示恒等式。图1概述了我们的方法。首先,深度神经网络(gθ)使用一组参数θ(即,u=gθ(f,m))为给定图像对f和m生成u。然后,通过空间变换函数执行翘曲(即m◦φ)(Jaderberg等人,2015年)。在网络训练过程中,比较m◦φ和f之间的图像相似度,并将损失反向传播到网络中。

图1 VIT-V-Net的方法概述和网络结构

VIT-V-Net体系结构

VIT-V-Net体系结构VIT在全分辨率体积图像中的应用导致了很大的计算复杂性。在这里,作者并没有将全分辨率图像直接送入VIT。

  • 通过一系列卷积层和最大值池(图1中的蓝框)将图像(即f和m)编码成高级特征表示。在VIT(橙色框)中,高层特征被分成N个矢量化的P^{3}*C块,其中N=\frac{HWL}{P^{3}}P表示块大小,C表示通道大小。
  • 使用可训练的线性投影将这些patch映射到潜在的D维空间。
  • 将可学习的position embedding添加到patch embedding以保留patch的位置信息。
  • 将生成的补丁送入Transformer编码器,该编码器由12个交替的多头自我注意(MSA)和多层感知器(MLP)块组成
  • 最后,对VIT的输出进行整形,然后使用V-Net风格的解码器进行解码。

图2 Vision Transformer模型概述 

(请注意,编码器和解码器之间也使用了长跳过连接。网络的最终输出是一个密集的位移场。然后将其用于空间变压器中,以扭曲m)。

损失函数 

本研究中使用的图像相似性度量是均方误差,以及由加权参数λ控制的扩散正则化,用于在位移场u中施加平滑。

用于训练所提出的网络的损失函数可以写成:

L(f,m,\Phi )=L_{MSE}(f,m,\Phi)+\lambda L_{diffusion}(\Phi)

其中,λ是正则化参数,f和m分别是固定图像和运动图像,φ表示变形场

图像相似性度量

以变形后的运动图像与固定图像之间的均方误差(MSE)作为损失函数。它被定义为:

L_{MES}(f,m,\Phi )=\tfrac{1}{\Omega }\sum_{p\in \omega }^{}[f(p)-m o\Phi]^{2}

变形场正则化

为了增强变形场的光滑性,使用了扩散正则化。它被定义为: 

L_{diffusion}(\Phi )=\sum_{p\in \omega }^{}||\bigtriangledown u(p)||^{2}

结果与讨论

作者在脑部核磁共振图像配准任务中进行了实验法。使用了一个内部数据集,其中包括260个T1加权的脑部MRI扫描。数据集被分成182、26和52(7:1:2)卷,用于训练、验证和测试集。将每个图像体积随机匹配到另外两个体积以形成四对f和m,得到768、104和208个图像对。结构脑MRI的标准前处理步骤,包括颅骨剥离、重采样和仿射变换,使用Freesurfer进行(Fischl,2012)。然后,将得到的体积裁剪成相等大小的160×192×224。使用Freesurfer获得了包括29个解剖结构的标记图以供评估。

将所提出的方法在Dice Score与对称正规化(SYN)NiftyReg以及VoxelMorph-1和-2进行了比较。正则化参数λ被设置为0.02,从结果可以看出,作者提出的VIT-V网络在Dice性能方面产生了0.1的显著收益(p值如表所示)。总之,基于VIT的注册体系结构取得了优于性能最好的注册方法的性能,证明了VIT-V-Net的有效性。

 表1 将所提出的方法与其他方法进行了总体骰子比较

图3 MR冠状切片的配准结果 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1929208.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码报错:There‘s no Qt version assigned to project Project.vcxproj

错误 Theres no Qt version assigned to project Project.vcxproj for configuration Release/Win32. Please assign a Qt installation in Qt Project Settings. Project C:\Users\FA-02405\AppData\Local\QtMsBuild\qt_vars.targets 68 1.设置qt Versions 选择…

2017-2023年全国土地利用分类(新增2023年,空间分辨率10米)

2017-2023年全国土地利用分类数据 数据介绍 本文分享一份全国范围的土地利用分类数据。 该数据来源于Esri,以Sentinel-2卫星的遥感图作为数据源,并结合人工智能土地分类模型制作而成。 该数据的时间范围是2017年-2023年,空间分辨率是10米&…

OSU!题解(概率dp)

题目:OSU! - 洛谷 思路: 设E()表示截止到i所获得的分数; 对于到i点的每一个l,如果第i1点为1,那么会新增分数3*l^23*l1; 就有递推公式方程: E()E()p[i1]p*(3*l^23*l1);(p代表截止到i获得长度l的概率)&a…

角点检测及MATLAB实现

一、角点简介 角点通常指的是两条直线构成角时的交点。‌在更广泛的应用中,‌角点这一概念也被扩展到数字图像处理领域,‌其中角点被定义为图像中物体轮廓线的连接点,‌这些点在某方面属性特别突出,‌即在某些属性上强度最大或者最…

如何通过SSH协议使用WinSCP实现Windows与Linux之间的远程公网文件传输

目录 ⛳️推荐 前言 1. Windows传输文件至Linux 2. WinSCP使用公网TCP地址连接 3. WinSCP使用固定公网TCP地址访问服务器 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 前…

QT通用配置文件库(QPreferences)

QT通用配置文件库(QPreferences) QPreferences项目是基于nlohmann/json的qt可视化配置文件库,将配置保存成json格式,并提供UI查看与修改,可通过cmake可快速添加进项目。默认支持基本类型、stl常用容器、基本类型与stl容器组成的结构体&#…

C#知识|账号管理系统:添加账号的功能笔记

哈喽,你好啊,我是雷工! 本节记录账号管理系统中添加账号的逻辑过程,以下为学习笔记。 01 实现内容 ①:实现当点击【保存到数据库】按钮时,将账号名称、原创篇数、账号简介、账号类型显示的内容存储到LGAccountManagerDB数据库的Account表中; ②:实现点击【保存到数据库…

手势控制机械手

机械手的手势控制 思路: 1 通过摄像头实现手势识别 2 将识别后的手势数据通过计算拇指与中指指尖的距离计算出舵机需要旋转的角度 3 将数据通过mqtt发送给mqtt服务器 4 硬件通过mqtt获取需要旋转的角度控制舵机旋转 开发环境: 硬件: ESP8266、舵机 硬件代码: 软件环…

颗粒饲料机器,打造成套饲料生产线

无论您是大型养殖场还是小型养殖户,我们的颗粒饲料机器能满足您的需求。我们致力于为客户打造成套饲料生产线,让您在养殖业中脱颖而出。 🚀 开启养殖新时代,您的饲料生产线升级设备! 还在为饲料生产烦恼吗&#xff1f…

【笔记-MyBatis】StatementHandler

Author:赵志乾 Date:2024-07-15 Declaration:All Right Reserved!!! 1. 简介 StatementHandler封装了对JDBC各类Statement的操作,如设置fetchSize属性、设置查询超时时间、与数据库进行交互等&…

第一节Linux常见指令

目录 1.Linux下基本指令 ls指令 pwd 命令 cd 指令 知识点:理解树形结构 touch 指令 mkdir指令(重要) rmdir指令 && rm指令(重要) 知识点:ls file* 可以找到当前目录下任何以file开头的文件​编辑 知识点:热键 man指令()重要 补充知识点:nano cp…

解锁Mac与Windows无缝协作新纪元:Tuxera NTFS for Mac 2022 —— 高效读写,畅享双系统自由

Tuxera NTFS for Mac 2022,作为一款专为Mac用户设计的文件系统驱动插件,它彻底打破了Mac与Windows之间在文件读写上的界限,为用户带来了前所未有的跨平台体验。 这款插件让Mac用户能够轻松访问、读取并写入NTFS格式的硬盘或U盘,无…

C++第七弹 -- C/C++内存管理

目录 前言一. C/C内存分布二. C语言中动态内存管理方式三. C中动态内存管理四. operator new与operator delete函数五. new和delete的实现原理1.内置类型2. 自定义类型 六. 定位new表达式(placement-new)七. 常见面试题总结 前言 在C/C编程中,内存管理是至关重要的…

jwt复习及ctfshow做题

Jwt复习总结 JWT简介 JWT即Json Web Token的缩写,顾名思义,是Token的一种。它常被用来在向服务器发起请求时用作身份认证。使用JWT作为身份认证的优势在于:它不需要在服务端去保留用户的认证信息。仅需要对该Token正确性进行校验即可,这就意…

张量分解(4)——SVD奇异值分解

🍅 写在前面 👨‍🎓 博主介绍:大家好,这里是hyk写算法了吗,一枚致力于学习算法和人工智能领域的小菜鸟。 🔎个人主页:主页链接(欢迎各位大佬光临指导) ⭐️近…

那一单,教会我的不只是后悔

在销售行业中,每一笔成交都是一场精心策划的战役。每一个细节、每一次沟通都需要谨慎处理,以防辛苦建立的信任大厦瞬间崩塌。然而,即便是最小心谨慎的人也难免会犯错。我的一位好友,我们姑且称他为杰克,在一次不经意间…

实战篇(九):解锁3D魔方的秘密:用Processing编程实现交互式魔方

解锁3D魔方的秘密:用Processing编程实现交互式魔方 使用 Processing 创建一个 3D 魔方效果展示1. 安装 Processing2. 项目结构3. 代码实现4. 代码解释4.1. 初始化魔方4.2. 绘制魔方4.3. 处理鼠标事件4.4. 检查点击的面4.5. 旋转面和最终确定旋转5. 运行和测试6. 细节解释6.1. …

数据精度丢失

js数据精度丢失 最近看面试题想到了之前在开发钟遇到过的问题,现总结一下 在开发过程中,发现从后台返回的数据结构中的id字段在前端显示为不正确的值。经过排查,怀疑是JavaScript中Number类型精度丢失的问题。通过将id字段的类型从Number改为…

I/O多路复用:解锁服务器高性能的钥匙

文章目录 I/O 多路复用引言I/O 多路复用:并发处理的艺术介绍I/O多路复用的意义Linux下的I/O多路复用机制总结 文件描述符(fd):连接的桥梁概述文件描述符的作用文件描述符的生命周期特殊的文件描述符文件描述符与I/O多路复用 套接字…

数据结构—链式二叉树-C语言

代码位置:test-c-2024: 对C语言习题代码的练习 (gitee.com) 一、前言: 在现实中搜索二叉树为常用的二叉树之一,今天我们就要通过链表来实现搜索二叉树。实现的操作有:建二叉树、前序遍历、中序遍历、后序遍历、求树的节点个数、求…