将 Vision Transformer 用于医学图像的语义分割

news2025/4/21 9:58:28

关于ViT的关键点如下:

  • ViT架构基于将图像表示为一组补丁。图像补丁是图像的非重叠块。每个块最初都有一个由该块中的图像像素形成的嵌入向量。
  • Transformer编码器是ViT的主要部分,它根据它们的类别归属来训练补丁之间的相似度。它包含一系列线性、归一化和激活层。
  • 在大型数据集(例如ImageNet21K)上预训练的ViT模型可以用于在自定义数据集上进行迁移学习,微调后的模型表现良好。

关于U-Net的关键点如下:

  • U-Net由两部分组成:编码器和解码器。编码器包含一系列用于特征提取和图像缩减的块。解码器对称于编码器,重构图像分辨率。
  • 在CNN中,U-Net是医学图像语义分割的最佳架构之一。

我在我的分割系统中使用了Hugging Face的Swin Transformer V2作为编码器。Swin Transformer(分层视觉Transformer,使用偏移窗口)包含4个阶段的编码器处理嵌入补丁。最初,补丁大小为4x4像素。在每个编码器阶段,通过合并来自前一个阶段较小补丁的嵌入,补丁分辨率会增加两倍。这意味着图像的空间分辨率,以补丁表示,每个后续阶段会减少两倍。下图(来自Hugging Face文档)显示了Swin Transformer的高级架构:

图片

请注意,带有下采样编码器块序列类似于我之前文章中讨论的U-Net编码器的高级架构。还请注意,用于分类的ViT编码器在任何阶段都使用16x16的补丁(参见上图)。

已经训练了用于分割的Swin Transformer的几个模型,包括一个在ImageNet21K数据集上训练的大型模型(~ 1400万张图像)。完整的分割流水线由编码器和解码器组成。使用Hugging Face的Swin Transformer编码器进行以下自定义数据集的微调。换句话说,我使用预训练的Swin Transformer大型模型作为编码器,并实现和训练我的自定义解码器,以构建用于我的数据集的语义分割的完整系统。

从Hugging Face加载的Swin Transformer V2:深入了解

让我们使用以下代码块查看来自Hugging Face的Swin Transformer V2模型:

安装

在这里插入图片描述

导入

在这里插入图片描述

谷歌云硬盘挂载(用于Google Colab)

在这里插入图片描述

CUDA设备配置

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

大预训练模型的加载(在ImageNet21K上训练)

from transformers import AutoImageProcessor, Swinv2Model

image_processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")
model = Swinv2Model.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")

image_processor 定义了一组应用于输入图像的变换,这些图像最初以PIL图像的形式存在:

在这里插入图片描述
在这里插入图片描述

将输入的PIL图像转换为torch张量,将其调整为图像分辨率192x192,并进行归一化。

模型摘要

summary(model=model, input_size=(1, 3, 192, 192), col_names=['input_size', 'output_size', 'num_params', 'trainable'])

图片

这是一个包含超过1.95亿个参数的大型模型。

调用

model.eval()

以查看模型包含的所有层。

Swin Transformer V2模型的部分如下

  • Patch-embeddings 层,将输入图像的分辨率192x192划分为2034=48*48个4x4大小的patch。对于每个patch,形成一个长度为192的线性投影向量。
  • 4个编码器阶段。在每个阶段,进行Multi Head Self Attention的训练。每个阶段中像素大小的补丁会两倍增加(通过补丁嵌入合并)。每个阶段中,以补丁表示的图像分辨率会减少两倍。
  • 对编码器输出进行归一化,以生成来自编码器的last_hidden_state。
  • 对last_hidden_state张量进行平均池化,以生成包含类别嵌入的pooler_output向量。

加载任何图像并通过image_processor对其进行预处理:

在这里插入图片描述

将输入发送到Swin Transformer V2模型。下图说明了按顺序调用Swin Transformer V2的各个部分(如左图所示)等效于将整个模型作为一个整体进行调用(如右图所示):

图片

查看每个编码器阶段的输出:

在这里插入图片描述

我们看到以下形状:

  • im0 -> torch.Size([1, 2304, 192]) -> 2304=48*48 — patch数,192 — patch-embeddings长度
  • im1 -> torch.Size([1, 576, 384]) -> 576=24*24 — patch数,384 — patch-embeddings长度
  • im2 -> torch.Size([1, 144, 768]) -> 144=12*12 — patch数,768 — patch-embeddings长度
  • im3 -> torch.Size([1, 36, 1536]) -> 36=6*6 — patch数,1536 — patch-embeddings长度
  • im4 -> torch.Size([1, 36, 1536]) -> 36=6*6 — patch数,1536 — patch-embeddings长度

这些来自Swin Transformer V2预训练大型模型的输出将成为我的解码器模型的输入。我训练我的解码器以获得大脑MRI异常区域的分割掩模。下图显示了此解码器的高级架构:

图片

请注意,在上图流程图的最后一个块中,“图像调整大小为256x256”是流程图中常规解码器流程的自定义元素:我将大脑MRI的图像分辨率设置为256x256,并将其应用于分割掩模图像。

基于Swin Transformer V2的大脑MRI语义分割系统的实现

让我们回到大脑MRI的语义分割任务。我使用了来自Kaggle的大脑MRI数据集。该数据集包含110位患者的数据:每位患者都有一组带有脑部切片的MRI图像,以及相应的带有异常区域掩码图像的图像。下图显示了“脑部切片图像 + 带有掩码图像”的示例对:

图片

在数据集中,每个人的“脑切片图像+掩模图像”对的数量从20对到88对不等。整个集合包含 3935 对:2556 对具有零掩模,1379 对具有针对异常区域的非零掩模。

我使用PyTorch对基于Swin Transformer V2阶段输出(im0、im1、im2、im3、im4 — 见图1)的自定义解码器模型进行实现和训练。下面的代码显示了对一个图像进行预处理,该图像最初以PIL图像的形式存在,然后转换为来自预训练的Swin Transformer V2模型阶段的im0、im1、im2、im3、im4张量。下面代码中的变量model是加载的在ImageNet21K上预训练的Swin Transformer V2模型(请参阅上一节的代码块):

img = <load PIL Image>
img = image_processor(images=img, return_tensors="pt")

x = model.embeddings(**img)
input_dimensions=x[1]
im0 = x[0].detach().squeeze()

x = model.encoder.layers[0](x[0], input_dimensions=input_dimensions)
im1 = x[0].detach().squeeze()

x = model.encoder.layers[1](x[0], input_dimensions=(input_dimensions[0]//2, input_dimensions[1]//2))
im2 = x[0].detach().squeeze()

x = model.encoder.layers[2](x[0], input_dimensions=(input_dimensions[0]//4, input_dimensions[1]//4))
im3 = x[0].detach().squeeze()

x = model.encoder.layers[3](x[0], input_dimensions=(input_dimensions[0]//8, input_dimensions[1]//8))
x = model.layernorm(x[0])
im4 = x.detach().squeeze()

注意:我使用squeeze()来删除单个图像的批处理维度,因为我假设它将被发送到torch-DataLoader,后者会向图像批次添加批处理维度。

仅对掩模图像应用转换为torch张量和调整大小。来自DataLoader的5个输入张量被发送到以下模型:

class Up_Linear(nn.Module):
    def __init__(self, in_ch, size, coef=1):    
        super(Up_Linear, self).__init__()        
        self.shuffle = nn.PixelShuffle(upscale_factor=2)      
          
        n_ch = int(coef * in_ch)                
        
        self.ln = nn.Sequential(      
            nn.Linear(in_ch * 2, n_ch),            
            nn.ReLU(inplace=True),            
            nn.Linear(n_ch, in_ch * 2),            
            nn.ReLU(inplace=True),        
        )                
        
        self.size = size    
    def forward(self, x1, x2):   
        x = torch.cat((x1, x2), 2)        
        x = self.ln(x)        
        x = x.permute(0, 2, 1)        
        x = torch.reshape(x, (x.shape[0], x.shape[1], self.size, self.size))        
        x = self.shuffle(x)        
        x = torch.reshape(x, (x.shape[0], x.shape[1], self.size*self.size*4))        
        x = x.permute(0, 2, 1)        
        return x

class MRI_Seg(nn.Module):
    def __init__(self):    
        super(MRI_Seg, self).__init__()        
        
        self.ups3 = Up_Linear(1536, 6, 1)        
        self.ups2 = Up_Linear(768, 12, 1)        
        self.ups1 = Up_Linear(384, 24, 2)        
        self.ups0 = Up_Linear(192, 48, 3)      
          
        self.shuffle = nn.PixelShuffle(upscale_factor=2)    
            
        self.out = nn.Sequential(      
            nn.Conv2d(24, 1, kernel_size=1, stride=1),            
            nn.Sigmoid()        
        )    
        
    def forward(self, x0, x1, x2, x3, x4):
        x = self.ups3(x4, x3)        
        x = self.ups2(x, x2)        
        x = self.ups1(x, x1)        
        x = self.ups0(x, x0)      
          
        x = x.permute(0, 2, 1)        
        x = torch.reshape(x, (x.shape[0], x.shape[1], 96, 96))        
        x = self.shuffle(x)        
        x = transforms.Resize((256, 256))(x)       
         
        x = self.out(x)        
        return x  


net = MRI_Seg().to(device)

模型摘要

summary(model=net, input_size=[(1, 2304, 192), (1, 576, 384), (1, 144, 768), (1, 36, 1536), (1, 36, 1536)], col_names=['input_size', 'output_size', 'num_params', 'trainable'])

图片

该模型包含超过1300万个可训练参数(类似于U-Net模型)。

我使用二元交叉熵损失函数来训练我的模型,以使生成的掩码更接近标签(掩码)图像。我使用Adam优化器和学习率0.0001。我同时使用IoU(交并比)和Dice指标作为质量度量:IoU = 1和Dice = 1表示理想质量。请注意,对于包括图片在内的所有结果,我使用经过训练模型生成的分割掩码,并应用阈值:如果掩码像素值小于0.5,则将掩码像素值设置为0,否则将掩码像素值设置为1。

下图显示了对U-Net架构(它们是在此处获得和呈现的)和MRI_Seg模型(上面)的结果进行比较。对于两种模型,我选择了在测试集上显示最佳结果的检查点。对于对U-Net和基于Transformer的模型的性能评估,我使用了来自训练集的550个随机选择的条目和所有394个包含在测试集中的条目(使用相同的训练和测试集):

图片

正如我们所见,基于Transformer的分割模型的性能明显低于U-Net模型的性能。我尝试过改变我的解码器架构和可训练参数的数量,但并未改善性能。

我对MRI和掩码图像应用了水平翻转(改变图像的左右侧),并创建了一个图像数量加倍的数据集。现在,我正在使用这个增强的数据集来训练基于Transformer的模型。下图显示了U-Net架构(在此处获取和呈现)和MRI_Seg模型(上面)在增强数据集上结果的比较。对于两种模型,我选择了在测试集上表现最佳的检查点。对于基于U-Net和Transformer的模型的性能评估,我使用了从训练集中随机选择的550个条目以及测试集中包含的所有787个测试条目(两种模型都使用相同的训练和测试集):

图片

我们可以看到,基于增强数据集训练的基于Transformer的分割模型的性能显着提高,并且接近于U-Net模型的性能。

下面的图片显示了基于Transformer的训练模型在测试图像上的工作结果。

图片

图片

图片

结论

  • Swin Transformer V2的高级架构允许使用U-Net模型的概念来实现自定义解码器的语义分割系统。
  • 自定义数据集的大小应该足够大(约为10K)。在这种情况下,基于Transformer的语义分割系统的性能良好。
  • 基于Transformer的语义分割系统能够获得接近于最佳分割模型(如U-Net)的性能。

· END ·

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1917464.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是RLHF(基于人类反馈的强化学习)?

什么是RLHF&#xff08;基于人类反馈的强化学习&#xff09;&#xff1f; 基于人类反馈的强化学习&#xff08;Reinforcement Learning from Human Feedback, RLHF&#xff09;是一种结合强化学习和人类反馈的技术&#xff0c;用于训练智能体&#xff0c;使其行为更符合人类期…

叉车司机疲劳检测系统解决方案

在日益繁忙的物流仓储和工业制造领域&#xff0c;叉车司机的工作强度逐渐增大&#xff0c;疲劳驾驶的风险也随之提升。因此&#xff0c;我们提出了一套能够准确检测叉车司机疲劳状态的系统&#xff0c;以确保驾驶安全&#xff0c;提高工作效率。 安全监控功能主要透过三颗独立摄…

科普丨企业防泄密有哪些方法?10个防泄密技巧推荐

在信息化高速发展的今天&#xff0c;企业数据安全已成为企业运营的核心议题。随着信息技术的发展和市场竞争的加剧&#xff0c;企业面临的泄密风险越来越大&#xff0c;尤其是商业机密和敏感数据的泄露&#xff0c;会对企业的经济效益、品牌信誉乃至法律地位构成严重威胁。因此…

学习测试8-数据库mysql操作

下载配置mysql 网络博客 使用 在Linux里 1 service mysql start 启动服务 2 在Navicatt 中连接Linux服务器 3 第一步 将所有文件上传到/opt目录下 第二步 chmod 777 deploy-mysql.sh 第三步 ./deploy-mysql.sh4 service mysql status 查看状态是否安装成功 5 重启mys…

分布式训练

一、分布式计算 跟多GPU不同是&#xff1a;数据不是从主存拿的&#xff0c;是在分布式文件系统拿的&#xff0c;有多个工作站&#xff0c;工作站中有多个GPU&#xff0c;通过网络读取数据到GPU中&#xff0c;GPU通过网络接收到来自参数服务器的参数进行运算计算梯度&#xff0c…

【C++深度探索】全面解析多态性机制(一)

hello hello~ &#xff0c;这里是大耳朵土土垚~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#xff1a;大耳朵土土垚的博客 &#x1…

与沃尔玛进行EDI对接,需要了解什么?如何实现EDI对接呢?

与沃尔玛进行EDI对接前&#xff0c;需要了解什么呢&#xff1f; 首先&#xff0c;需要了解什么是EDI&#xff1f; EDI&#xff08;Electronic Data Interchange&#xff09;即电子数据交换&#xff0c;借助EDI使得企业&#xff08;计算机/应用系统&#xff09;与企业&#xff…

腰肌筋膜炎最好的治疗方法

腰部疼痛是腰肌筋膜炎的主要症状&#xff0c;这种疼痛可能是隐痛、酸痛或肿胀痛&#xff0c;且疼痛可能呈持续性或间歇性。在长时间站立、坐姿、弯腰或腰部受寒着凉后&#xff0c;疼痛通常会加重。疼痛可能会扩散到腰部的其他区域&#xff0c;甚至可能影响到臀部或大腿后侧。疼…

基于springboot+mybatis学生管理系统

基于springbootmybatis学生管理系统 简介&#xff1a; 题目虽然是学生管理系统&#xff0c;但功能包含(学生&#xff0c;教师&#xff0c;管理员),项目基于springboot2.1.x实现的管理系统。 编译环境 &#xff1a; jdk 1.8 mysql 5.5 tomcat 7 框架 &#xff1a; springboot…

W外链短网址平台怎么样?抖音/小红书/快手/微信卡片生成

在当今数字化时代&#xff0c;网址的便捷性和易记性对于用户体验和网站推广至关重要。短网址技术应运而生&#xff0c;以其简洁、易记、方便分享的特性&#xff0c;逐渐成为网站优化和推广的重要手段之一。其中&#xff0c;W外链作为一个功能全面的短网址服务平台&#xff0c;以…

mavlink协议解析

1. mavlink数据包格式 字节索引C 版本内容值说明0uint8_t magic数据包启动标记0xFE特定于协议的文本启动 (stx) 标记, 用于指示新数据包的开始。 任何不识别协议版本的系统都将跳过数据包。1uint8_t len载荷长度0 - 255指示以下 payload 部分的长度 (为特定消息固定)。2uint8_t…

一款永久免费的内网穿透工具——巴比达

近期&#xff0c;一款名为巴比达的内网穿透工具凭借其永久免费的特性&#xff0c;以及卓越的性能与安全性&#xff0c;引起了我的关注。本文将深入探讨巴比达如何通过其独创的技术方案&#xff0c;达到企业级数据通信要求。 WanGooe Tunnel协议 首先&#xff0c;巴比达的核心竞…

矩阵管理系统实现后台统一管理的解决方案

在当今数字化浪潮中&#xff0c;企业面临着前所未有的挑战与机遇。如何快速响应市场变化、提升运营效率、降低管理成本&#xff0c;成为众多企业关注的焦点。而矩阵管理系统作为一种新兴的管理工具&#xff0c;凭借其强大的后台统一管理能力&#xff0c;正成为越来越多企业的首…

适合学生写作业的台灯怎么选?一文读懂护眼台灯怎么选!

不知大家发现没有&#xff0c;近些年&#xff0c;戴眼镜的小孩儿是越来越多了&#xff0c;甚至有的地方好多刚上小学一年级的孩子&#xff0c;就已经戴着200度的近视镜了。据统计&#xff0c;如今&#xff0c;中国小学生近视比例为42%&#xff0c;初中生近视比例为80.7%&#x…

技校专业群的生成机制研究

一、引言 随着我国经济的快速发展和产业结构的不断优化&#xff0c;技术型人才的需求日益旺盛。技工学校&#xff08;简称技校&#xff09;作为培养技术型人才的摇篮&#xff0c;其专业群的构建与发展显得尤为重要。专业群作为技校战略发展的核心&#xff0c;不仅能够优化教学…

项目三层架构详情

三层架构 三层架构就是为了符合“高内聚&#xff0c;低耦合”思想&#xff0c;把各个功能模块划分为表示层&#xff08;UI&#xff09;、业务逻辑层&#xff08;BLL&#xff09;和数据访问层&#xff08;DAL&#xff09;三层架构&#xff0c;各层之间采用接口相互访问&#xf…

js ES6 part2

forEach遍历 forEach() 方法用于调用数组的每个元素&#xff0c;并将元素传递给回调函数 主要使用场景&#xff1a; 遍历数组的每个元素 语法 被遍历的数组.forEach(function(当前数组元素&#xff0c;当前元素索引号){ //函数体 }) 1. forEach 主要是遍历数组 2. 参数当前…

7.11 cf div3 A

Problem - A - Codeforces 题目概述 求最少问题数量&#xff0c;以确保能举办m轮比赛&#xff0c;每轮包含一个难度级别为 ‘A’ 到 ‘G’ 的问题。 ac代码 #include<bits/stdc.h> typedef long long ll;#define IOS ios::sync_with_stdio(0),cin.tie(0),cout.tie(0) …

算力革命:弹性租赁,解锁无限可能

华为创始人任正非曾在一场程序设计竞赛中说道&#xff0c;我们即将进入第四次工业革命&#xff0c;基础就是大算力。事实上&#xff0c;随着5G、人工智能等信息技术的迅猛发展&#xff0c;算力需求持续增长&#xff0c;但高昂的成本和快速的技术迭代让许多中小企业和个人开发者…

C++20中的指定初始化器(designated initializers)

指定初始化器(designated initializers, 指定初始值设定项)语法如下&#xff1a;C风格指定初始化器语法&#xff0c;初始化数据成员的一种便捷方式 T object { .des1 arg1, .des2 { arg2 } ... }; T object { .des1 arg1, .des2 { arg2 } ... }; 说明&#xff1a; 1.每个指…