伪装目标检测论文阅读 SAM大模型之参数微调:Conv LoRA

news2025/4/8 18:29:49

paper:link
code:还没公开

摘要

  任意分割模型(SAM)是图像分割的基本框架。虽然它在典型场景中表现出显著的零镜头泛化,但当应用于医学图像和遥感等专门领域时,其优势就会减弱。针对这一局限性,本文提出了一种简单有效的参数高效微调方法Conv-Lora。通过将超轻量级卷积参数集成到低阶自适应(LORA)中,Conv-LoRa可以在普通VIT编码器中注入与图像相关的感应偏差,进一步强化了SAM的局部先验假设。值得注意的是,Conv-Lora不仅保留了SAM丰富的分割知识,而且恢复了其学习高层图像语义的能力,这一能力受到SAM前景-背景分割预训练的限制。跨多个领域的不同基准测试的全面实验强调了ConvLoRA在使SAM适应现实世界的语义分割任务方面的优势。

1.介绍

1)SAM的图像编码器是一种普通的VIT,众所周知,它缺乏视觉特定的感应偏差,这对密集预测有用。
2)SAM的预训练本质是一个二值掩膜预测任务,在给定一个指示的情况下,它将目标的前景和背景分离,低层掩码预测预训练阻碍了SAM捕获高层图像语义信息的能力,这些能力对于多类语义分割等任务至关重要。
  为了克服上述限制,同时仍然保留SAM在预训练期间获得有价值的分割知识,微调了一部分模型参数,同时冻结了SAM的大部分预先训练的权重,实现了参数高效微调(PEFT:parameter efficient finetuning ),从而提出一个问题:PEFT能否使用与图像相关的局部先验信息来增强SAM编码器,并促进高级语义信息的获取。
  在本文中,我们提出了一种新的PEFT方法,称为Conv-LORA,深入到低阶适应(LORA)(Hu等人,2021)。LORA将可训练的线性投影层引入SAM编码器的每一层变换器层,从而帮助恢复其提取高级语义信息的能力。我们的实验表明,LORA优于广泛采用的视觉提示调整(VPT)(Jia等人,2022),特别是在多类语义切分任务中。在Lora之上,Conv-Lora在其瓶颈结构中集成了轻量级卷积层。卷积可以通过局部空间运算引入与图像相关的局部先验信息(即一个像素与其相邻像素的相关性比与距离较远的像素更强)(Chen等,2022)。此外,考虑到目标尺度的潜在变化,在适当的尺度(S)中注入局部先验是必要的。为此,Conv-Lora从专家混合(MoE)的概念中获得灵感(Shazeer等人,2017年),并纳入了多个并行卷积专家,每个专家专门从事不同的特征规模。由于VIT以固定的比例处理图像特征,通常从原始分辨率向下采样16倍,Conv-Lora的每个专家最初以特定比例恢复图像特征,应用卷积运算,然后将特征恢复到默认比例。与VIT-Adaptor(Chen等人,2022)和Swin Transformer(Liu等人,2021A)等视觉特定转换器相比,Conv-Lora提供了一种隐式方法来实施多尺度局部先验,假设它可以利用默认尺度上的图像特征来重建更高尺度上的特征信息。幸运的是,SAM的监督预训练包括各种尺度的面具,使VIT能够获得超出默认尺度的图像特征知识。
  本着PEFT的精神,我们还去掉了提示编码器,并在掩码解码器中增加了轻量级的MLP,以实现多类预测。这一简单的修改将SAM转换为端到端模型,该模型可以在二进制和多类语义分割应用程序上进行微调。
总体而言,我们的贡献可以概括为:
1.我们提出了一种创新的PEFT技术Conv-Lora。通过加入辅助卷积运算,Conv-LoRa从处理普通VIT限制的角度加强了SAM的局部先验。
2.Conv-Lora使用MOE对动态选择适当的特征尺度以注入视觉特定的感应偏差的过程进行建模。
3.我们的研究表明,SAM的预训练阻碍了其VIT编码器学习高级图像语义信息的能力。然而,LoRA展示了帮助SAM恢复这一关键能力的潜力。
4.我们进行了一项涵盖多个领域的广泛基准,包括自然图像、农业、遥感和医疗保健。在各种下游任务中,Conv-Lora始终表现出优于其他PEFT技术的性能

2.模型结构图

在这里插入图片描述
Conv-LoRA插入了由MoE管理的轻量级卷积运算,额外参数可以忽略不计 ;在我们的方法中,虽然MoE主要用于预训练,但我们将MOE用作下游任务的参数高效调整的一部分。

3.方法

3.1 CONV——LoRA

LoRA:首先,让我们简要地回顾一下LORA(Hu等人,2021年)的设计,它使用编码器-解码器结构来对权重更新施加低阶约束。它冻结预先训练的模型权重,并将小的可训练秩分解矩阵注入变压器体系结构的每一层。具体地,在给定预先训练的权重矩阵的情况下,LoRA在其一侧增加了一对线性编码器 W e W_e We和解码器 W d W_d Wd,即可训练的秩分解矩阵。 W e W_e We W d W_d Wd满足低阶约束 W e ∈ R b × a {W_e} \in {R^{b \times a}} WeRb×a,
W d ∈ R b × r {W_d} \in {R^{b \times r}} WdRb×r r ≤ min ⁡ ( a , b ) r \le \min (a,b) rmin(a,b)
使用LoRA时,前向传播从 h = W 0 x h = {W_0}x h=W0x更改为:
h = W 0 x + W d W e x h={W_0}x+{W_d}{W_e}x h=W0x+WdWex
Conv-LoRA:旨在结合LORA的编码器和解码器组件之间的卷积运算。一方面,卷积可以注入与图像相关的局部先验,解决了VIT的根本局限性。另一方面,低阶约束确保卷积层保持极轻,保持了Conv-Lora的PEFT性质.
  在设计Conv-Lora时,一个关键的考虑因素是确定引入局部先验的特征映射的比例。虽然VIT中的功能地图在比例上是一致的,但对象蒙版通常包含广泛的比例范围。因此,在适当的范围内应用卷积运算是至关重要的。为了应对这一挑战,我们从混合专家(MoE)的概念中获得灵感(Shazeer等人,2017年)。MOE包括多个专家网络和选通模块,该选通模块动态地选择在前向传球期间激活哪个专家(S)(图2)。3)。将这一概念应用于Conv-LoRa,每个专家专门在特定比例的特征地图上卷积,紧凑的门控模块学习根据输入数据动态选择expert。数学上,用Conv-Lora,将等式更改为:
h = W 0 x + W d ( ∑ i n G ( W e x ) i E i ( W e x ) ) h = {W_0}x + {W_d}{(\sum\limits_i^n {G({W_e}x} )_i}{E_i}({W_e}x)) h=W0x+Wd(inG(Wex)iEi(Wex))
式子中 W 0 ∈ R C o u t × C i n {W_0} \in {R^{{C_{out}} \times {C_{in}}}} W0RCout×Cin, W e ∈ R r × C i n {W_e} \in {R^{{r} \times {C_{in}}}} WeRr×Cin, W d ∈ R C o u t × r W_d \in {R^{{C_{out}} \times r}} WdRCout×r, x ∈ R B × C i n × H × W x \in {R^{B \times {C_{in}} \times{H} \times {W}}} xRB×Cin×H×W,B是批量大小, C i n / C o u t C_{in}/C_{out} Cin/Cout为输入/输出通道数,H和W为对应高度和宽度。 E i E_i Ei是所有的n位expert中的第i为expert,G是仅激活top-k(默认为1)值的选通网络。
在每个expert内部,依次安排三个关键操作:重建特定比例尺的特征地图的内插函数、3×3卷积层,以及随后的将特征地图映射回VIT的默认特征比例尺的插补操作。假设expert E i E_i Ei负责规模 S i S_i Si,我们可以将其表示为:
E i ( x ) = I n t e r p o l a t e ( C o n v 3 × 3 ( I n t e r p o l a t e ( x , s i ) , 1 / s i ) E_i(x)=Interpolate({Conv_{3 \times 3}}(Interpolate(x,{s_i}),1/{s_i}) Ei(x)=Interpolate(Conv3×3(Interpolate(x,si),1/si)
例如,如果 s i s_i si等于4,则expert E i E_i Ei最初会将特征映射放大4倍,应用 C o n v 3 × 3 Conv_{3 \times 3} Conv3×3操作,最后将特征映射缩小4倍。

MoE vs.Multi-scale:与MoE不同的是,另一种应对不同规模的方法是采用多规模战略。该方法利用多个分支在不同的尺度上同时注入局部先验,并聚集结果。虽然这种方法看起来更简单,但与MoE相比,它的计算成本更高。MOE的效率源于其选择性地激活稀疏expert的能力,从而将计算开销降至最低。考虑到我们对高效微调的优先考虑,我们支持MoE作为一个有洞察力的选择。

3.2 END-TO-END MULTI-CALSS SEGMENTATION WITH SAM

基于SAM的端到端多类分割
  SAM由三个基本组件组成:图像编码器、提示编码器和掩码解码器。当提供图像和提示时,掩码解码器生成与给定提示相关联的对象的掩码,所述图像和提示可以采取点、框、掩码或文本的形式。虽然这种基于提示的方法使SAM可以灵活地集成到更大的系统中,例如交互式分段或检测和后续分段的组合,但它在使SAM成为实际应用中的端到端模型方面确实存在挑战。为了自动化SAM,我们冻结了提示编码器,因此在对下游任务进行微调时,总是不断地使用提示令牌来屏蔽解码器。此外,原始掩码解码器被设计为预测二进制掩码,根据给定的提示区分前景和背景。为了使SAM适应多类语义分割任务,我们引入了一个简单的分类分支(在图中描绘为红色虚线框。4)在掩码解码器内。这个额外的分支负责预测分类分数。此外,我们对掩码解码器进行了全面的微调,因为它是一个轻量级的模块。
在这里插入图片描述

4.实验(experiments)

在COD任务上的表现:
在这里插入图片描述

5.结论

  参数高效微调(PEFT)是使基础模型适应各种下游任务时的一种流行方法。我们提出了一种新的将SAM应用于下游细分应用的PEFT方法Conv-LORA。Conv-LORA简单、通用,在自然图像、农业、遥感和医疗保健等多个领域取得了令人振奋的结果。此外,我们的研究还揭示了SAM的几个方面:1)虽然大规模监督分割预训练可以从数据的角度提供与图像相关的局部先验知识,但在VIT编码器中加入轻量级卷积运算可以从另一个体系结构的角度进一步促进对局部先验知识的开发;2)前景-背景分割预训练阻止图像编码器学习高层语义信息,这可以通过对编码器中相对较少的参数进行微调来缓解。我们的工作主要集中在为SAM开发通用的PEFT方法,在广泛的基准测试中显示出比现有PEFT方法更好的性能,而不是在专门领域与最先进的(SOTA)模型直接竞争。考虑到使用Conv-Lora微调的SAM可能还不能始终优于特定于域的SOTA模型,我们认为,在图像编码器微调的基础上定制掩码解码器和即时编码器,并将Conv-Lora与其他PEFT方法相结合可能是特定于域的应用的有前途的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1632705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux_Ubuntu18.04安装过程

目录 1. 虚拟机安装2. 虚拟机创建3. Ubuntu x64安装4. 开启重启问题 1. 虚拟机安装 版本:VMware-workstation-full-16.0.exe 下一步 接受 下一步 下一步,注意安装位置。 下一步 下一步 点击安装 等待安装完成。 2. 虚拟机创建 创建新的虚拟机 典型 稍后…

【Java那些事】关于前端收到后端返回的时间格式“2024-04-28T14:48:41“非想要的格式

问题: 后端操作后返回时间格式是"2024-04-28T14:48:41" 而我们想要的是:"2024-04-28 14:48:41", 两个解决方法: 方法一:使用 JsonFormat注解 Data AllArgsConstructor NoArgsConstructor public class Use…

前端高并发的出现场景及解决方法——技能提升——p-limit的使用

最近在写后台管理系统的时候,遇到一个场景,就是打印的页面需要根据传入的多个id,分别去请求详情接口。 比如id有10个,则需要调用10次详情接口获取到数据,最后对所有的数据进行整合后页面渲染。 相信大家或多或少都遇到…

MyBatis 插件介绍及应用

MyBatis 插件介绍及应用 MyBatis 是一个持久层框架,它允许开发者自定义 SQL 语句并将其映射到 Java 对象中。MyBatis 提供了一种灵活的数据库操作方式,但随着项目的复杂度增加,一些通用功能如分页、缓存、事务管理等可能需要重复编写。为了解…

仅1年!!影响因子10+飙升至30+,Springer旗下的潜力优刊,未来可期!

【SciencePub学术】今天小编给大家带来了一本医学类的高分优刊解读,隶属于Springer出版社,JCR1区,中科院1区TOP,创刊时间不长,但影响因子仅1年时间从10直接飙升至30,领域相符的学者可考虑! Sign…

PaddlePaddle与OpenMMLab

产品全景_飞桨产品-飞桨PaddlePaddle OpenMMLab算法应用平台

基于LEAP模型的碳排放建模及行业、区域、国家等层面实践应用

线上方式:腾讯会议; 本期共计8次直播课,每节3小时。 5月24日-5月26日 每天(8:30-11:30)腾讯会议直播 5月31日-6月02日 每天(8:30-11:30)腾讯会…

Android 多媒体处理中ByteBuffer使用注意事项

Android多媒体处理中ByteBuffer使用注意事项 ByteBuffer 是 Java 中用来操作原始字节数据的类,它提供了一种灵活的方式来读取、写入和操作字节数据。以下是关于 ByteBuffer 的详细说明: 创建 ByteBuffer 你可以通过几种方式来创建 ByteBuffer&#xf…

新接口上线啦,近期我们增加了九个接口

天行数据近期新增了独立计次类接口:食物营养识别、数字识别、条形码识别和会员免费类接口:全国常用电话、健康小妙招、多音字查询、国际时区查询、英语格言等。 1、食物营养识别 通过输入图像资源,识别近两千种常见食物的详细营养成分及100…

转换图片为jpg格式?几个一键转换格式的方法

现在图片格式越来越多,我们经常需要对一些不符合要求的图片进行图片格式转换,否则就会出现打不开或者无法编辑处理的情况,那么对于一些不太懂电脑的小伙伴来说图片转格式会比较复杂,今天小编就来教大家几个简单的改变图片格式的方…

mars3d开发过程中点击面图层飞行定位,设置俯仰角度后,layer.flyTo({没有生效的排查思路

mars3d开发过程中点击面图层飞行定位,设置俯仰角度后,layer.flyTo({没有生效的排查思路记录,给大家提供一下以后排查定位问题的方向 问题场景相关代码: 1.项目本身代码: 2.精简了关键性代码后,就可以去ge…

【测试100问】面试:说说你印象最深的BUG,举个例子

一、场景 面试时被问,你印象中最深刻的 BUG是什么? 举个例子说明一下。 该如何回答比较好呢? 二、面试考察点 面试官问这道题,除了考察你发现问题的能力,还有你的表达能力、深度思考能力、归纳总结能力。 千万不要…

基于51单片机智能窗帘仿真设计( proteus仿真+程序+设计报告+讲解视频)

基于51单片机智能窗帘仿真设计( proteus仿真程序设计报告讲解视频) 基于51单片机智能窗帘仿真设计 1. 主要功能:2. 讲解视频:3. 仿真设计4. 程序代码5. 设计报告6. 原理图7. 设计资料内容清单资料下载链接: 仿真图proteus8.9及以上…

学习周报:文献阅读+Fluent案例+有限体积法理论学习

目录 摘要 Abstract 文献阅读:基于物理信息神经网络的稀疏数据油藏模拟 文献摘要 文章讨论|结论 各方程和原理简介 PINN简介 域分解 实验设置 单相油藏问题 油水两相问题 Fluent实例:Y型弯管中的流体混合分析 几何建模部分 网格划分 求解器设…

举个栗子!Tableau 技巧(272):学做曲线面积图(Sigmoid area charts)

曲线面积图(Sigmoid area charts)是区域图的一种创新变形,呈现数据随时间变化的情况,也可用于对数据总值趋势的洞察。 如何在 Tableau 中具体实现呢?今天的栗子,一睹为快吧! 本期《举个栗子》…

相关运算及实现

本文介绍相关运算及实现。 相关运算在相关检测及数字锁相放大中经常用到,其与卷积运算又有一定的联系,本文简要介绍其基本运算及与卷积运算的联系,并给出实现。 1.定义 这里以长度为N的离散时间序列x(n),y(n)为例,相关运算定义如…

2024 年 6 款最佳高清屏幕录像机,用于录制和共享

为了获得令人惊叹和详细的视频,一个优秀的高清屏幕 录像机是必不可少的。高清录像机广泛用于录制研讨会、会议、培训课程,甚至视频游戏。顶屏摄像头通常包含视频编辑、动画和 4K 录制等尖端功能和高端效果。 市场上有大量适用于 Windows 和 Mac 的屏幕录…

冯喜运:4.29黄金原油多空争夺,今日操作建议走势分析

【黄金消息面分析】:周一(4月29日)亚市早盘,现货黄金窄幅震荡,目前交投于2328美元/盎司。金价上周五反弹受阻,收报2337.36美元/盎司,此前数据显示美国物价升幅符合预期;随着中东危机…

认识及创建线程(Thread)

1 概念 1.1线程是什么 线程是CPU调度的基本单位,它是在进程内部运行的执行流,线程比进程粒度更细,调度成本更低 一个线程就是一个 "执行流". 每个线程之间都可以按照顺讯执行自己的代码. 多个线程之间 "同时" 执行着多…

git 命令怎么回退到指定的某个提交 commit hash 并推送远程分支?

问题 如下图,我要回退到 【002】Babel 的编译流程 这一次提交 解决 1、先执行下面命令,输出日志,主要就是拿到提交 commit 的 hash,上图红框即可 git log或者 vscode 里面直接右击,copy sha 2、执行下面命令回退 g…