【论文阅读笔记】MAS-SAM: Segment Any Marine Animal with Aggregated Features

news2024/11/25 18:30:12

1.论文介绍

MAS-SAM: Segment Any Marine Animal with Aggregated Features
MAS-SAM:利用聚合特征分割任何海洋动物
Paper Code(空的)

2.摘要

最近,分割任何模型(SAM)在生成高质量的对象掩模和实现零拍摄图像分割方面表现出卓越的性能。然而,作为一种通用的视觉模型,SAM主要是用大规模自然光图像训练的。在水下场景中,由于光的散射和吸收,它表现出显著的性能下降。同时,SAM 解码器的简单性 可能会导致丢失细粒度的对象细节。为了解决上述问题,我们提出了一种新的特征学习框架MAS—SAM的海洋动物分割,其中包括整合有效的适配器到SAM的编码器和构建一个金字塔解码器。更具体地说,首先建立了一个新的SAM的编码器与有效的适配器的水下场景。然后,介绍了一个超映射提取模块Hypermap Extraction Module(HEM),以产生多尺度的功能,全面的指导。最后,提出了一个渐进预测解码器(PPD)聚合的多尺度特征和预测最终的分割结果。当嫁接融合注意力模块(FAM),我们的方法能够提取更丰富的海洋信息,从全球上下文线索细粒度的局部细节。

Keywords:适配器,SAM,金字塔解码器,分割海洋动物,LoRA微调

3.Introduction

海洋动物分割(MAS)是视觉智能和水下机器人领域中的关键和基本任务。它旨在从水下图像或视频中识别和分割海洋动物。从功能上讲,海洋动物的准确分割对于包括海洋生物学、生态学和保护在内的各个研究领域都非常重要。但水下环境的特点是复杂的光散射和吸收效应,导致图像质量下降,对比度降低和物体模糊。此外,海洋动物往往表现出伪装的属性,这进一步复杂的分割任务。为了应对这些挑战,需要先进的感知技术。

最近,SAM提出,并在一般的分割任务上已显示出巨大的潜力。然而,SAM的训练场景主要涉及自然光照条件,这限制了其在水下环境中的性能。此外,SAM中过于简单的解码器结构缺乏生成细粒度分割结果的能力。

考虑到上述事实,在这项工作中,本文提出了一种新的基于SAM的特征学习框架命名为MAS-SAM海洋动物分割。更具体地说,通过冻结SAM的编码器的预训练参数,并引入有效的适配器,我们建立了一个Adapter-informed SAM编码器(ASE)从海洋动物图像中提取特征。此外,我们还构造了一个超映射提取模块(HEM),用于从新SAM的编码器中提取多尺度特征映射。它为后续的掩模预测过程提供了全面的指导。为了改进SAM的解码器,我们引入了渐进预测解码器(PPD)来聚合来自原始提示、ASE和HEM的特征。当与融合注意力模块(FAM)嫁接时,我们的PPD可以优先考虑多粒度特征图的重要性,并从全局上下文线索中提取更丰富的海洋信息,以获得细粒度的局部细节。

4.网络结构详解

在这里插入图片描述
本文提出的框架(MAS-SAM)的整体结构。它由三个主要部分组成:适配器通知SAM编码器(ASE)、超映射提取模块(HEM)和渐进预测解码器(PPD)。

适配器通知SAM编码器Adapter-informed SAM Encoder
在这里插入图片描述

保留了原始SAM的核心组件,并利用两个参数高效的微调机制来改进预训练的编码器。如上图所示,我们将LoRA 和适配器分别输入到每个Transformer块的多头自注意(MHSA)和前馈网络(FFN)中。更具体地,令Xi ∈ RN×D为第i个Transformer块的输入。这里,N是令牌的数量,D表示嵌入维数。由LoRA修改的MHSA层可以表示如下:
在这里插入图片描述
其中,Wq、Wk和Wv分别是用于生成原始查询、关键字和值矩阵的三个线性投影层的权重。 W q , v d o w n ∈ R M × D W^{down}_{q,v} ∈ R^{M×D} Wq,vdownRM×D W q , v u p ∈ R M × D W^{up}_{q,v} ∈ R^{M×D} Wq,vupRM×D分别是两个线性投影层的权值,用于降低和恢复特征维数,其中M是向下映射的维度。通过这种方式,可以冻结预训练的权重(Wq、Wk和Wv)和利用秩分解矩阵来大大减少可训练参数的数量。

此外,我们将一个适配器插入到FFN中,如下所示:
在这里插入图片描述
其中LN和MLP代表层归一化(LN)和多层感知器(MLP)。σ是ReLU(Rectified Linear Unit)。 W a d p t d o w n ∈ R P × D W^{down}_{adpt} ∈ R^{P×D} WadptdownRP×D W a d p t u p ∈ R P × D W^{up}_{adpt} ∈ R^{P×D} WadptupRP×D分别是两个线性投影的权值,用于降低和恢复特征维数。P是向下投影维度。与LoRA类似,通过采用极低的参数P值,可以实现参数有效的微调,以使预训练的SAM的编码器适应海洋场景。

超地图提取模块
在这里插入图片描述

由于复杂的水下环境,利用局部的细节和全局的背景下,鲁棒性和准确的MAS十分重要。不同的Transformer层捕获不同级别的语义,通常,浅层保留更多的局部细节,深层表达更多的上下文信息。因此,为了使我们提出的模型利用更丰富的海洋信息,提出了一个超地图提取模块(HEM)考虑ASE的多尺度特征地图。然后,它作为后续掩模预测过程的综合指导。更具体地说,我们首先将图像 I ∈ R H × W × 3 I ∈ R^{H×W×3} IRH×W×3送入ASE(编码器),并获得不同Transformer层的输出。在这项工作中,我们选择了3-6-9-12层,并得到多尺度表征特征,即,Xi(i = 3,6,9,12)。然后,我们将它们重塑为空间特征映射 F i ∈ R H / 16 × W / 16 × D F_i ∈ R^{H/16×W/16×D} FiRH/16×W/16×D。为了同时考虑这些多尺度特征图,我们执行以下特征聚合:
在这里插入图片描述
其中ϕ1×1和ϕ3×3分别是具有1×1和3×3核的卷积层。为了提高训练的稳定性,在卷积层之后引入了批归一化(BN)和RELU激活函数。[·]是通道中的级联。
然后,我们引入通道注意层以生成超映射Hj,如下所示:
在这里插入图片描述
其中GAP是全局平均池(GAP),δ是Sigmoid函数,ψ2×2是具有2×2核的反卷积层。这样可以获得多比例尺的超图。这些超地图在提高MAS的性能方面起着至关重要的作用。

渐进预测解码器
在这里插入图片描述

由于海洋动物的外观变化很大,SAM中简单的解码器设计很难实现准确的分割掩模。为此提出了一种渐进预测解码器(PPD)来有效地提高预测能力。它具有金字塔结构,从原始提示、ASE和HEM中逐步聚合多源特征,并获得最终的分割预测。

在这里插入图片描述
如上图所示,提出了一个融合注意力模块(FAM)来完全聚合多源特征。更具体地说,我们开始对来自ASE的特征进行上采样,并将输入特征缩放为相同的大小。然后,我们将它们融合如下:
在这里插入图片描述
其中Ui是通过利用双线性插值Φ的上采样特征。Dj是所提出的PPD中的第j个金字塔级的输出。对于FAM,我们利用通道注意力来优先考虑多源功能的重要性。还部署了残差结构,以加强代表能力。该过程可以表述为:
在这里插入图片描述
GMP是Global Max Pooling(GMP)。通道权重可以突出相关特征并抑制不相关特征。同时,我们的FAM所采用的注意力机制有助于捕捉不同尺度的特征之间的复杂关系,从而产生更连贯和信息量更大的特征表示。因此,FAM可以有效地集成和细化多源功能。

最后,为了实现渐进式预测,我们构建了与FAM嫁接的PPD,如下所示:
在这里插入图片描述
其中Pj是第j个金字塔级的预测掩码。PPD推进原始提示,ASE和HEM的无缝聚合,从而产生更丰富的海洋信息,从全局上下文线索细粒度的局部细节。

为了进一步改善预测结果,我们在不同阶段进行所有预测,并生成最终预测,如下所示:
在这里插入图片描述
通过金字塔结构和FAM的协同使用,我们的MAS-SAM可以有效地利用各种信息,并为各种海洋动物形状和大小产生高度精细和详细的分割掩模。

损失函数
从三个层面进行深度监管,像素级监督(二进制交叉熵损失)、区域级监督(SSIM损失)和全局级监督(IoU损失)。因此,我们将Lf或Lj定义为具有三项的组合损失:
在这里插入图片描述
其中Lf和Lj分别是最终预测和第j级输出的损失。

问题

代码也没公开,中间的cross attention没有提,CMP也没有提,应该是最后金字塔解码器的每一级输出到最终输出P的过程。
文章提到解码器接收原始提示、ASE编码器和HEM的特征,但实际上只接收了HEM的Hi和ASE的Fi进行上采样处理,并没有接收原始提示,应该是ASE编码器与原始提示(也就是默认提示,因为文章没有对提示编码器进行更改)的最终输出,进行cross attention,作为D0。

总体来说创新点在于SAM中增加LoRA和适配器微调而冻结原SAM的图像编码器;增加了超地图提取模块把编码器的不同层特征提出来进行处理;解码器金字塔型,增加接收不同层的特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1648891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超疏水TiO₂纳米纤维网膜的良好性能

超疏水TiO₂纳米纤维网膜是一种具有特殊性能的材料,它结合了TiO₂的光催化性能和超疏水表面的自清洁、防腐、防污等特性。这种材料在防水、自清洁、油水分离等领域具有广阔的应用前景。 制备超疏水TiO₂纳米纤维网膜的过程中,通过精确控制纺丝溶液的成分…

BFS Ekoparty 2022 -- Linux Kernel Exploitation Challenge

前言 昨天一个师傅给了我一道 linux kernel pwn 题目,然后我看了感觉非常有意思,题目也不算难(在看了作者的提示下),所以就花时间做了做,在这里简单记录一下。这个题是 BFS Lab 2022 年的一道招聘题&#…

【优选算法】——Leetcode——202—— 快乐数

目录 1.题目 2. 题⽬分析: 3.简单证明: 4. 解法(快慢指针): 算法思路: 补充知识:如何求⼀个数n每个位置上的数字的平⽅和。 总结概括 5.代码实现 1.C语言 2.C 1.题目 202. 快乐数 编写一个算法来…

国家电网某地电力公司网络硬件综合监控运维项目

国家电网某地电力公司是国家电网有限公司的子公司,负责当地电网规划、建设、运营和供电服务,下属多家地市供电企业和检修公司、信息通信公司等业务支撑实施机构。 项目现状 随着公司信息化建设加速,其信息内网中存在大量物理服务器、存储设备…

我独自升级崛起在哪下载 我独自升级崛起客户端下载教程

定于5月8日全球盛放的《我独自升级:崛起》——这一激动人心的动作角色扮演游戏巨作,汲取了同名动漫及网络漫画的精髓,誓将以其无与伦比的魅力,引领玩家迈入一个探索深远、规模宏大的奇幻之旅。游戏构筑在一个独一无二的网络武侠世…

英语学习笔记3——Sorry, sir.

Sorry, sir. 对不起,先生。 词汇 Vocabulary umbrella n. 伞,保护伞 注意读音 [ʌm’brelə] 英国人离不开雨伞。 please 请 特殊用法:让路(升调)      用餐礼仪(平调)      求求你…

【Toritoise SVN】SVN 怎么忽略文件夹下的所有文件但是不忽略文件夹本身

比如:忽略 Assets\StreamingAssets\LocalAsset文件夹下的所有文件但是不忽略LocalAsset这个文件夹 在TortoiseSVN中,你可以通过以下步骤来修改文件夹的svn:ignore属性: 打开Windows资源管理器,导航到你的工作副本中的Assets\Stre…

鸿蒙内核源码分析(互斥锁篇) | 互斥锁比自旋锁丰满多了

内核中哪些地方会用到互斥锁?看图: 图中是内核有关模块对互斥锁初始化,有文件,有内存,用消息队列等等,使用面非常的广.其实在给内核源码加注的过程中,会看到大量的自旋锁和互斥锁,它们的存在有序的保证了内核和应用程序的正常运行.是非常基础和重要的功能. 概述 自旋锁 和…

HIVE函数的基本使用

HIVE函数的基本使用 1.查看所有支持的函数 共289个 1)SHOW FUNCTIONS 查看所有支持的函数 共289个 2)SHOW FUNCTIONS LIKE "**" 模糊查询函数名 3)DESC FUNCTION 函数名 可以查看函数的具体使用方法 show functions; show functions like "*c…

【Python爬虫实战入门】:全球天气信息爬取

文章目录 一、爬取需求二、所需第三方库2.1 简介 三、实战案例四、完整代码 一、爬取需求 目标网站:http://www.weather.com.cn/textFC/hb.shtml 需求:爬取全国的天气(获取城市以及最低气温) 目标url:http://www.weath…

双热点的王炸组合!损失函数+Attention,精度与速度上实现SOTA!

损失函数注意力机制在深度学习领域是一个热门研究方向,它可以提高模型的性能和泛化能力,帮助我们构建更加精确且高效的模型。 具体来说: 通过结合注意力机制的聚焦能力和损失函数的优化指导,模型能够更精确地捕捉数据中的关键信息…

Vue3基础笔记(4)组件

目录 一.模版引用 二.组件组成 1.引入组件 2.注入组件 3.显示组件 三.组件嵌套关系 四.组件注册方式 五.组件传递数据 六.组件事件 一.模版引用 虽然Vue的声明性渲染模型为你抽象了大部分对DOM的直接操作,但在某些情况下,我们仍然需要直接访问底…

一个新细节,Go 1.17 将允许切片转换为数组指针!

在 Go 语言中,一个切片(slice)包含了对其支持数组的引用,无论这个数组是作为一个独立的变量存在于某个地方,还是仅仅是一个为支持分片而分配的匿名数组。 其切片基本结构都如下: // runtime/slice.go typ…

windows安装ElasticSearch以及踩坑

1.下载 elasticsearch地址:Past Releases of Elastic Stack Software | Elastichttps://www.elastic.co/cn/downloads/past-releases#elasticsearch IK分析器地址:infinilabs/analysis-ik: 🚌 The IK Analysis plugin integrates Lucene IK…

学习R语言第五天

文章目录 语法学习创建数据的方式绘制图形的方式图形添加颜色如何操作数据的方式数据进行验算的判断加付值的方式修改变量名称的方式判断是否存在缺失值在计算的方式忽略缺失值通过函数的方式忽略缺失值日期处理的方式字符串转化成日期的方式格式化数据框中数据返回当前的日期的…

【重磅开源】MapleBoot生成代码工具介绍(单表表格功能)

基于SpringBootVue3开发的轻量级快速开发脚手架 🍁项目简介 一个通用的前、后端项目模板 一个快速开发管理系统的项目 一个可以生成SpringBootVue代码的项目 一个持续迭代的开源项目 一个程序员的心血合集 度过严寒,终有春日&#xff…

【深度学习实战(33)】训练之model.train()和model.eval()

一、model.train(),model.eval()作用? model.train() 和 model.eval() 是 PyTorch 中的两个方法,用于设置模型的训练模式和评估模式。 model.train() 方法将模型设置为训练模式。在训练模式下,模型会启用 dropout 和 batch norm…

SinoDB SQL管理工具之-DBeaver安装使用说明

本文介绍如何使用DBeaver管理工具连接SinoDB数据库。 1. DBeaver下载 下载地址:Download | DBeaver Community 请根据需求选择对应自己操作系统的版本进行下载。本次示例使用Windows 64位操作系统进行安装配置。下载版本为:dbeaver-ce-23.0.2-x86_64-…

什么是SOL链跟单机器人与阻击机器人?

SOL链作为一个快速增长的区块链生态系统,为各种应用程序提供了丰富的发展机会。在SOL链上,智能合约的应用已经开始蓬勃发展,其中包括了许多与加密货币交易相关的应用。在本文中,我们将介绍在SOL链上开发的阻击机器人(S…

42.乐理基础-拍号-看懂拍号的意义

到这必然是已经知道 X、Y的意思了: 然后带入数字: 然后念拍号的时候,在国内,百分之九十的地方是从下往上念,念作四二拍,还有百分之十的地方是和国外一样,从上往下念,念作二四拍&…