极端尺度物体的显著性分割方法(SOD 新 SOTA)

news2025/1/22 16:12:23

Paper Link:http://cvteam.buaa.edu.cn/papers.html

Background:显著性物体分割在常规图像场景取得突破进展,在极端尺度物体场景仍面临挑战。

图像前景物体分割是深度学习、计算机视觉等领域的研究热点,在机器视觉、智能交通、智慧医疗、智能创作等领域具有重要的应用价值。近年来,面向常规尺寸物体场景的前景物体分割算法取得了突破性进展。然而,由于提取极端尺度感受野的低效性,现有方法在处理尺度变化场景尤其是包含极端大或者小尺度物体时面临瓶颈。

Motivations:现有显著性物体分割网络感受野的范围和灵敏度有限,难以应对极端大或小尺度物体的非对称的分割需求。

如图1 (a) 和(b)所示,包含大尺度物体的分割图往往具有更好的精确率和召回率,同时存在较大的均方误差,而小尺度物体的分割图通常表现出相反的效果。也就是说,对于包含非常大或小物体的图像场景,存在非对称分割要求。如图1 (c) 和(d)所示,基于卷积神经网络的方法如LDF在处理大型物体时可能会产生更多的失败样例,而基于视觉Transformer的方法如VST则在处理小型物体时遇到问题。

图 1 该工作和 6 种国际最新方法在极端大或小尺度物体数据上的综合对比

Related Work:常见的感受野扩展机制及不足之处。

为了应对这一问题,相关的方法通常设计多尺度并行分支模块或者全局表征来尽可能地扩展网络地感受野,例如,PoolNet提出了通过不同采样率的池化结构构成的多分支结构来提取多尺度特征;PFANet提出通过将语义和细节解耦到不同解码器来提取多解码器中的丰富尺度信息;MINet和PFSNet则充分利用相邻特征之间的关系来获取尺度感知信息并避免噪声的引入;UTA提出了一种门控多尺度模块,以更高效的方式分别汇聚多尺度信息;VST利用视觉Transformer架构从图像整体视角提取更强大的表征性特征。尽管这些方法的都取得了突出的性能,但仍然存在以下缺点:

  1. 基于全卷积网络局部感知机制的方法限制了模型感受野的范围,而基于Transformer的空间区域之间的注意机制又难以兼顾局部细节和效率。这种矛盾导致模型难以平衡全球视角、精确细节和模型效率,进而影响可不同尺度物体的分割效果。

  1. 如图 2 所示,代表性的多支路方法通常设置不同形式的多分支结构以生成以强化模型的应对能力,却忽略了多分支之间的耦合关系或者不同决策结果的相关性。这里,决策路径是指可以独立生成预测结果的网络结构路径。

图 2 该论文的循环补偿策略和常见多分支结构的对比

Method:提出网络感受野拓宽和细化方案:感知扩展与环路代偿的显著性物体分割策略。

本节将会依次介绍感知扩展和环路代偿的前景物体分割方法的网络框架,具体内容包括以下三个部分:1) 感知扩展编码器:重新思考了双边结构的优势,并构建了一个双边极端剥离的感知扩展编码器。2) 动态互补注意力模块:该网络配备了所提出的动态互补注意模块,以动态互补的方式处理极大和极小尺寸物体的非对称分割要求3) 环路补偿策略:进一步提出了一种新颖而有效的环路补偿策略,以基于更宽的感受野来增强尺度特定视图,该策略通过关注先前路径的预测误差使多路解码器中的每个决策路径形成互补的链式预测关系。

图 3 感知扩展与环路代偿网络框架图

  1. 感知扩展编码器

根据对图1呈现的现象,所对比的前景物体分割方法在处理极端大或小尺度物体时可能会产生更多的失败案例。而且,极端大或者小尺度物体的分割过程存在不对称的分割要求。为此,该节提出一种基于双边网络架构的感知扩展编码器,用于获取更广泛的感受野。该编码器将模型对极端尺度物体的感知范围划分到不同的分支,分别是感知全局视角的语义分支和感知局部视角的细节分支。语义分支充分利用Transformer模型 的全局注意力机制来提取全局语义特征并增强整个网络的感受野;细节分支负责提取局部高分辨率细节。该方法的优势是剥离语义信息和细节信息并为两者配备对口的网络结构。细节的提取过程通常需要保证更高的图像输入分辨率,而全局语义的获取则可以适当地降低分辨率。通过这种解耦的方式,可以更好地兼顾模型的细节、语义和效率。

  1. 动态互补注意力模块

所提出的感知扩展编码器可以获得低分辨率语义特征和高分辨率细节特征,然而如何合并和强化这两类特征以获得更具具有弹性的感受野仍待解决。为此,本文提出动态互补注意力模块,简记为DCAM,来解决这个问题。与其常见的特征叠加模块不同,DCAM在合并特征的同时解决了卷积特征和Transformer特征在语义和细节分辨率上的差异。从实现方式上来说,Transformer的全局注意力通过向量内积计算空间层面上所有像素块之间的相关性,而卷积的注意力则建立了局部空间中所有通道之间的联系。前者很难表示通道之间的权重比例,而后者很难建模整个空间范围的关联关系。因此,DCAM将卷积网络特征用做Transformer特征的动态通道权重,以弥补信道之间的相关性不足。Transformer特征则为卷积网络特征生成空间维度的权重,以补充空间全局关联视角。动态注意机制可以适应不同模型的特征,同时弥合双边特征的特性及分辨率差异。

图 4 动态互补注意力模块结构图

  1. 环路补偿策略

极端解耦的感知扩展编码器和动态互补注意力模块可以自适应地过滤极端尺度特征并生成更宽的感受野。为了优化分割效果,进一步提出了环路补偿策略以增强对不同尺度范围特征的感知并抑制误差的传递。一方面,葫芦补偿策略建立在多路径解码器之上,该解码器通过设置具有不同扩展率的卷积,将不同尺度范围的特征划分为不同的决策路径中。另一方面,采用随机训练过程来抑制相邻决策路径之间的错误传输。通过环路补偿策略,每个决策路径都能根据前一条路径的预测误差进行定向调整,由于路径之间通过代偿损失相互监督,不同的路径之间的特征可以构成相互补充的链式关系。

多路径解码器的结构如图 3 所示,每个决策路径都设置一个预测头,以便单独训练每个路径。在训练阶段,路径之间的互补性可以通过增强损耗来增强。在推理阶段,可以根据多条路径的投票结果生成最终显著性图。相比于现有的多分支模块看,多路径解码器尤其独特之处,每条路径即保留了独立的参数存储路径特异性特征,即每个决策路径中独有的扩张卷积和预测头,同时共享了大部分参数以控制额外的计算及参数量的开销。

代偿损失旨在增强多路径解码器中相邻路径之间的互补性,进而构架多条路径之间的环路互补关系。在每次迭代中,随机选择一条路径来保存梯度用于训练,并预测前一条路径的预测结果以计算误差权重。每次迭代都会加强模型相邻路径之间的链补偿关系,最终实现多个决策路径的环补偿,从而获得更准确的特征表达和分割效果。

代偿损失的核心在于不同路径之间代偿损失,该损失类似于Boosting集成思路,上一条路径的误差会在下一条路径上加权。给定多分支结构以显示约束不同分支的特异性。

Experiments:实验性能分析验证。

如表 1 所示,在五个数据集上的实验显示,该方法在五个指标上的性能达到先进水平,值得注意的是,该方法同时训练了一个224x224的tiny模型,同样实现了优异的性能,甚至在某些指标高于原模型,这可能侧面反映了该方法对分辨率的鲁棒性。

表 1 感知扩展与环路代偿方法与相关方法的性能验证

表2显示了BBRF在解决不对称分割要求方面定性对比,其中大尺寸对象数据集Large被定义为数据集中按前景像素比降序排序后的前20%的图像。小尺寸对象数据集Small定义为数据集中按前景像素比升序排序的前20% 的图像。一方面,对于小尺寸对象的分割效果有明显改进。

表 2 感知扩展与环路代偿方法与相关方法在极大或极小尺寸物体图像上的对比

可视化数据如图5所示,从第三列数据可以看出,具有更全面的感受野的BBRF可以有效地处理不同尺度的物体。1) 对于大型对象,该方法可以更好地解决细节问题。例如,在第一行的样例中,BBRF可以精准分割飞机台阶的间隙。2)对于包括多个小尺寸对象的场景,BBRF可以从全局视图中找到最重要的对象。例如,最后一行的结果表明,该方法可以在准确找到鸟的位置,并将目标识别为重要对象,该结果与手动标记的结果一致。3) BBRF不仅在极大和极小规模的场景中具有优异的性能,而且可以实现对规则大小对象的精确分割。图33中间部分的结果表明,对于常规尺寸的对象,细节和语义的分离也会产生更好的分割结果,这些对比可以有效地证明BBRF的高效性及鲁棒性。

图 5 感知扩展与环路代偿方法与相关方法的可视化对比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/151621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mac 电脑磁盘空间释放记录

起因 点开钉钉页面就卡住,看了一下,光一个钉钉占到4G左右的内存,给钉钉发了工单,没人理我。又随手看了一下系统磁盘空间使用情况,发现快满了!😓 应用清单 我是一个应用的超轻度用户&#xff…

NFT市场聚合器:他们有没有得到广泛使用?他们对于冷门的NFT交易市场有什么影响?

聚合器是什么?NFT市场聚合器是一种交易工具平台,允许用户在一个页面同时间从多个不同的市场浏览和发现NFT。 这些聚合器将市场上的NFT挂单整合在一起,使用户更容易找到并购买NFT,并节省了用户在多个不同NFT市场之间比较来回比较NF…

rabbitMQ简介

rabbitMQ简介 目前应用最广泛的一个基于AMQP规范的开源的消息中间件RabbitMQ是一个由erlang开发的AMQP(Advanved Message Queue Protocol)的开源实现 rabbitMQ的重要概念 Message:消息,消息是没有名称的,消息由消息头和消息体组成&#xf…

腾讯安全联合Gartner发布SOC+白皮书,助力政企构筑实战化安全运营体系

随着数字化浪潮的蓬勃兴起,各类政企机构上云步伐加快。与此同时,如高危漏洞、勒索病毒、挖矿木马、APT攻击等威胁层出不穷,安全形势日益严峻。许多政企机构虽部署了较为完备的基础安全产品,但防御体系仍以异构设备堆叠式为主&…

STM32+ESP8266+机智云+DHT11数据上传

机智云 文章目录机智云前言一、工程的修改二、数据的上传1.标识符2.数据处理3.数据上传三、app控制前言 今天搞了一下机智云,就想把温湿度发到app上去,然后能够控制灯的开关。之前从来没有用过这个玩意,用阿里云和点灯科技多一点&#xff0c…

恭喜 OpenSergo 获得中国开源云联盟 2022 “优秀开源项目”

作者:OpenSergo 为了营造良好的开源氛围,为我国开源产业发展注入更多活力,中国开源云联盟(China Open Source Cloud League,简称“COSCL”) 组织开展了 2022 年度评选活动。并在今天的 2022 木兰峰会中公布了评选结果。 2022 木兰…

共享模型之管程(六)

1.park&unpark 1.1.概述 1>.他们是LockSupport类中的方法 // 暂停当前线程 LockSupport.park(); // 恢复某个线程的运行 LockSupport.unpark(暂停线程对象)注意:先park再unpark! 1.2.案例 Slf4j public class TestPark {public static void main(String[] args) th…

持续数据保护(CDP)适合档案数据备份吗?

几个月前笔者写过两篇针对档案长期保存库备份(或者说是档案数字资源长期保存策略)的文章,《电子档案备份相对于数据备份的特别之处》、《备份策略从“3-2-1”到“4-3-2-1”》,但是很多读者依然觉得不解渴,因为目前绝大…

Activity和Fragment的生命周期总结以及保存实例状态机制

读完将收获以下内容 一. Activity的生命周期详解 Activity配置和状态改变时生命周期 Activity状态和配置改变时的解决方案 二.Fragment的生命周期详解 Fragment配置和状态改变时生命周期 Fragmen状态和配置改变时的解决方案 三.Activity和Fragment的生命周期调用顺序 一. Acti…

笔记--Qt Pro语法总结

QT pro文件: 任何一个 Qt 项目都至少包含一个 pro 文件,此文件负责存储与当前项目有关的配置信息,比如: 项目中用到了哪些模块? 项目中包含哪些源文件,哪些头文件,它们的存储路径是什么&…

德育知识元素挖掘系统设计 软件工程 spring boot + Vue.js + python机器学习

第一章 绪论 摘要 当今社会发展迅速,机器学习相关技术快速在各行各业普及,制作数据挖掘系统的需求日益增长。同时,随着社会发展不断推进,对学生进行德育教育的规模越做越大,成为了教育行业发展的一大趋势。对于较大规模…

glibc 2.31 pwn——house of pig原题分析与示例程序

house of pig这种利用方式来源于XCTF 2021 final中的同名题,其原题使用的是libc 2.31版本,本文就根据这道题学习一下这种漏洞利用方式。 参考资料 这是一道C pwn,但漏洞本身与C不同于C的特性关系不大。 一共提供了5个选项: 增&…

idea无法安装插件

不能安装插件,首先需要确定是问题,最常见的是无法下载和安装不上, 1.无法下载解决版本 无法下载很多时候就是延迟太高导致的,我们先打开插件官网看一下 Python - IntelliJ IDEs Plugin | Marketplace 如果网站无法打开&#xf…

【测试】用例篇

努力经营当下,直至未来明朗! 文章目录一、设计测试用例的万能公式二、设计测试用例的具体方法1. 等价类2. 边界值3. 因果图(判定表)4. 场景设计法5. 正交法6. 错误猜测法:sparkles: 小结普通小孩也要热爱生活! 一、设…

JS数据类型判断的九种方式

JS 的数据类型检测是一道经典的八股文面试题。相信大家都能条件反射的回答出 4 种方法:typeof、constructor、instanceof 和 Object.prototype.toString,并且对它们各自的优缺点也是张口就来。 本文对这些方法做了简单归纳,同时又补充了其他…

Leetcode:112. 路径总和、113. 路径总和 II(C++)

目录 112. 路径总和: 问题描述: 实现代码与解析: 递归: 原理思路: 迭代: 原理思路: 113. 路径总和 II: 问题描述: 实现代码与解析: 迭代&#xff…

分享66个NET源码,总有一款适合您

NET源码 分享66个NET源码,总有一款适合您 NET源码下载链接:https://pan.baidu.com/s/1-H0UV3yly3p1PXbeLAvMtA?pwdk06f 提取码:k06f page_count 1 # 每个栏目开始业务content"text/html; charsetgb2312"base_url "http…

go defer return panic 执行顺序

根据代码实例运行结果来总结说明:定义一个函数,有多个defer (用于判断多个defer执行顺序),有panic和 return (判断与defer对比执行顺序)一、函数中有panicpackage mainimport "fmt"fu…

【矩阵论】8. 常用矩阵总结——秩1矩阵,优阵(单位正交阵),Hermite阵

矩阵论 1. 准备知识——复数域上矩阵,Hermite变换) 1.准备知识——复数域上的内积域正交阵 1.准备知识——Hermite阵,二次型,矩阵合同,正定阵,幂0阵,幂等阵,矩阵的秩 2. 矩阵分解——SVD准备知识——奇异值…

【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优探索

文章目录一、场景描述1. 任务类型描述2. 问题任务二、相关理论1.Task Slots and Resources1.1. slots与资源的隔离和共享1.2 建议cpu和slot数关系2. tm的资源配置是否合适2.1. flink load problems2.2. 阿里 flink资源配置建议三、问题分析与解决1. 测试结果比对1.1. 任务11.2.…