ACM MM
Partitioned Saliency Ranking with Dense Pyramid Transformers
code
Abstacrt
:显著性排序,其重点是评估实例级别的显著性程度。本文提出分区排序范式,该范式将无序的显著性实例分区,然后根据分区之间的相关性对其进行排序。分区排序范式减轻了排序的模糊性,提高了显著性排序模型的性能。除此之外,本文引入密集金字塔Transformer
,实现全局跨尺度交互,增强了特征交互,降低计算成本。
Saliency Prototype for RGB-D and RGB-T Salient Object Detection
code
Abstacrt
:现有的双模态显著性检测方法在特征融合前缺乏对显著性区域的明确定义,因此其模型的鲁棒性较差。为解决这一问题,本文提出一种新的原型prototype
,用于捕获显著性对象间的共同特征信息。一个原型包含多个显著性对象的固有特征,可用于特征增强。显著性原型提供了一个更清晰的显著性区域定义,使得模型在特征融合之前集中在这些区域,避免了特征融合阶段复杂背景的影响。除此之外,本文利用显著性原型处理模态的质量问题,可利用主模态得到的显著性原型对辅助模态进行语义增强,并且在特征融合阶段,根据辅助模态的质量动态地分配权重。因此,本文开发了一种基于双模态显著性检测架构的显著性原型网络,即SPNet
,可用于RGB-D
和RGB-T
的显著性检测任务。
Object Segmentation by Mining Cross-Modal Semantics
code
Abstacrt
:本文提出一种方法,通过挖掘跨模态语义,以指导多模态特征的融合和解码,其目的是基于相对熵控制模态的贡献程度。本文从两个方面探讨了多模态输入的语义信息:模态间的共性与特性。具体来说,本文提出了一种新网络,即XMSNet
,由全方位注意融合模块AF
、由粗至细的解码器CFD
和跨层自我监督组成模块。AF
模块分离模态间的共性与特征,同时根据质量调整比例、区域和模式来学习不同模态的权重。CFD
首先对共性特征进行解码,然后利用特性特征进行细化。此外,在解码层间强制语义一致,以实现跨网络层级的交互,提高特征的可辨别性。
ICCV
Source-free Depth for Object Pop-out
code
Abstacrt
:本文利用物体在3D中的先验知识pop-out
,将深度推理模型用于物体分割。pop-out
,即假设对象位于背景表面上,这种先验知识能辅助对3D空间中的物体进行推理。更具体来说,本团队调整了推理的深度图,因此物体可以只使用3D信息进行定位。然而,分离显著性对象需要背景的知识,本文采用分割掩码的弱监督进行学习。本文提出的自适应方法只使用深度模型,无需使用源数据进行训练。
Information Sciences
EGA-Net: Edge feature enhancement and global information attention network for RGB-D salient object detection
code
Abstacrt
:本文提出一种新的网络,即EGA-Net
,以提高边缘质量并突出显著性目标的主要特征。具体而言,本文提出特征交互模态FI
和边缘特征增强模块EFE
。FI
模块用于去除单模态特征冗余,捕获多模态特征互补性,减少低质量深度图的污染。EFE
用于改善预测结果和边缘质量。此外,本文还提出一种全局信息引导集成模块GIGI
来抑制背景噪声,有效地突出显著性目标的主要特征。在全局特征的指导下,采用交错和融合的方法对原始输入特征中的重要信息进行自动选择和增强。EGA-Net
的训练在一个新的混合损失函数的监督下,该函数可以同时考虑全局像素点、前景和深度图的质量。
Neurocomputing
Adaptive fusion network for RGB-D salient object detection
code
Abstacrt
:本文提出了一种新的自适应融合网络来解决深度图噪声的问题,即AFNet
。具体来说,本文设计了一个由三个子网络组成的三重编码器网络,分别处理RGB
图、深度图和特征融合。这三个子网络相连并形成一个网格网,以促进多模态特征的相互细化。此外,本文提出了一个多模态特征交互模块MFI
,利用深度和RGB
模态间的互补线索,自适应融合多模态特征。最后,本文设计了级联特征交织解码器CFID
,利用多层特征间的互补信息,并对其进行迭代,以实现准确的显著性检测。