论文作者:Jiannan Wu,Yi Jiang,Bin Yan,Huchuan Lu,Zehuan Yuan,Ping Luo
作者单位:The University of Hong Kong;ByteDance;Dalian University of Technology;Shanghai AI Laboratory
论文链接:https://arxiv.org/pdf/2308.04206v1.pdf
内容简介:
1)方向:开放世界实例分割
2)应用:图像分割
3)背景:开放世界实例分割是一项新兴任务,旨在通过从有限数量的基础类别对象中学习,对图像中的所有对象进行分割。这个任务具有挑战性,因为未见类别的数量可能是已见类别的数百倍。最近,封闭世界中的DETR-like模型得到了广泛研究,但在开放世界中尚未被探索。
4)方法:本文利用Transformer进行开放世界实例分割,并提出了SWORD。首先,介绍在分类头之前添加停梯度操作,并进一步添加IoU头来发现新对象。证明了简单的停梯度操作不仅可以防止新对象被抑制为背景,还可以使网络享受启发式标签分配的优点。其次,我们提出了一种新颖的对比学习框架,以扩大对象和背景之间的表示。具体而言,维护一个通用对象队列来获取对象中心,并从对象查询中动态选择正负样本进行对比学习。
5)结果:结果证明所设计模型在各种开放世界跨类别和跨数据集的泛化中取得了最先进的性能。特别是在VOC到非VOC设置中,所提出方法在ARb100上取得了40.0%的最新成果,在ARm100上取得了34.9%的最新成果。对于COCO到UVO的泛化,SWORD在APm上的性能比之前最好的开放世界模型提高了5.9%,在ARm100上提高了8.1%。