开放词汇全景分割是一种先进的计算机视觉任务,它旨在将图像中的每个像素分割并分类到预先定义或未定义的类别中。这与传统的图像分割不同,后者通常仅限于识别有限的、预先定义的对象类别。开放词汇全景分割的目标是识别和处理图像中的任何可能的对象,无论这些对象是否包含在训练数据的标签集中。
开放词汇全景分割通常利用深度学习方法,尤其是卷积神经网络(CNN)和变换器模型,以及多模态学习技术。在介绍的内容中,提到了名为Semantic Refocused Tuning (SMART)的方法,这是一种特别为开放词汇全景分割设计的框架,包括以下几个关键技术:
-
多模态语义引导面具注意机制:该机制通过将语义信息注入到面具分类过程中,帮助模型识别和处理图像中的各种对象。这种语义引导帮助模型更好地理解对象的上下文和任务相关的细节。
-
Query Projection Tuning:这是一种特定的微调技术,用于调整视觉语言模型(VLM)中的查询投影层。这种调整使模型能够适应新的分布,同时保持预训练的知识,这对于处理不在训练集中的新对象类别尤为重要。
开放词汇全景分割的研究和应用对于推动机器视觉的泛化能力和实用性具有重要意义。它使得计算机视觉系统能够更加智能和适应性强,能够在多样化的实际应用场景中有效工作,如自动驾驶汽车、机器人导航、智能视频监控等。通过能够理解和处理未见过的对象,这些系统不仅能够提高其准确性,还能够在新环境中更好地进行自我调整和学习。
此外,开放词汇全景分割技术的进步还有助于减少对大量标注数据的依赖,降低训练成本,这对于推动技术的可持续发展和更广泛的应用具有重要意义。
论文作者:Yong Xien Chng,Xuchong Qiu,Yizeng Han,Kai Ding,Wan Ding,Gao Huang
作者单位:Tsinghua University; Bosch Corporate Research
论文链接:http://arxiv.org/abs/2409.16278v1
内容简介:
1)方向:开放词汇全景分割
2)应用:图像分割
3)背景:尽管已有努力,但在开放词汇全景分割领域仍然具有挑战性,需要开发一种高性能的方法,能够有效泛化到新领域,并且需要较少的训练资源。
4)方法:本文提出一种名为Semantic Refocused Tuning (SMART)的新框架,通过改进面具分类来极大增强开放词汇全景分割。SMART采用了多模态语义引导面具注意机制,注入任务感知性到区域信息提取过程中,使模型能够捕捉任务特定和上下文相关信息,以实现更有效的面具分类。同时,它还结合了Query Projection Tuning,通过策略性微调用于面具分类的视觉语言模型(VLM)中的查询投影层。这种调整使模型能够在保留VLM预训练知识的同时,将面具标记的图像焦点适应到新的分布,同时减少训练资源的使用。
5)结果:广泛的消融研究证实了该方法的优越性。值得注意的是,SMART取得了新的最先进结果,在代表性基准测试中表现出高达+1.3 PQ和+5.4 mIoU的改进,同时将训练成本减少了近10倍,相比之前最佳方法。代码和数据将会发布。