OOOPS:零样本实现360度开放全景分割,已开源 | ECCV‘24

news2024/10/10 15:01:08

全景图像捕捉360°的视场(FoV),包含了对场景理解至关重要的全向空间信息。然而,获取足够的训练用密集标注全景图不仅成本高昂,而且在封闭词汇设置下训练模型时也受到应用限制。为了解决这个问题,论文定义了一个新任务,称为开放全景分割(Open Panoramic SegmentationOPS)。在该任务中,模型在源领域使用视场受限的针孔图像进行训练,而在目标领域使用视场开放的全景图像进行评估,从而实现模型的零样本开放全景语义分割能力。此外,论文提出了一种名为OOOPS的模型,结合了可变形适配器网络(Deformable Adapter NetworkDAN),显著提高了零样本全景语义分割的性能。为了进一步增强从针孔源领域的失真感知建模能力,论文提出了一种新的数据增强方法,称为随机等矩形投影(Random Equirectangular ProjectionRERP),该方法专门旨在预先处理物体变形。OOOPS模型结合RERPOPS任务上超越了其他最先进的开放词汇语义分割方法,在三个人工全景数据集WildPASSStanford2D3DMatterport3D上证明了其有效性,特别是在户外WildPASS上提升了+2.2%的性能,在室内Stanford2D3D上提升了+2.4%mIoU

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Open Panoramic Segmentation

  • 论文地址:https://arxiv.org/abs/2407.02685
  • 论文代码:https://junweizheng93.github.io/publications/OPS/OPS.html

Introduction


全景成像系统在最近几年显著发展,这促进了多种全景视觉应用的产生。由于全面的360°视场,全天候全景图在感知周围环境时提供了更丰富的视觉线索,在广泛的场景理解任务中,使环境数据的捕获更加完整和沉浸,这对深入的场景理解至关重要。这种广角视角超越了针孔图像的有限范围,显著增强了计算机视觉系统在各种应用中感知和解析环境的能力。尽管与针孔图像相比,利用全景图像在计算机视觉应用中的好处显而易见,但必须不断考虑一些值得注意的挑战,具体如下:

  1. 更广的视场挑战。例如,图1a展示了随着视场扩大,最先进的开放词汇语义分割方法的性能下降情况,即从针孔图像到360°全景图像。在这一过程中,观察到了超过 12 % 12\% 12%mIoU性能下降,表明了狭窄与宽广图像之间的语义和结构信息巨大差异所带来的挑战。
  2. 类别的限制。传统的封闭词汇分割任务范式仅提供有限数量的标注类别,这无法处理现实应用中不可估量的类别数量。图1b展示了封闭词汇分割与开放词汇分割之间的区别。与封闭词汇设置(第一行)相比,开放词汇设置(第二行)不受数据集类别数量的限制。在封闭词汇设置中,仅识别四个预定义的类别(以不同颜色突出),相对而言,开放设置中的每个全景像素都有其自有的语义意义,尽管数据集中没有对这些类别进行标注。

为了进一步释放全景图像的巨大潜力,有三个关键问题亟待解决:

  1. 如何通过单张图像获得整体感知?
  2. 如何突破现有全景数据集中有限可识别类别的障碍,以便下游视觉应用能够从无限制的信息视觉提示中受益?
  3. 如何应对全景标签的稀缺?

基于上述三个问题,论文提出了一项新任务,称为开放全景分割(Open Panoramic SegmentationOPS),旨在全面解决这些挑战,更好地利用全景图像所带来的优势。新任务范式如图1c所示。开放全景分割任务考虑到三个问题的三个重要元素,“开放”的概念是三重的:全天候全景图像(开放视场),无限制的可识别类别范围(开放词汇)。此外,模型是在源域中使用针孔图像训练,而在目标域中评估使用全景图像(开放域)。考虑到密集标注的针孔分割标签与全景标签相比成本较低,因此开放不同领域是具有成本效益的。请注意,OPS与领域自适应(Domain AdaptationDA)不同。在DA的训练背景下,数据的利用包括源域和目标域,而在OPS中,整个训练过程中完全依赖于仅来源于源域的数据。

除了新任务,论文提出了一种名为OOOPS的新模型,以应对OPS任务中提到的三个与开放性相关的挑战。该模型由一个冻结的CLIP模型和一个关键组件——可变形适配器网络(Deformable Adapter NetworkDAN)组成,后者具有两个重要功能:(1) 高效地将冻结的CLIP模型适配到全景分割任务中,(2) 解决全景图像中的物体变形和图像失真。更具体而言,DAN的关键组件——新型可变形适配器操作符(Deformable Adapter OperatorDAO)旨在应对全景失真。为了提高模型对针孔源域失真感知的能力,论文进一步引入了随机等距投影(Random Equirectangular ProjectionRERP),专门设计用来解决物体变形和图像失真。针孔图像被分割成四个图像块,并随机打乱。接着,在打乱后的图像中引入了等距投影,这是一种将球体映射到全景平面上的常用方法。OOOPS模型搭配RERPWildPASSStanford2D3DMatterport3D上分别超越了其他最先进的开放词汇分割方法,mIoU提高了+2.2%+2.4%+0.6%

总结来说,论文提出了以下贡献:

  1. 引入了一项新任务,称为开放全景分割(open panoramic segmentation,简称OPS),包括开放视场(Open FoV)、开放词汇(Open Vocabulary)和开放领域(Open Domain)。模型在源域中使用视场受限的针孔图像以开放词汇设置进行训练,而在目标域中使用视场开放的全景图像进行评估。

  2. 提出了一种名为OOOPS的模型,旨在同时解决三个与开放性相关的挑战。提出了一个可变形适配器网络(Deformable Adapter NetworkDAN),用于将冻结的CLIP模型的零样本学习能力从针孔领域转移到不同的全景领域。

  3. 一种新颖的数据增强策略,称为随机等矩形投影(Random Equirectangular ProjectionRERP),专门为所提出的OPS任务设计,进一步提高了OOOPS模型的准确性,在开放全景分割任务中实现了最先进的性能。

  4. 为了对OPS进行基准测试,在室内和室外数据集(WildPASSStanford2D3DMatterport3D)上进行了全面评估,涉及超过10个近词汇和开放词汇的分割模型。

Methodology


Open Panoramic Segmentation

开放全景分割(OPS)任务旨在解决三个具有挑战性的问题:

  1. 狭窄的视场(FoV
  2. 类别范围的限制
  3. 全景标签的匮乏

OPS对上述问题给出了三个解答:

  1. 开放视场
  2. 开放词汇
  3. 开放领域

OPS任务范式如图1c所示。模型在狭窄视场的针孔源领域中以开放词汇的设置进行训练,而在宽视场的全景目标领域中进行评估。

Model Architecture

基础模型可以通过使用适配器高效地转移到下游任务。为了提高全景建模能力,论文设计了OOOPS模型。如图2所示,它由一个冻结的CLIP模型和一个提出的可变形适配器网络(DAN)组成,后者结合了多个变换层和新颖的DAO。特征融合发生在CLIPDAN的中间层之间。DAN的两个输出之一包含掩膜提议,而另一个则作为深度监督指导,帮助CLIP生成提议的logits

在训练阶段,针孔图像被输入到OOOPS中,生成掩膜提议和用于损失计算的提议logits。在推理阶段,全景图像被输入到OOOPS中,通过掩膜提议与相应提议logits的乘积生成分割预测。冻结的CLIP对于OOOPS的零样本学习能力是必要的。

Deformable Adapter Network

可变形适配器网络是多个变换层与提出的DAO的结合。由于全景图像中存在失真,这在利用信息丰富的全景图像时是一个巨大的挑战。论文深入探讨了可变形设计和采样方法,如APESMateRobot,提出了DAO以应对全景图像的失真和物体变形。

  • Revisiting DCN Series

开创性工作DCN可以赋予传统CNN空间变形感知的能力。给定一个具有 K K K 个采样位置的卷积核,设 w k \mathbf{w}_k wk p k \mathbf{p}_k pk 分别表示第 k k k 个位置的权重和预设偏移。例如, K = 9 K{=}9 K=9 p k ∈ { ( 1 , 1 ) , … , ( − 1 , − 1 ) } \mathbf{p}_k {\in} \{(1,1), \ldots, (-1,-1)\} pk{(1,1),,(1,1)} 定义了一个膨胀率为 1 1 1 3 × 3 3{\times}3 3×3 卷积核。让 x ( p ) \mathbf{x}(\mathbf{p}) x(p) y ( p ) \mathbf{y}(\mathbf{p}) y(p) 分别表示输入特征图 x \mathbf{x} x 和输出特征图 y \mathbf{y} y 在位置 p \mathbf{p} p 的特征。DCN的公式化为:

y ( p ) = ∑ k = 1 K w k x ( p + p k + Δ p k ) , \begin{equation} \mathbf{y}(\mathbf{p}) = \sum^K_{k=1}\mathbf{w}_k\mathbf{x}(\mathbf{p}+\mathbf{p}_k+\Delta\mathbf{p}_k), \end{equation} y(p)=k=1Kwkx(p+pk+Δpk),

其中 Δ p k \Delta\mathbf{p}_k Δpk 是第 k k k 个位置的可学习偏移。尽管DCN能够捕捉空间变形,但在计算局部特征时,每个采样位置被视为相同。DCNv2的提出增加了一个称为调制标量的附加项。具体而言,DCNv2可以表示为:

y ( p ) = ∑ k = 1 K w k m k x ( p + p k + Δ p k ) , \begin{equation} \mathbf{y}(\mathbf{p}) = \sum^K_{k=1}\mathbf{w}_k\mathbf{m}_k\mathbf{x}(\mathbf{p}+\mathbf{p}_k+\Delta\mathbf{p}_k), \end{equation} y(p)=k=1Kwkmkx(p+pk+Δpk),

其中 m k \mathbf{m}_k mk 是第 k k k 个位置的可学习调制标量。受Transformer的启发,DCNv3提出了一种分组操作,进一步增强了DCNv2的变形感知能力。DCNv3可以用以下公式表示:

y ( p ) = ∑ g = 1 G ∑ k = 1 K w g m g k x g ( p + p k + Δ p g k ) , \begin{equation} \mathbf{y}(\mathbf{p}) = \sum^G_{g=1}\sum^K_{k=1}\mathbf{w}_g\mathbf{m}_{gk}\mathbf{x}_g(\mathbf{p}+\mathbf{p}_k+\Delta\mathbf{p}_{gk}), \end{equation} y(p)=g=1Gk=1Kwgmgkxg(p+pk+Δpgk),

其中 G G G 表示聚合组的总数。DCNv4DCNv3类似,能够实现相似的性能,同时显著减少运行时间。

  • Deformable Adapter Operator (DAO)

在处理全景图中的畸变时,DCNv3DCNv4未能满足变形感知的要求。因此,提出了DAO来利用以下表达式解决全景图像中的畸变问题:

y ( p ) = s ( p ) ∑ g = 1 G ∑ k = 1 K w g m g k x g ( p + p k + Δ p g k ) , \begin{equation} \mathbf{y}(\mathbf{p}) = \mathbf{s}(\mathbf{p})\sum^G_{g=1}\sum^K_{k=1}\mathbf{w}_g\mathbf{m}_{gk}\mathbf{x}_g(\mathbf{p}+\mathbf{p}_k+\Delta\mathbf{p}_{gk}), \end{equation} y(p)=s(p)g=1Gk=1Kwgmgkxg(p+pk+Δpgk),

其中 s ( p ) \mathbf{s(\mathbf{p}}) s(p) 是位置 p \mathbf{p} p 处的可学习显著标量。DAO继承自DCNv3,提出了一个额外的项,称为显著标量,以指示全景图中每个像素的重要性。值得注意的是,DCNv3DCNv4共享相同的数学表达式,但根据设计DAO之前的实验,DCNv3更为稳健。因此,论文选择将DCNv3作为DAO的一部分,而不是DCNv4

如图2所示,通过DCNv3输出的特征图依次经过Patch相似性层、归一化层和标准差层,以形成显著图。这种设计的直觉是简单明了的:图像中的显著像素是那些与其邻近像素有显著区别的像素,例如边缘像素。如果一个图像块中的所有像素都不同,则该块内像素相似性的标准差将高于包含相似像素的块,从而导致更高的显著标量。

3更详细地解释了显著图的生成过程。给定一个特征图,DAO首先计算中心像素与卷积核内所有像素之间的余弦相似度,例如,图3中的 3 × 3 3 \times 3 3×3 卷积核内的 9 9 9 个像素,结果是一个 9 9 9 维的余弦相似度向量。然后对该向量应用Softmax归一化。随后,DAO计算这个归一化余弦相似度向量的标准差,以指示中心像素的重要性。通过遍历整个特征图中的每个像素,生成一个显著图,以增强通常是图像边缘像素的显著性,在这些位置常常会发生强烈的全景畸变。

Random Equirectangular Projection

等距矩形投影(ERP)是将球体映射到全景平面最常见的方法之一,它将球面坐标转换为平面坐标,如下所示:

x = R ( λ − λ 0 ) c o s ( φ 1 ) , y = R ( φ − φ 0 ) , \begin{align} &x = R(\lambda-\lambda_0)cos(\varphi_1), \\ &y = R(\varphi-\varphi_0), \end{align} x=R(λλ0)cos(φ1),y=R(φφ0),

其中 λ \lambda λ φ \varphi φ 分别是要投影位置的经度和纬度。 φ 1 \varphi_1 φ1 是标准纬线。 λ 0 \lambda_0 λ0 φ 0 \varphi_0 φ0 分别是地图的中央子午线和中央纬线。 R R R 是球体的半径。 x x x 表示投影位置在地图上的水平坐标, y y y 表示垂直坐标。

4a可视化了全景平面上的等距矩形投影。可以观察到,在等距矩形投影后,全景图中出现了强烈的畸变,例如,直线被转换为曲线。为了进一步提高性能,论文在针孔图像上提出了随机等距矩形投影(RERP),因为OPS任务要求模型使用针孔图像进行训练,而不是全景图像。

将针孔图像分成四部分,并随机打乱图像块,随后对无畸变的针孔图像应用等距矩形投影。图4b可视化了经过随机等距矩形投影(RERP)后的针孔图像。第一列是未进行任何数据增强的针孔图像。第二列是未进行随机打乱的针孔图像上的等距矩形投影(ERP)。最后一列是论文提出的随机等距矩形投影(RERP)。可以观察到,在经过RERP后的针孔图像中也出现了类似全景的畸变。随机打乱用于增强鲁棒性并促进泛化。

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2202317.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软考《信息系统运行管理员》- 4.2信息系统软件运维的管理

4.2信息系统软件运维的管理 管理流程 信息系统软件运维服务的四个关键要素是:人员、资源、技术和过程,每个要素通过关键 指标反映运维服务的能力。 人员 确保提供信息系统软件运维服务的相关人员具备应有的运维服务能力,主要从人员管理、 …

掌握未来:2025年秋招LLM及多模态模型面试精华

目录 大模型常用微调方法LoRA和Ptuning的原理介绍Stable Diffusion的原理为何现在的大模型大部分是Decoder-only结构如何缓解LLMs复读机问题为什么Transformer块使用LayerNorm而不是BatchNormTransformer为何使用多头注意力机制监督微调SFT后LLM表现下降的原因微调阶段样本量规…

【大数据】Spark弹性分布式数据集RDD详细说明

文章目录 整体介绍一、定义与特性二、操作与转换三、存储级别与持久化四、依赖关系与容错机制五、优化与性能调优 常见操作支持的数据格式1.文本文件 (Text Files)2. CSV 文件3. JSON 文件4. Parquet 文件5. Sequence Files6.Hadoop文件读取A. 读取HDFS上的文本文件B. 使用Hado…

深度学习基础—人脸识别

在人脸识别领域,常常有两个词容易被混淆,人脸验证和人脸识别。人脸验证是输入一个人的照片和名字(或者ID),验证这个人是否和名字相符。人脸识别是输入一个人的照片,识别这个人是否是数据库中存在的人。人脸…

VScode中配置可编写C/C++代码

VScode的下载 下载地址:https://code.visualstudio.com/ 安装中文插件 重启后,生效!!! 下载和配置MinGW-w64 https://github.com/niXman/mingw-builds-binaries/releases 这里可以自行选择线程模型WIN32或posix&a…

【Linux报错】“-bash: cd: too many arguments“

问题描述 今天使用 cd 想要调整某个文件目录时,发现以下报错 原因分析: arguments 是参数的意思,该报错提示参数过多,意味着系统识别到了多余参数 本质原因:你的命令中输入了多余的 ”空格“ ,检查一…

手写Spring第三篇番外,反射的基本使用

上一篇发出去之后,我有一个朋友说 beanDefinition.getBeanClass().newInstance() 这句代码太突兀了,就像是在甜甜的睡梦中,突然脚踩悬崖惊醒。 像我这种插朋友两刀的人必须安排了,不止安排 newInstance 还把反射基本用法也给安排了…

耳夹式耳机哪个品牌音质好?耳夹式蓝牙耳机排行榜!

当下,耳夹式蓝牙耳机愈发受到大众的青睐。不管是在上下班的途中、进行运动锻炼之时,还是休闲居家的日子里,这种耳机都能为使用者带来极为便捷的体验。不过,市面上的耳夹式蓝牙耳机品牌繁杂多样,产品品质也是良莠不齐&a…

【win10】VMware Workstation 16安装win10专业版及安装VMware Tools操作说明

参考链接 VMware虚拟机安装win10系统教程(巨细)_vmware安装win10-CSDN博客https://blog.csdn.net/gdidea/article/details/129523700 win10专业版安装说明 下载win10安装包 百度网盘 链接: https://pan.baidu.com/s/1kf4ORdXYgcqwAz2j86LSZw?pwdk4…

MySQL(八)——索引

文章目录 索引索引的数据结构索引的具体结构页的概念独立表空间文件页的结构页文件头和页文件尾页主体页目录数据页头 B树在索引中的应用索引分类按数据结构分按字段特性分按物理存储分按字段个数分 索引语法创建索引查看索引删除索引 索引优化SQL执行频率慢查询日志profile详情…

【机器学习导引】ch3-线性模型-2

优化理论:梯度下降(Gradient Descent) 梯度下降法的基本思路 梯度下降法是一种优化算法,目的是找到函数 f ( x ) f(x) f(x) 的最小值。图中提到“如果能找到一个序列 x 0 , x 1 , x 2 , … x_0, x_1, x_2, \dots x0​,x1​,x2​…

有手就会!低代码让你告别繁琐开发流程

近几年,随着低代码与无代码相关话题的火热,逻辑编排作为其重要构成部分也备受关注,集团内外不乏优秀的实践。之前在做技术调研时发现了不少业内逻辑编排相关的方案,陆续整理记录下来。今天先为大家带来低代码开发领域的 JNPF。 1.…

如何有效恢复受污染除砷树脂的功能?

在半导体制造领域,砷是一种常见的杂质元素。然而,砷的存在不仅会严重影响芯片的性能和可靠性,还会对生产环境和人体健康构成威胁。通过使用高效的除砷树脂,可以有效地去除水中的砷元素。 然而,一旦除砷树脂受到污染&am…

一个月学会Java 第10天 详讲static和面向对象——继承与Java世上最厉害的IDE——IDEA

Day10 详讲static和面向对象——继承与Java世上最厉害的IDE——IDEA 今天的篇幅会比较长,因为牵扯到不少的内容还有面向对象的内容 第一章 static 首先我们先来填一下坑,之前挖的,说后面要详细讲解static这个关键字的作用,那在这之…

二叉树的构建与遍历

在介绍二叉树的篇章中,我们用方法简单创建了一个二叉树,如下代码: public treeNode creattree(){treeNode Anew treeNode(A);treeNode Bnew treeNode(B);treeNode Cnew treeNode(C);treeNode Dnew treeNode(D);treeNode Enew treeNode(E);tr…

新大话西游图文架设教程

开始架设 1. 架设条件 新大话西游架设需要准备: linux 系统服务器,建议 CentOs 7.6或以上版本游戏源码,。 2. 安装宝塔面板 宝塔是一个服务器运维管理软件,安装命令: yum install -y wget && wget -O in…

zabbix7.0配置中文界面

Zabbix 是一个广泛使用的开源监控解决方案,支持多种语言界面。本文将详细介绍如何配置 Zabbix 以使用中文界面,从而提高用户体验和可读性。 1. 环境准备 在开始配置之前,请确保你已经安装并运行了 Zabbix 服务器、前端和数据库。如果你还没有…

成品婚恋交友相亲源码打包APP小程序H5公众号可打包小程序APP公众号H5源码交付支持二开

聊天交友系统开发专业语聊交友app开发搭建同城交友源码开发婚恋交友系统相亲app小程序H5婚恋交友小程序的定制开发与行业新机遇婚恋交友app红娘连线系统app小程序开发一站式开发系统源码:婚恋交友H5与小程序开发详解 电商运营技术服务源码系统php相亲交友平台APP婚恋…

前端优化之路:git commit 校验拦截

但是想要做到高效落地执行,就需要做些别的功课,先展示下成果图 需要了解git hooks,它是git的钩子,就像vue拥有自己的钩子一样。 官方文档:https://git-scm.com/docs/githooks 项目安装 husky,建议稳定版本…

Linux进程间通信(个人笔记)

Linux进程通信 1.进程通信介绍1.1进程间通信目的1.2进程间通信发展1.3进程间通信的具体分类 2.管道2.1匿名管道2.1.1代码实例2.1.2 fork共享管道原理2.1.3 管道的读写规则与特点2.1.4 进程池 2.2 命名管道2.2.1 命名管道的创建2.2.2匿名管道与命名管道的区别2.2.3代码实例 3.Sy…