PanoFlow:学习360°用于周围时间理解的光流

news2024/12/23 2:44:45

1.摘要:

光流估计是自动驾驶和机器人系统中的一项基本任务,它能够在时间上解释交通场景。自动驾驶汽车显然受益于360提供的超宽视野(FoV)◦ 全景传感器。

然而,由于全景相机独特的成像过程,为针孔图像设计的模型并不能直接令人满意地推广到360◦ 全景图像。本文提出了一种新的网络框架——PANOFLOW,用于学习全景图像的光流。为了克服等矩形投影在全景变换中引入的失真,我们设计了一种流失真增强(FDA)方法,该方法包含径向流失真(FDA-R)或等矩形流失真(FDA-E)。我们进一步研究了全景视频中循环光流的定义和性质,并在此提出了一种循环流估计(CFE)方法,该方法利用球面图像的循环性来推断360◦ 光流和将大位移转换为相对小的位移。PanoFlow适用于任何现有的流量估计方法,并受益于窄FoV流量估计的进展。

此外,我们创建并发布了一个基于CARLA的合成全景数据集FlowScape,以便于训练和定量分析。PanoFlow在公共OmniFlowNet和新建立的FlowScape基准上实现了最先进的性能。我们提出的方法将FlowScape上的终点误差(EPE)降低了27.3%。在OmniFlowNet上,PanoFlow实现了3.17像素的EPE,比最佳公布结果(7.12像素)降低了55.5%的误差。我们还通过户外采集车和公共的真实世界OmniPhotos数据集对我们的方法进行了定性验证,这表明我们的方法在真实世界导航应用中具有强大的潜力和稳健性。代码和数据集可在PanoFlow上公开获取https://github.com/MasterHow/PanoFlow

图1。(a) 由我们的移动感知系统捕获的原始全景环形图像,(b)-(c)针对360的真实世界周围视图提出的全景光流估计◦ 无缝的场景时间理解。

1.引言

  光学流量估计是自动驾驶的基本挑战之一[1]-[5]。流量估计提供了有关环境和传感器运动的信息,从而实现对世界的时间理解,这对许多机器人和车辆应用至关重要,包括场景解析、基于图像的导航、视觉里程计和SLAM[6]–[12]。随着球形相机的发展[13],全景图像现在更容易为360拍摄◦ 场景感知[14]-[16],并且由于类似的投影模型[17],可以更好地与激光雷达集成。然而,基于学习的方法一直专注于由基于针孔投影模型的相机产生的传统2D图像[18]–[20]。为具有窄视场(FoV)的相机设计的模型对于全面理解来说通常是次优的。将它们与360连接◦ 激光雷达还将直接导致固有的和领域适应问题[21]。因此,推断相机完整周围的光流的能力激发了360的研究◦ 流量估算。

与经典的线性图像不同,由于球面相机的等矩形投影(ERP),全景内容经常遭受严重失真[22]。

  对象将全景图像在不同纬度处发生不同程度的变形,使得目标图像和关注图像之间的流量估计更加困难。另一个关键问题在于球面边界的循环性,这意味着从源点到目标点有不止一条路径,通常有一条更短和更长的路径[23]。这两条路线在球体上形成一个大圈。换句话说,这两条路线的几何意义是相等的。然而,传统的基于学习的模型无法跟踪在图像边界之外移动的像素,因此别无选择,只能推断更难的长距离运动矢量,导致估计不太令人满意。

  为了解决这些问题,我们引入了一种新的全景流量估计框架——PANOFLOW,以直接从全景图像中估计密集流场。我们在两个不同的最先进的光流网络[19]、[20]上实现了PanoFlow,以验证所提出的框架的通用性。据作者所知,我们提出了第一种流失真增强(FDA)方法,该方法建立在对ERP引起的失真的深入了解之上,以增强对全景图像变形的鲁棒性

虽然失真增强用于全景场景解析[24],[25],但尚未在光流估计中进行研究,因为光流是2D矢量,这会带来进一步的挑战。与处理常数性质的传统几何增广方法不同,光流的畸变增广是不平凡的,它必须考虑光流的变化,因为光流的起点和终点会发生不同程度的畸变。通过将参与图像(关注图像和目标图像)和流场实况投影到畸变场上,我们提高了模型推广到变形区域的能力。

我们提出了两种增加流量畸变的变体:径向流量畸变(FDA-R)和等矩形流量畸变(FDA-E)。尽管FDA-E与一般ERP引入的失真一致,但考虑到针孔数据集的FoV较小,真正参与监督的像素数量减少了。

因此,我们还探讨了FDA-R在克服ERP失真中的作用。我们发现,尽管它们的变形模型并不完全相同,但FDA-R也提高了网络处理变形区域的能力。

从另一个失真自适应的角度来看,我们进一步建议通过用可变形卷积层替换编码器的第一层来解决失真[26]。所提出的FDA和可变形卷积使该模型能够处理特征全景图像失真和稳健的流量估计。作为一种新的数据增强方法,FDA是任何基于学习的光流网络的即插即用模块

此外,我们给出了适用于全景视频流的循环光流的标准定义,分析了循环光流特性,并将其与经典光流进行了比较。然后,我们基于先前的见解设计了一种循环流估计(CFE)方法,以利用全景图像的循环性,并将长距离估计转换为相对较短的距离估计。

CFE很好地缓解了模型在大位移估计中的应力,使模型能够专注于局部细粒度光流估计。CFE是一种通用的光流估计方法,因此可以受益于窄视场流量估计方法的进步。有趣的是,定量和定性结果都表明,与之前在立方体映射平面和二十面体切平面上迭代估计的最佳方法[23]相比,CFE方法简单但非常有效.

我们还计算了使用CFE方法前后精度随水平FoV变化的分布,发现CFE可以显著提高全景垂直边界附近的光流估计精度,这是全景流估计的一个独特困难。

此外,为了克服缺乏可用的全景训练数据的问题,并促进对360的研究◦ 理解后,我们建立并发布了一个新的街景合成全景流量估计基准——FlowScape。我们通过CARLA模拟器生成数据集[27]。FlowScape由6400张彩色图像、光流和像素级语义地面实况组成,由于动态天气、多样化的城市街景和不同类型的车辆,提供了一个与现实世界相似的环境。我们使用这个数据集来学习从全景内容推断流量。当只给出正向光流时,我们还分析了现有光流数据集[22]、[23]、[28]的真实质量,并根据观测结果确定了我们的评估数据集。

我们在已建立的FlowScape基准上进行了广泛的定量实验。与之前的最佳模型相比,PanoFlow在该数据集上的终点误差(EPE)降低了27.3%。此外,我们在公共OmniFlowNet数据集[22]上的方法的EPE与已发表的最佳结果(3.34像素对7.12像素)相比降低了55.5%。此外,一组全面的消融实验证明了所提出的FDA和CFE方法的有效性。我们还对公共的真实世界OmniPhotos数据集[29]进行了定性分析,以在真实世界的环境感知中验证我们的方法。为了进一步证明PanoFlow的泛化能力,我们还组装了一辆安装了全景环形透镜(PAL)系统的户外数据采集车。如图所示,PanoFlow为真实世界的周围场景提供了清晰、干净的全向光流估计。

总之,我们的主要贡献如下:•我们对360提出了严格的理论定义◦ 光流。

•我们介绍了流失真增强,这是一种用于光流网络的新数据增强方法,可以帮助模型学习捕捉变形区域的运动线索。

•我们提出了一种通用的循环流量估计方法,该方法可以根据连续全景的几何性质将大位移估计转换为相对较短的位移估计。

•我们生成FlowScape,这是一个新的公开可用的全景数据集,由各种合成街道场景组成,提供像素级的流量和语义基础真相。我们还评估了现有全景流量数据集的地面实况质量。

•我们的整个框架PANOFLOW在既定的FlowScape基准上以及公共OmniFlowNet数据集。实现了最先进的性能.

•PanoFlow在公共现实世界OmniPhotos数据集和我们捕获的户外全景视频流上都表现出强大的泛化能力。

2、相关工作
A.基于深度学习的光流估计

经典的光流估计方法[30]、[31]使用变分方法,基于亮度恒定性和空间平滑性来最小化能量。自从FlowNet[32]出现以来,已经出现了其他一些基于卷积神经网络(CNNs)[33]-[44]的工作。此外,还有一些自我监督的方法[45],[46]来学习闭塞的光流。这些方法中的大多数通常被设计用于拍摄有限成像角度的针孔相机

FlowNet[32]首先将光流估计视为一个学习问题。为了进一步提高光流的精度,FlowNet2.0[47]在多个级联的FlowNets之间引入了图像扭曲。由于FlowNet2.0[47]的模型尺寸较大,已经提出了许多方法来同时提高光流精度和减小模型尺寸。其中,PWC-Net[18]将经典的光流估计原理(包括金字塔处理、图像扭曲和成本量)与学习相结合。LiteFlowNet2[48]借鉴了经典变分光流方法中的数据保真度和正则化思想。RAFT[19]使用多尺度4D相关体积迭代更新光学流场,为了更好地将光流估计应用于自动驾驶系统,CSFlow[20]提出了一种新的光流深度网络架构,该架构由交叉带相关模块(CSC)和相关回归初始化模块(CRI)组成。此外,FlowFormer[49]用基于变换器的主干取代了RAFT架构中基于CNN的主干,这进一步提高了光流估计的准确性,同时将参数数量增加了三倍。相比之下,PanoFlow是一个全景光流框架,可以适用于任何具有编码器-解码器架构的光流网络。

B. FoV 以外的光流估计

随着越来越实惠、便携和精确的全景相机进入市场,360◦ 流量估计是迫切需要的,它可以提供广泛的FoV时间理解,为此开发了一些基于深度学习的方法。LiteFlowNet360[50]被设计为一个域自适应框架,以应对360中的固有失真◦ 由球体到平面投影引起的视频。他们在特征金字塔网络中采用卷积层的增量变换,将数据增强和自监督学习与目标域360相结合,以减少网络增长规模和计算成本◦ 视频。

OmniFlowNet[22]建立在专门研究透视图像的CNN模型上,然后应用于全向图像,而无需在新的数据集上进行训练,其卷积运算与矩形投影相统一,优于原始网络。

360投影◦ 图像到ERP图像是一个非线性映射,由此引起的失真将影响360◦ 因此,Yuan等人[23]提出了一种360◦ 基于切线图像的光流估计方法,包括对二十面体和立方体全景的数十次估计和细化。

总体而言,现有的基于学习的全景流方法在模型层面采用了固定的投影范式来处理ERP失真。考虑到细胞神经网络的局部偏向行为,这将降低模型对潜在视觉线索建模的能力,并导致不令人满意的性能。另一方面,切平面上的估计和细化引入了额外的计算成本,导致推理速度有限。最近,一项并行工作[51]也探讨了360◦ 通过siamese表示学习方案的光流,该方案具有精心设计的损耗和旋转增强,以采用现有的流网络。

与这些作品不同的是,我们处理了整个360中出现的图像失真和对象变形◦ 并利用连续全向数据的周期性来增强全景光流估计。

C.光流和全景感知数据集、

全景数据集在各种应用领域都是必需的,包括深度估计[52]-[54]、场景分割[55]-[57]和光流估计[22]、[23]、[28]。Stanford2D3D[58]是一个大型室内空间数据集,由具有实例级语义注释的规则数据和全景数据组成。

360D数据集[21]重复使用已发布的大规模3D数据集,并将其重新用于360◦ 通过渲染进行密集深度估计。PASS[24]提出了一个全景环形语义分割框架和相关的数据集,用于可信评估。DensePASS[59]介绍了一个具有标记和未标记360的数据集◦ 用于从无监督领域自适应的角度对全景语义分割进行基准测试的图像。KITTI360[60]由立体透视相机、一对鱼眼相机和一个用于启用360的激光扫描单元收集◦ 知觉WoodScape[61]包括多个环视鱼眼相机和多个任务,如分割和污垢检测。OmniScape数据集[62]包括语义分割、深度图、摄像头的固有参数和摩托车的动态参数。Waymo Open数据集[63]是一个用于全景图像分割的标记全景视频数据集。

为了提高光流估计的准确性,OmniFlow[64]是一个合成的全方位人类光流数据集,包含FoV为180的家庭活动图像◦. OmniFlowNet[22]使用基于Blender的简单几何模型,渲染全景光流的测试集仅用于验证。Replica360[23]为Replica渲染管道[65]实现了ERP相机模型,并包含用于验证的等矩形格式的地面实况光流,SynWoodScape[28]是一个合成鱼眼环绕视图数据集,具有用于逐像素光流和深度估计的地面实况。OmniPhotos[29]是一款快速360◦ 全景VR摄影方法,使用已发布的户外数据集,但无法获得光学的地面实况流,我们注意到,到目前为止,既没有针对户外复杂街道场景的全向图像数据集,也没有覆盖360◦ 可用于培训和评估。本文试图通过提出一个虚拟环境来填补这一空白,在这个虚拟环境中,一辆带全景摄像头的汽车在假设行人和车辆按照交通规则行驶的情况下行驶。表一关联并总结了当前包含地面实况光流的全景数据集。第四节将详细分析光流的地面实况质量。

表一:用于光流估计的现有全景数据集的比较

 图2。循环光流示意图。(a) 光流和循环光流在球面坐标系上形成一个互补的大圆,(b)等矩形图像上的循环光流具有相对较小的位移,并跨越全景的水平边界

3、 PANOFLOW:提出的框架
A. 360°的定义 光流

球形图像不包含任何边界,并且坐标在图像上的任何方向上都是连续的[22]。然而,在将球面图像展开为等矩形图像的过程中,自然会引入平行于子午线的边界,如图所示2。给定球体上的任何一个点A,它在时间t后移动到另一个点B。由于球体本身的循环性质,这两个点之间实际上有无限的弧轨迹,现在我们只考虑两个弧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1083579.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot+Vue前后端文件传输问题总结

SpringBootVue前后端文件传输问题总结 一、文件上传功能前端:文件上传1.File2.FormData(常用)3.Blob4.ArrayBuffer5.Base64 后端:文件接收1.MultipartFile 二、文件下载功能后端:文件传输前端:文件接收1.设…

动捕设备在动画影视制作中的应用

随着科技的发展,动画影视作品中的CG角色越来越逼真、生动形象,而这些CG角色大多背后是通过真人穿戴动捕设备,从而捕捉真人演员的肢体动作而创建的,如《遮天》作为国内首部全流程虚幻引擎5动画,结合动捕设备实现真人化动…

三相空气开关

一、三相空开的作用 三相空气开关对任意一相出现过载或短路,均起到保护作用。 二、三相空气开关原理图: 1、短路时,电磁脱钩器工作 2、过载时,发热元件引起双金属片弯曲,使脱钩器工作 3、测试按钮闭合时&#xff0c…

<图像处理> Fast角点检测

Fast角点检测 基本原理是使用圆周长为N个像素的圆来判定其圆心像素P是否为角点,如下图所示为圆周长为16个像素的圆(半径为3);OpenCV还提供圆周长为12和8个像素的圆来检测角点。 相对中心像素的位置信息 //圆周长为16 static c…

uni-app : 生成三位随机数、自定义全局变量、自定义全局函数、传参、多参数返回值

核心代码 function generateRandomNumber() {const min 100;const max 999;// 生成 min 到 max 之间的随机整数// Math.random() 函数返回一个大于等于 0 且小于 1 的随机浮点数。通过将其乘以 (max - min 1),我们得到一个大于等于 0 且小于等于 (max - min 1…

【ARM CoreLink 系列 7 -- TZC-400控制器简介】

文章目录 概述TZC-400 使用示例TZC-400 interfacesFPID & NSAIDRegionregion 检查规则 FeaturesRegister summaryTZC-400和TZPC和TZASC区别 转自:https://www.cnblogs.com/lvzh/p/16582717.html 概述 TZC-400对发送到内存或外设的事务执行安全检查。TZC-400使…

华为认证 | HCIP-Datacom,这门认证正式发布新版本!

华为认证数通高级工程师HCIP-Datacom-Campus Network Planning and Deployment V1.5(中文版)自2023年9月28日起,正式在中国区发布。 01 发布概述 基于“平台生态”战略,围绕“云-管-端”协同的新ICT技术架构,华为公司…

Visual Studio 2022 cmake编译 PP-OCRv4

1 环境准备 下载PaddleOCR PaddleOCR C 部署代码位于 PaddleOCR\deploy\cpp_infer目录下 paddle_inference paddle_inference opencv 这里使用已经安装好的opencv4.5.5下载dirent-master.zip 下载dirent-master.zip, 解压并复制dirent.h文件到PaddleOCR\deploy\cpp_infer目录下…

Spark(林子雨慕课课程)

文章目录 10. Spark10.1 Spark简介10.1.1 Spark简介10.1.2 Spark和Hadoop的对比 10.2 Spark生态系统10.3 Spark运行架构10.3.1 基本概念和架构设计 10.3.2 Spark运行基本流程10.3.3 RDD概念10.3.4 RDD特性10.3.5 RDD的依赖关系和运行过程 10.4 Spark SQL10.5 Spark的部署和应用…

video_topic

使用qt5,ffmpeg6.0,opencv,os2来实现。qt并非必要,只是用惯了。 步骤是: 1.读取rtsp码流,转换成mat图像 2.发送ros::mat图像 项目结构如下: videoplayer.h #ifndef VIDEOPLAYER_H #define VIDEOPLAYER_H#include …

【node】nodemailer配置163、qq等邮件服务指南

上一章 【node】发送邮件及附件简要使用说明 邮箱配置 参数配置参考如下: let transporter nodemailer.createTransport({host: smtp.qq.com,port: 465,secure: true,auth: {user: **********,pass: your-password} });邮箱服务提供商的要求,配置SM…

应用商店优化的好处有哪些?

应用程序优化优势包括应用在商店的可见性和曝光度,高质量和被相关用户的更好发现,增加的应用下载量,降低用户获取成本和持续增长,增加应用收入和转化率以及全球受众范围。 1、提高知名度并在应用商店中脱颖而出。 如果用户找不到…

麒麟操作系统提示“默认密钥环已上锁”的解决办法

在国产麒麟操作系统上,有的时候不知道为啥,打开vscode或者其他应用软件时,总是提示“密钥环已上锁”,该怎么处理呢? 需要点击“开始”,在搜索框中输入“password” 点击打开“密码和密钥”,看到如下图。 然后点击左上角的箭头,回退,打开如下图:

HTTP协议是什么

HTTP (全称为 “超文本传输协议”) 是一种应用非常广泛的 应用层协议,是一种网络通信协议。 超文本:所谓 “超文本” 的含义, 就是传输的内容不仅仅是文本(比如 html, css 这个就是文本), 还可以是一些其他的资源, 比如图片, 视频, 音频等二进制的数据。…

软件工程第六周

软件体系结构概述 体系结构:一种思想,而框架就是思想的实现,设计模式就是根据某一特殊问题实现的框架。 体系结构:体系结构是软件系统的高级结构。它定义了系统的主要组成部分,以及这些部分之间的关系和交互方式。 框…

压缩包格式可以转换吗?如何转换?

不知道大家会不会遇到需要转换压缩包格式的问题?如果需要转换压缩包格式,除了将文件解压出来之后,重新压缩以外,还有其他方法,今天将方法分享个大家: 工具:WinRAR 打开WinRAR,选中…

《Unity Shader 入门精要》笔记07

透明效果 为什么渲染顺序很重要Unity Shader的渲染顺序透明度测试透明度混合开启深度写入的半透明效果ShaderLab 的混合命令混合等式和参数混合操作常见的混合类型 双面渲染的透明效果透明度测试的双面渲染透明度混合的双面渲染 Unity中通常使用两种方法来实现透明效果&#xf…

华为云云耀云服务器L实例评测|使用redis事务和lua脚本

文章目录 云服务器的类型云服务优点redis一,关系型数据库(sqlserver,mysql,oracle)的事务隔离机制说明:redis事务机制 lualua脚本好处:一,怎么在redis中使用lua脚本二,脚…

vue3前端开发系列 - 项目框架搭建篇

文章目录 1. 项目初始化1.1 项目目录结构1.2 相关组件列表1.3 创建项目 2. 重置样式表3.设置路径别名4. 设置环境变量5.状态存储(Pinia)5.1 安装插件5.2 配置5.3 用户信息案例5.3.1 状态存储设置5.3.2 使用用户信息 6. 路由设置(Router)6.1 安装路由插件6.2 配置路由 7. 安装el…