跨多场景帧重建DENSER:使用小波估计进行城市动态场景重构

news2024/9/28 23:46:52

Abstract

本文提出了一种名为DENSER的高效方法,该方法利用三维高斯点云(3DGS)技术来重建动态城市环境。尽管通过神经辐射场(NeRF)隐式方法和3DGS显式方法的若干场景重建技术在较复杂的动态场景中展示了出色的效果,但在建模前景物体的动态外观时仍存在挑战,特别是在处理远距离动态物体时。为此,我们提出了DENSER框架,该框架显著增强了动态物体的表现能力,能够精准建模驾驶场景中的动态物体外观。与直接使用球谐函数(SH)建模动态物体外观的方法不同,我们提出了一种基于小波动态估计SH基函数的新方法,从而在时空上实现了更优的动态物体外观表现。除了物体外观的建模,DENSER通过多个场景帧对点云进行稠密化处理,提升了物体形状的表现能力,并加速了模型训练的收敛。我们在KITTI数据集上的广泛评估表明,该方法在性能上远超现有最先进的技术。

代码地址:https://github.com/sntubix/denser

 欢迎加入自动驾驶实战群

Introduction

从图像中建模动态3D城市环境具有广泛的应用,包括构建城市级别的数字孪生体和模拟环境,这些应用可以显著降低自动驾驶系统的训练和测试成本。这些应用要求高效且高保真的3D环境表示以及能够实时渲染高质量新视角的能力。模拟在开发和优化自动驾驶功能中至关重要,因为它提供了一个可控、安全且具有成本效益的测试环境。尽管传统模拟工具如CARLA、LGSVL和DeepDrive加速了自动驾驶的发展,它们都存在一个共同的限制,即与现实的差距大(sim-to-reality gap)。这种差距源于资产建模和渲染的局限性,限制了基于模型的模拟工具完全复制现实世界复杂性的能力。

为了缩小这一差距,基于NeRF和3DGS的数据驱动和逼真的技术在3D场景重建中展示了显著的能力,实现了视觉和几何上的高度真实的保真度。虽然NeRF和3DGS在静态和小规模场景的重建中表现优异,但对高度动态和复杂的大规模城市场景的重建仍是一个重大挑战。

本文提出的DENSER是一个基于场景图的框架,显著增强了动态物体的表现能力,并能够准确建模驾驶场景中动态物体的外观。与直接使用球谐函数(SH)建模动态物体外观不同,我们引入了一种基于小波动态估计SH基函数的新方法,从而在时空上实现了更优的动态物体外观表现。实验结果表明,DENSER在KITTI数据集上实现了出色的场景分解效果。

3.框架与方法

A. 预备知识

3DGS通过有限数量的3D各向异性高斯分布

图片

明确地表示场景,每个由5元组

图片

定义,

图片

表示其质心,

图片

是尺度向量,

图片

是旋转矩阵,

图片

是透明度,

图片

是与视图相关的颜色,通常用一组球谐函数(SH)系数表示。高斯占据的3D体积可以表示为

图片

高斯

图片

的协方差矩阵Σ可以通过旋转矩阵𝑅和尺度向量𝑆分解为

图片

为了渲染,这些3D高斯分布被投影到2D,它们的协方差矩阵也随之转化。这包括使用仿射近似的投影变换的雅可比矩阵和视图变换𝑊计算出一个新的相机坐标系中的协方差矩阵。

图片

像素颜色𝑐通过使用𝑁阶2D斑点及透明度混合计算

图片

尽管3DGS在静态和以物体为中心的小场景中表现良好,但在处理包含瞬时对象和不断变化外观的场景时存在挑战。本文提出了一种通过动态估计SH系数来建模动态对象外观的框架,该方法使用小波函数从而在空间和时间上更好地表示动态对象外观。

B. 场景图表示

如图2所示,提出的框架基于场景图表示,它同时包含静态背景和动态对象。在DENSER中,场景分解为代表环境中静态实体(如道路和建筑物)的背景节点和代表场景中动态对象(例如车辆)的对象节点。每个节点都由一组3D高斯分布表示,如第III-A节所述,每个节点分别进行优化。背景节点直接在世界参考系𝑊中优化,而对象节点则在它们的对象参考系中优化,可以转换到世界参考系。所有背景节点和动态对象节点的高斯分布进行合并渲染。

图片

图片

为表示背景节点的3D高斯分布集,

图片

为表示对象𝑖在其参考系中的3D高斯分布集。给定对象𝑖的轨迹

图片

,可以提取表示对象𝑖在时间𝑡处位置和方向的姿态变换矩阵

图片

。假设对象的几何形状在不同姿态下没有变化,可以通过使用齐次变换矩阵

图片

图片

转换到世界参考系。

图片

用于渲染的所有高斯分布集可以通过将静态背景节点的高斯分布集和经过转换的动态对象节点的高斯分布集进行拼接得到,

图片

其中𝑗=0表示背景,即

图片

,其余高斯分布集为动态对象节点的高斯分布集。

C. 场景分解

本文通过增强瞬时对象外观建模来改进现有的3DGS复合场景重建,生成更真实和一致的场景表示。DENSER的输入为𝑛帧序列。帧由𝑚个跟踪对象集、传感器姿态,LiDAR点云,相机图像集,以及可选的深度图组成,i∈{1,2,…,n}。每一帧中的对象,

图片

,通常由边界框、跟踪标识符和对象类别定义,j∈{1,2,…,m}。基于这些输入,DENSER首先在世界参考系𝑊中累积所有帧的点云,并使用对象边界框过滤前景对象的点。生成的点云

图片

,用于初始化背景

图片

的3D高斯分布,包括位置,透明度,协方差矩阵,以及对应的旋转矩阵

图片

和尺度。

此外,背景中的每个高斯分布分配了一组SH系数

图片

图片

,其中𝑈和𝑉由定义视图相关颜色的SH基阶数决定,

图片

,θ和𝜙定义了视图方向。对于静态场景,原始3DGS已经能够高效地表示场景,但在包含动态实体和变化外观的场景中,它表现不佳。仅使用SH系数表示瞬时对象的外观往往是不足的。主要原因是SH对场景中对象位置变化的敏感性,以及这些运动引起的阴影和光照变化。为了保持一致的视觉外观,DENSER通过(i)在不同帧之间的对象点云密集化来解决这一问题,这不仅确保了3D高斯分布初始化的强先验,还减轻了姿态校准误差和数据集中的噪声测量。使用传感器姿态变换矩阵和LiDAR点云,可以通过对象的边界框定义的ROI过滤器获取对象𝑗在帧𝑖的点云

图片

。跨所有帧拼接后得到的密集点云

图片

用于初始化。(ii) 我们使用SH基的时间依赖近似,通过带有可优化的尺度和平移参数的正交小波基捕捉动态对象的变化外观。在DENSER中,使用Ricker小波。

图片

where a 是尺度参数,τ = t − b,b 是平移参数。物体 j 的 SH基函数

图片

,使用子小波的线性组合来近似,公式如下

图片

其中,d 是小波基的维度,也是一个可优化的参数。小波即使在有限维度的小波基下,也能捕捉到高频内容,因此在捕捉动态物体细节以及变化的外观上表现显著。本文的创新贡献主要体现在 (i) 和 (ii) 两个方面。

D. 优化

为了优化我们的场景,我们采用了一个复合损失函数 L,定义如下

图片

其中,

图片

代表重建损失,确保预测图像 Ipred 与真实图像密切匹配。通过 L1 损失和结构相似性指数(SSIM)损失的组合来实现这一点。L1 损失为

图片

,而 SSIM 损失

图片

图片

,其中 SSIM 衡量两张图像之间的相似性,考虑到亮度、对比度和结构的变化。SSIM 评估图像质量,并对结构信息更为敏感。总的颜色损失 Lcolor 通过 L1 和 LSSIM 定义为

图片

。其中是一个参数,用于鼓励  和 

图片

之间的结构对齐。

图片

是单目深度损失,确保预测的深度图与观察到的深度信息一致。该项有助于保持场景的几何一致性。深度损失

图片

计算为预测深度

图片

与真实深度

图片

图之间的 L1 损失,即

图片

。Laccum 是累积损失,用于惩罚累积的物体占用概率偏离期望分布的情况。具体而言,它包括一个基于熵的损失,以确保每个物体的占用概率均衡分布,公式为

图片

,其中 β 代表物体占用概率。这个复合损失函数促进了外观、几何形状和占用概率的同时优化,确保场景的连贯和逼真的重建。

Experiment

1 结果与评估

我们对比了我们的方法与其他最先进方法的定性和定量结果。这些方法包括:

(1)NSG ,它使用多平面图像表示背景,并利用每个物体学习的潜在编码与共享解码器来建模移动物体。
(2)MARS ,它基于 Nerfstudio [31] 构建场景图。
(3)3D Gaussians ,用一组各向异性高斯来建模场景。
(4)StreetGaussian ,它将前景和背景表示为复合3D高斯。

表 1 展示了我们的方法与基线方法的定量对比结果。由于我们严格遵循 MARS 和 StreetGaussians(SG)中的相同程序和设置,因此我们可以合法地引用它们的结果进行比较。渲染图像分辨率为 1242×375。我们的方法显著优于之前的方法。图像重建设置中的训练集和测试集是相同的,而在新视角合成中,我们渲染不包含在训练数据中的帧。具体来说,在 75% 切分中,我们保留每四帧中的一帧,在 50% 切分中,我们保留每两帧中的一帧,而在 25% 切分中,只有每四帧用于训练,这样训练集分别占据 25%、50% 和 75% 的数据。我们采用了 PSNR、SSIM 和 LPIPS 作为度量指标来评估渲染质量。我们的模型在所有指标上都取得了最好的表现。实验结果表明,DENSER 在重建动态场景方面表现优异,显著优于基线方法。结果显示,在峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)指标上有显著提升,详细见表 1。PSNR 和 SSIM 的改进强调了我们基于小波的方法在复杂环境中保持高保真度和结构完整性的有效性。此外,DENSER 在重建细节方面表现出色,例如在场景 0006 中卡车后方的阴影(如图 3 所示),而其他基线方法无法做到这一点。

图片

图片

2. 场景编辑应用

DENSER 实现了逼真的场景编辑,例如交换、平移和旋转车辆,以创建多样且逼真的场景。这种多功能性使得自动系统能够提升其性能,并增强其在处理复杂现实世界条件时的能力,从日常交通到紧急情况。

物体移除:要移除一个物体,我们只需构建一个删除掩码,有效过滤掉与待移除物体相关的高斯参数。删除掩码随后应用于训练模型的高斯参数,移除与不需要物体相关的属性,如图 5 所示。

图片

物体交换:在我们的表示框架中交换车辆是一个简单的过程,只需交换与两个目标车辆关联的唯一轨迹 ID。这种操作会动态改变场景,其中一个车辆将假定与其交换车辆的空间属性,特别是位置和方向,如图 6 所示。

图片

物体旋转和平移:我们通过动态调整物体在 3D 环境中的位置和朝向来实现旋转和平移修改。给定某一时间步 i 下的物体位置旋转矩阵,我们可以修改平移和旋转,以实现所需的运动操作。为了说明这一点,可以在运动平面内移动平移分量以实现平移,而对于旋转,我们可以围绕运动平面的法线改变旋转角度,并计算相应的新旋转矩阵,替换物体,如图 7 所示。

图片

轨迹改变:轨迹定义为一系列姿态。编辑场景以使物体沿着轨迹运动时,不仅可以在两个配置之间概括旋转和平移的变化,还可以将这种变化应用于时间段内,从而获得平滑的平移和旋转变化,正如图 8 所示。

图片

结论

1.本文提出了DENSER框架,使用小波动态估计SH基数,而不是直接使用球谐函数来建模动态对象的外观。这种方法更好地捕捉了动态对象在空间和时间上的外观变化,从而增强了对动态物体的表示能力。
2.DENSER通过跨多个场景帧的点云致密化来增强物体形状的表示,这有助于在模型训练过程中实现更快的收敛,从而提高了场景重建的效率。
3.DENSER在KITTI数据集上进行了广泛的评估,结果表明该方法在动态场景重建方面大幅超越了现有的最先进技术,证明了其有效性。

文章引用:DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

扫码加入自动驾驶实战知识星球,即可跟学习自动驾驶感知项目:环境配置,算法原理,算法训练,代码理解等。

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2175141.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PY32F002B

墨水屏: 前景和背景 在屏幕和图像处理中,前景和背景是两个重要的概念: 前景(Foreground): 指的是图像或屏幕上最显著的部分,通常是用户关注的主要内容。例如,在一张照片中&#xf…

【开源免费】基于SpringBoot+Vue.JS技术交流分享平台(JAVA毕业设计)

博主说明:本文项目编号 T 053 ,文末自助获取源码 \color{red}{T053,文末自助获取源码} T053,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

基于STM32热力二级管网远程监控系统设计(论文+源码)_kaic

摘 要 城市集中供热的运行管理中,热力二级管网作为供暖系统的重要的一环,通过对供热管网的远程集中监控、调节和对温度、压力、流量等参数的采集分析及处理,可以实现日常生产调度管理的自动化,提高运行管理效率。同时&#xff0c…

论文速递 | Management Science 8月文章合集

编者按 在本系列文章中,我们对顶刊《Management Science》于8月份发布文章中进行了精选(共9篇),并总结其基本信息,旨在帮助读者快速洞察行业最新动态。 推荐文章1 ● 题目:Optimal Mechanism Design with …

TikTok不符合推荐页资格是为什么?该如何解决?

TikTok推荐页,就是平台上的For You一栏,即是TikTok的核心功能之一,它会根据用户的兴趣和行为推送个性化内容。然而,并非所有视频都有机会进入推荐页。如果你在TikTok上发布的视频显示不符合推荐页的资格,那么很可能是由…

记一次因视频编码无法在浏览器播放、编码视频报错问题

起因 ... f cv2.VideoWriter_fourcc(*h264) ...我这边使用h264编码会提示 OpenCV: FFMPEG: tag 0x34363268/h264 is not supported with codec id 27 and format mp4 / MP4 (MPEG-4 Part 14) OpenCV: FFMPEG: fallback to use tag 0x31637661/avc1 [ERROR:02.711] global /i…

AI模型托管数量突破百万大关

B站:啥都会一点的研究生公众号:啥都会一点的研究生 AI圈又有哪些新鲜事? Hugging Face AI模型托管数量突破百万大关 AI托管平台Hugging Face迎来里程碑,其托管的AI模型数量已超过100万个,标志着AI产业的蓬勃发展。H…

Java_集合_双列集合_Map

第一章Map集合 Map是双列集合顶级接口 什么叫做双列集合:一个元素有两部分构成:key和value -> 键值对 1.1.HashMap 常用方法: V put(K key, V value) -> 添加元素,返回的是被替换的value值 V remove(Object key) ->根据key删除键值对,返回的是被删除的value…

Servlet——springMvc底层原理

我们也先了解一下什么的动态资源,什么是静态资源。 静态资源:无需程序运行就可以获取的资源(照片、html、css、js等) 动态资源:需要通关程序运行才可以获得的资源。 (其实动态、静态的资源都与Servlet有…

智慧水利综合解决方案

1. 智慧水利综合解决方案概述 智慧水利综合解决方案旨在通过集成先进技术,实现水利管理的智能化和高效化。该方案涵盖平台建设、业务系统建设和系统集成服务三大应用场景,通过数字孪生、GIS平台开发等技术手段,全面提升水利行业的管理能力和…

Android页面跳转与返回机制详解

在Android开发中,页面跳转是实现应用功能交互的重要手段之一。本文将从Activity之间的跳转、Activity与Fragment之间的跳转、Fragment之间的跳转以及页面返回的问题四个方面进行详细解析。 一、Activity之间的跳转 Activity是Android应用的基本构建块,…

【C++笔记】初始模版和STL简介

【C笔记】初始模版和STL简介 🔥个人主页:大白的编程日记 🔥专栏:C笔记 文章目录 【C笔记】初始模版和STL简介前言一.初始模版1.1泛型编程1.2函数模版1.3类模板 二.STL简介2.1什么是STL2.2STL的版本2.3STL的六大组件2.4STL的重要…

9.28作业

QQ登录界面的实现 代码展示 wight.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QLineEdit> #include <QPushButton> #include <QVBoxLayout> #include <QRadioButton> #include <QIcon> #include <QLabel>…

TypeScript介绍和安装

TypeScript介绍 TypeScript是由微软开发的一种编程语言&#xff0c;它在JavaScript的基础上增加了静态类型检查。静态类型允许开发者在编写代码时指定变量和函数的类型&#xff0c;这样可以在编译时捕获潜在的错误&#xff0c;而不是等到运行时才发现问题。比如&#xff0c;你…

优雅使用 MapStruct 进行类复制

前言 在项目中&#xff0c;常常会遇到从数据库读取数据后不能直接返回给前端展示的情况&#xff0c;因为还需要对字段进行加工&#xff0c;比如去除时间戳记录、隐藏敏感数据等。传统的处理方式是创建一个新类&#xff0c;然后编写大量的 get/set 方法进行赋值&#xff0c;若字…

讯飞星火编排创建智能体学习(二)决策节点

目录 概述 决策节点 文生图节点 连接节点 测试结果 概述 在上一篇博文讯飞星火编排创建智能体学习&#xff08;一&#xff09;最简单的智能体构建-CSDN博客&#xff0c;我介绍了编排创作智能体&#xff0c;这篇来介绍一下“决策节点”。 决策节点 在编排创作智能体中&…

YOLOv8最新改进2023 CVPR 结合BiFormer

1,原理部分 作为视觉转换器的核心构建块,衰减是捕获长距离依赖性的强大工具。然而,这种能力是有代价的:它会产生巨大的计算负担和沉重的内存占用,因为所有空间位置的成对标记交互都是计算的。一系列作品试图通过将手工制作和与内容无关的稀疏性引入 attention 来缓解这个问…

一文上手skywalking【上】

一、skywalking预览 1.1 skywalking 概述 ​ Apache SkyWalking, 适用于分布式系统的应用程序性能监控工具&#xff0c;专为微服务、云原生和基于容器的 &#xff08;Kubernetes&#xff09; 架构而设计。官方地址: https://skywalking.apache.org/ 适用于分布式系统的应用程…

从密码学看盲拍合约:智能合约的隐私与安全新革命!

文章目录 前言一、什么是盲拍合约&#xff1f;二、盲拍合约的优势1.时间压力的缓解2.绑定与秘密的挑战 三、盲拍合约的工作原理1.提交盲出价2.披露出价3.结束拍卖4.退款机制 四、代码示例总结 前言 随着区块链技术的发展&#xff0c;智能合约在各种场景中的应用越来越广泛。盲…

番外篇 | 复现AC-YOLOv5,进行自动化织物缺陷检测

前言:Hello大家好,我是小哥谈。我们提出了一种基于AC-YOLOv5的新型纺织缺陷检测方法。将空洞空间金字塔池化(ASPP)模块引入YOLOv5主干网络中,提出了squeeze-and-excitation(CSE)通道注意力模块,并将其引入到YOLOv5主干网络中。🌈 目录 🚀1.基础概念 🚀2.添…