ADGaussian:用于自动驾驶的多模态输入泛化GS方法

news2025/4/13 0:07:04

25年4月来自香港中文大学和浙大的论文“ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs”。

提出 ADGaussian 方法,用于可泛化的街道场景重建。所提出的方法能够从单视图输入实现高质量渲染。与之前主要关注几何细化的 gaussian Splatting 方法不同,其强调联合优化图像和深度特征以实现准确的高斯预测的重要性。为此,首先将稀疏 LiDAR 深度作为一种额外的输入模态,将高斯预测过程制定为视觉信息和几何线索的联合学习框架。此外,提出一种多模态特征匹配策略,结合多尺度高斯解码模型,以增强多模态特征的联合细化,从而实现高效的多模态高斯学习。在两个大规模自动驾驶数据集 Waymo 和 KITTI 上进行的大量实验表明, ADGaussian 实现最先进的性能,并在新视图转换中表现出卓越的零样本泛化能力。

最近,3D Gaussian Splatting (3DGS) [14] 因其实时渲染速度和高质量输出而在 3D 场景重建和新视图合成领域引起了广泛关注。一个关键应用是从图像序列建模街道场景,这在自动驾驶等领域起着至关重要的作用。

在对城市场景进行建模时,一些方法遵循逐场景优化技术 [4, 17, 48],尤其是 Street-Gaussians [38],它将动态城市街道表示为一组配备语义逻辑和 3D 高斯的点云。虽然逐场景优化方法在高质量重建方面表现出色,但它往往难以应对昂贵的训练成本和大范围的新视图合成。

为了实现可泛化的街道场景重建,大多数现有方法都建立在 Pix-elSplat [3] 或 MVSplat [6] 的架构之上。例如,GGRt [19] 引入一种无姿势架构来迭代更新多视图深度图,随后基于 PixelSplat 估计高斯基元。同样,GGS [9] 通过集成多视图深度细化模块增强 MVSplat 的深度估计。

尽管如此,基于多视图特征匹配的深度估计,可能会在无纹理区域和反射表面等具有挑战性的条件下失败。为了解决这个问题,并行工作 DepthSplat [36] 将 Depth Anything V2 [40] 中预训练的深度特征与多视图深度估计相结合,以实现准确的深度回归,其中估计的深度特征进一步用于高斯预测。鉴于 Depth Anything V2 强大的泛化能力,将 DepthSplat 扩展到城市街道场景是合理的。然而,DepthSplat 在应用于这些环境时面临特定的限制。首先,视觉渲染质量受到预训练深度模型的有效性限制。此外,即使在深度质量较高的情况下,直接将图像和深度特征连接起来进行高斯预测也会导致在复杂的自动驾驶情况下视觉重建不令人满意(如图所示)。

请添加图片描述

为此,提出一种多模态表示框架 ADGaussian,如上图所示,旨在增强街道场景中的几何建模和视觉渲染。

深度基础模型 [1、2、39、40、42] 已被集成到Gaussian Splatting 中以改进几何重建。然而,由于光度和几何线索之间的相互作用不足,这种框架的渲染质量往往不理想。为了解决这个问题,提出 ADGaussian,这是一种同步多模态优化架构,它将稀疏深度数据与单目图像相结合,以增强街景建模。

Gaussian Splatting 的深度基础模型

最近,DepthSplat 等工作已经研究使用预训练的深度基础模型进行图像条件 3D 高斯重建的优势,并充分利用其在各种真实世界数据集中的出色性能。所有这些方法都利用预训练的单目深度特征来增强最终的深度估计,从而提高高斯渲染的质量。

例如,DepthSplat 使用两个并行分支处理多视图图像 {Ii} 以提取密集的每像素深度。一个分支专注于从多视图输入中建模成本体的特征 Ci,而另一个分支采用预训练的单目深度主干,特别是 Depth Anything V2,以获得单目深度特征 F^i_mono。随后,将每视图成本体和单目深度特征连接起来进行 3D 高斯预测。

直观地说,这种模型可以轻松适应城市场景。尽管如此,重建的有效性在很大程度上取决于预训练的深度基础模型的性能,导致不同街道数据集和场景的准确性不一致。此外,图像和深度特征的处理总是在每个视图中并行进行,没有任何信息共享或同步优化,这限制了模型的学习能力。

多模态特征匹配

这里找到一种有效的方法,将稀疏的 LiDAR 深度集成到 Gaussian Splatting 中,充分利用多模态特征。为此,提出了一种针对城市场景定制的多模态特征匹配架构,以实现稀疏深度信息和彩色图像数据的同步集成。在此过程中,深度引导位置嵌入将深度线索纳入位置嵌入,增强 3D 空间感知并提高多模态上下文理解。

多模态特征匹配。如图所示,模型的核心是图像中的光度特征和深度数据几何线索的多模态特征匹配。这是通过 Siamese 式编码器和信息交叉注意解码器实现的,灵感来自 DUSt3R 系列 [18, 30]。

请添加图片描述

具体来说,单目图像 I 和同步稀疏深度图 S 以 Siamese 配置输入权重共享 ViT 编码器,产生两个 token 表示 F_I 和 F_S 。两个相同的编码器以权重共享的方式协作处理多模态特征,从而实现相似特征的自动学习。

之后,配备交叉注意的 Transformer 解码器用于增强两个多模态分支之间的信息共享和同步优化。此步骤对于生成融合良好的多模态特征图至关重要。

深度引导位置嵌入 (DPE)。 Vision Transformers 中的传统位置嵌入对 2D 图像平面上的相对或绝对空间位置进行编码,以确保图像内的空间感知。然而,仅仅依靠 2D 图像平面的几何特性不足以实现同步多模态设计。为此,提出一种直接的深度引导位置嵌入 (DPE),将深度位置与基于图像的空间位置相结合。具体而言,给定下采样的图像和稀疏深度图,首先将 2D 空间位置网格展平为 1D 矢量,其中每个元素对应于图像中的特定空间位置。随后,对稀疏深度图进行下采样以匹配图像分辨率,从而生成一组独立的深度索引来补充空间位置。最终的位置嵌入 D_pos 是通过将展平的空间位置与深度位置连接起来构建的,从而有效地在 xy-z 平面中编码位置信息。通过整合空间和深度几何,该模块为有效的多模态特征匹配提供了全面的位置先验。

多尺度高斯解码

给定多模态 token G_I 和 G_S,目标是预测像素对齐的高斯参数 {(μ, α, Σ, c)},其中 μ、α、Σ 和 c 是 3D 高斯的中心位置、不透明度、协方差和颜色信息。为了充分利用图像 token G_I 和深度 token G_S 提供的外观线索和几何先验,实现两个具有相同架构的独立回归头,即高斯头和几何头,以生成不同的高斯参数。

两个回归头遵循 DPT [22] 架构,并通过额外的多尺度深度编码增强,为高斯预测提供精确的尺度先验。具体而言,在 DPT 解码器中的每个尺度上,最初调整输入稀疏深度图的大小以与当前特征尺度的空间大小对齐。之后,调整过大小的深度图,通过由两个卷积层组成的浅层网络进行处理,以提取深度特征,然后将其添加到 DPT 中间特征中。最后,输入图像和深度图(每个都由单个卷积层处理)分别合并到高斯头和几何头的最终特征中,以促进基于外观或基于几何的高斯解码。

训练损失

模型使用视图合成损失和深度损失的组合进行训练。

新视图合成损失。用渲染和真值图像颜色之间的均方误差 (MSE) 和 LPIPS 损失的组合来训练完整模型。

深度损失。利用深度损失来平滑相邻像素的深度值,从而最大限度地减少小区域的突然变化。

数据集。在两个广泛使用的自动驾驶数据集上评估提出的方法:Waymo 开放数据集 [24] 和 KITTI 跟踪基准 [8]。对于这两个数据集,采用大约 1:7 的训练-测试分割比。具体来说,在 Waymo 数据集上,主要关注静态和动态场景,其中每种场景类型分为 4 个测试场景和 28 个训练场景。同样,对于 KITTI 数据集,分割由 5 个测试场景和 37 个训练场景组成。这种划分确保方法在不同场景中的平衡评估,同时也为有效的模型训练提供足够的训练数据。

训练细节。实现基于 Py-Torch 框架。采用 Adam [16] 优化器和余弦学习率策略,初始学习率为 1e-4。在 3090 Ti GPU 上训练模型,在 Waymo 和 KITTI 数据集上均运行 150k 次迭代,批量大小为 1。为了确保公平比较,所有实验均在 Waymo 数据集分辨率为 320×480 图像和 KITTI 数据集分辨率为 256×608 图像进行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333451.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0501路由-react-仿低代码平台项目

文章目录 1 react路由1.1 核心库&#xff1a;React Router安装 1.2 基本路由配置路由入口组件定义路由 1.3 导航方式使用 <Link> 组件编程式导航 1.4 动态路由参数定义参数获取参数 1.5 嵌套路由父路由配置子路由占位符 1.6 重定向与404页面重定向404页面 1.7 路由守卫&a…

OpenAI即将上线新一代重磅选手——GPT-4.1

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

【蓝桥杯】赛前练习

1. 排序 import os import sysn=int(input()) data=list(map(int,input().split(" "))) data.sort() for d in data:print(d,end=" ") print() for d in data[::-1]:print(d,end=" ")2. 走迷宫BFS import os import sys from collections import…

Windows 系统下用 VMware 安装 CentOS 7 虚拟机超详细教程(包含VMware和镜像安装包)

前言 资源 一、准备工作 &#xff08;一&#xff09;下载 VMware Workstation &#xff08;二&#xff09;下载 CentOS 7 镜像 二、安装 VMware Workstation&#xff08;比较简单&#xff0c;按下面走即可&#xff09; 三、创建 CentOS 7 虚拟机 四、安装 CentOS 7 系统…

五、用例篇

Bug等级&#xff1a;崩溃、严重、一般、次要 bug的生命周期 面试高频考题&#xff1a;跟开发产生争执怎么办&#xff1f; (1)反思自己&#xff0c;是不是bug描述写的不清楚 (2)站在用户思考问题&#xff0c;反问开发人员&#xff1a;“如果你是用户&#xff0c;你能接受这样…

【QT】学习笔记1

QT概述 Qt是一个1991年由QtCompany开发的跨平台C图形用户界面应用程序开发框架。它既可以开发GUI程序&#xff0c;也可用于开发非GUI程序&#xff0c;比如控制台工具和服务器。Qt是面向对象的框架&#xff0c;使用特殊的代码生成扩展&#xff08;称为元对象编译器&#xff08;…

英伟达开源253B语言模型:Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

Llama-3.1-Nemotron-Ultra-253B-v1 模型情况 1. 模型概述 Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM)&#xff0c;专为推理、人类对话偏好和任务&#xff08;如 RAG 和工具调用&#xff09;而优化。该模型支持 128K 令…

质检LIMS系统在半导体制造行业的应用 半导体质量革命的现状

在半导体这个“工业皇冠上的明珠”领域&#xff0c;纳米级的精度要求与质量管控如同硬币的两面。随着芯片制程向3nm、2nm演进&#xff0c;传统质检模式已难以满足海量数据、复杂工艺的质量追溯需求。质检LIMS实验室系统作为质量管理的中枢神经&#xff0c;正在重构半导体制造的…

面向对象高级(1)

文章目录 final认识final关键字修饰类&#xff1a;修饰方法&#xff1a;修饰变量final修饰变量的注意事项 常量 单例类什么是设计模式&#xff1f;单例怎么写?饿汉式单例的特点是什么&#xff1f;单例有啥应用场景&#xff0c;有啥好处&#xff1f;懒汉式单例类。 枚举类认识枚…

HTTP 压力测试工具autocannon(AI)

简介 autocannon 是一款基于 Node.js 的高性能 HTTP 压力测试工具&#xff0c;适用于评估 Web 服务的并发处理能力和性能瓶颈。 一、工具特点 高性能‌&#xff1a;利用 Node.js 异步非阻塞机制模拟高并发请求‌。‌实时监控‌&#xff1a;测试过程中动态展示请求统计和性能…

my2sql工具恢复误删数据

一、下载my2sql my2sql下载地址https://github.com/liuhr/my2sql/blob/master/releases/centOS_release_7.x/my2sql 二、my2sql工具注意事项 1. binlog格式必须为row&#xff0c;且binlog_row_imagefull 原因&#xff1a;binlog_row_image 参数决定了 binlog 中是否记录完整的…

【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代

前言&#xff1a;OpenAI又双叒叕搞事情了&#xff01;这次他们带着三款全新语音模型强势来袭&#xff0c;直接让 AI 语音界卷出新高度&#xff01;无论是语音识别的精准度、还是根据文字生成音频的脑洞&#xff0c;这三款模型都堪称“神仙打架”。 如果你还在用老掉牙的语音助手…

蓝桥杯嵌入式十四届模拟一(eeprom)

一.LED 先配置LED的八个引脚为GPIO_OutPut&#xff0c;锁存器PD2也是&#xff0c;然后都设置为起始高电平&#xff0c;生成代码时还要去解决引脚冲突问题 二.按键 按键配置&#xff0c;由原理图按键所对引脚要GPIO_Input 生成代码&#xff0c;在文件夹中添加code文件夹&#…

DevOps与功能安全:Perforce ALM通过ISO 26262合规认证,简化安全关键系统开发流程

本文来源perforce.com&#xff0c;由Perforce中国授权合作伙伴、DevSecOps解决方案提供商-龙智翻译整理。 近日&#xff0c;Perforce ALM&#xff08;原Helix ALM&#xff09;通过了国际权威认证机构 TV SD的ISO 26262功能安全流程认证&#xff01;该认证涵盖Perforce ALM解决方…

【图片识别改名工具】如何识别图片中文字内容,并根据文字对图片批量重命名批量改名,基于WPF和腾讯OCR的完整实现

​​办公场景​​ ​​批量处理图片文件​​:用户有一批图片文件,图片中包含文字信息(如编号、日期、名称等),需要根据图片中的文字内容对图片进行重命名。​​自动化办公​​:在办公场景中,用户需要将图片文件按内容分类或归档,手动重命名效率低下,自动化工具可以大幅…

Dify+DeepSeek能做出什么来?快速构建可扩展的 AI 应用

将 Dify&#xff08;开源 LLM 应用开发平台&#xff09;与 DeepSeek&#xff08;深度求索公司的高性能大模型&#xff0c;如 DeepSeek-R1 或 DeepSeek-Lite&#xff09;结合使用&#xff0c;可以充分发挥两者的优势&#xff0c;快速构建高效、灵活且可扩展的 AI 应用。以下是具…

【深度学习】Ubuntu 服务器配置开源项目FIGRET(PyTorch、torch-scatter、torch-sparse、Gurobi 安装)

开源项目网址&#xff1a;https://github.com/FIGRET/figret 该项目在SIGCOMM2024发表&#xff0c;用深度学习方法处理流量工程中的突发问题 1. 创建新的 Conda 环境 使用国内镜像源创建环境​ conda create -n figret python3.8.0 --override-channels -c https://mirrors.…

浅析Centos7安装Oracle12数据库

Linux下的Oracle数据库实在是太难安装了&#xff0c;事贼多&#xff0c;我都怀疑能安装成功是不是运气的成分更高一些。这里虚拟机是VMware Workstation 15.5&#xff0c;操作系统是Centos7&#xff0c;Oracle版本是Oracle Database 12c Enterprise Edition Release 12.1.0.2.0…

代码随想录算法训练营Day27 | Leetcode 56. 合并区间、738.单调递增的数字、968.监控二叉树

代码随想录算法训练营Day27 | Leetcode 56.合并区间、738.单调递增的数字、968.监控二叉树 一、合并区间 相关题目&#xff1a;Leetcode56 文档讲解&#xff1a;Leetcode56 视频讲解&#xff1a;Leetcode56 1. Leetcode56. 合并区间 以数组 intervals 表示若干个区间的集合&am…

ESP32S3 链接到 WiFi

以下是关于如何让 ESP32S3 连接到 WiFi 的完整流程和代码示例&#xff1a; ESP32S3 链接到 WiFi 1. 设置工作模式 ESP32 可以工作在两种模式下&#xff1a; Station (STA) 模式&#xff1a;作为无线终端连接到无线接入点&#xff08;AP&#xff09;&#xff0c;类似于手机或…