DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解

news2025/1/21 15:40:06

24年5月北大论文“DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving”。

近年来,以视觉为中心的自动驾驶因其较低的成本而受到广泛关注。预训练对于提取通用表示至关重要。然而,当前以视觉为中心的预训练通常依赖于 2D 或 3D 预文本任务,忽略了自动驾驶作为 4D 场景理解任务的时间特征。本文引入一种基于世界模型的自动驾驶 4D 表示学习框架(称为 DriveWorld)来应对这一挑战,该框架能够以时空方式对多摄像头驾驶视频进行预训练。具体来说,提出一种用于时空建模的记忆-状态空间模型(Memory State- Space Model),它包括一个用于学习时域-觉察潜动态提供全面场景上下文预测未来变化的动态记忆库(Dynamic Memory Bank)模块和一个学习空域-觉察潜静态预测未来变化的静态场景传播(Static Scene Propagation)模块。还引入任务提示(Task Prompt)来解耦各种下游任务的任务-觉察特征。

如图所示:以视觉为中心的自动驾驶不同预训练方法的比较。 (a) 使用 2D 文本前任务(例如 2D 分类和深度估计)进行单目 2D 预训练。 (b) 通过 3D 场景重建或 3D 目标检测进行多摄像机 3D 预训练。 © 所提出的基于世界模型的 4D 预训练学习统一的时空表征。

在这里插入图片描述
如图所示DriveWorld 总体框架。由于自动驾驶很大程度上依赖于对 4D 场景的理解,因此该方法首先涉及将多摄像头图像转换为 4D 空间。在提出的用于时空建模的记忆-状态空间模型中,有两个基本组件:动态记忆库,它学习时域-觉察的潜动态以预测未来状态,以及静态场景传播,它学习空间感知的潜静态提供全面的场景上下文。这种配置有利于解码器重建当前和未来时间步的 3D 占据和动作的任务。此外,基于预训练的文本编码器设计任务提示,自适应地解耦各种任务的任务-觉察特征。

在这里插入图片描述

当自动驾驶车辆移动时,它会在其观察中顺序传达两种类型的信息:与由于目标移动而导致的场景变化相关的时域-觉察信息,以及与场景上下文相关的空域-觉察信息[82]。如图所示,为了分别处理这些动态智体和空间场景以进行 4D 预训练,作者提出用于动态记忆库模块和静态场景传播模块。图中显示记忆状态空间模型(MSSM)的总体架构。 动态记忆模块利用运动-觉察层归一化(MLN)来编码时域-觉察属性,并与动态更新的记忆进行信息交互。同时,静态场景传播模块采用 BEV 特征来表示空间-觉察的潜静态,并将其直接传送到解码器。

添加图片注释,不超过 140 字(可选)

为了全面了解自动驾驶中的周围场景,将物理世界建模为3D占据结构,利用占据几何形式来描绘车辆的周围环境[13, 37, 50, 53, 69]。与重建输入 2D 图像 [22, 28] 的其他世界模型相比,3D 占据解码器可以对基于视觉的模型进行预训练来引入周围世界的几何先验。与主要表示目标表面的深度估计预训练 [60, 83] 不同,3D 占据可以表示整个结构。此外,与忽略关键高度信息的 MILE 这个 BEV 分割目标 [27] 不同,3D 占据提供了更全面的目标描述。 3D 占据解码器设置为 y^= lθ (m (h, s), b),其中 m 是将 1D 特征扩展到 BEV 维度的网络,lθ 是用于预测占据的 3D 卷积网络,b是潜静态的表征,即BEV特征,h 还是动态记忆库,s 是随机动态状态。

如图是记忆-状态空间模型的图模型。确定性状态用正方形表示,而随机状态用圆形表示。为了清晰起见,观测的状态以灰色突出显示。实线表示生成模型,而虚线表示变分推理。

添加图片注释,不超过 140 字(可选)

OccNet [69] 和 UniScene [57] 等预训练算法已证明将重建 3D 占据作为前置任务是有效的。与 OccNet 和 UniScene 相比,进一步扩展到 4D 占据预训练,通过时空建模引入额外的先验知识。

虽然通过世界模型设计的前置任务能够学习时空表示,但不同的下游任务侧重于不同的信息[48, 72]。例如,3D 目标检测任务强调当前的空间-觉察信息,而未来的预测任务优先考虑时间-觉察信息。过度关注未来信息(例如车辆的未来位置)可能不利于 3D 目标检测任务。

为了缓解这个问题,受到用于少样本图像识别的语义提示(Semantic Prompt)[9]和用于多任务学习的视觉示例驱动提示(Visual Exemplar driven Prompts)[48]启发,引入了“任务提示”的概念,为不同的头提供特定的提示来指导他们提取任务-觉察特征。认识到不同任务之间存在的语义联系,用大语言模型 gφ (· )(例如 BERT [35]、CLIP [63])来构建这些任务提示。例如,针对当前场景的 3D 占据重建任务,任务提示 p 设置为简单的“任务是预测当前场景的 3D 占据”。将提示 ptext 输入 gφ(·) 获得提示编码 gφ (ptext )。随后,采用 AdaptiveInstanceNorm [27] 和 CNN 将其扩展到 BEV 维度,表示为 qφ(gφ(ptext)),将其与学习的时空特征集成。

如图所示是不同任务提示的可视化BEV特征图:

添加图片注释,不超过 140 字(可选)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1673818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】进程信号(2万字)

目录 前言 一、生活角度的信号 1.1、我们来见一见信号: 1.2、模拟一下 kill 指令 二、信号的处理 三、产生信号的5种方法 3.1、kill命令 3.2、键盘可以产生信号 3.3、3种系统调用 3.4、软件条件 3.5、异常 四、比较 core 和 Term 五、键盘信号产生 六…

Docker安装、使用及常用命令

一、Docker是什么? Docker是一种开源的容器化技术,允许开发者将应用及其运行环境打包在一个轻量级、可移植的容器中。这样,不论在开发、测试还是生产环境中,应用都能在任何Docker支持的平台上无缝运行。Docker使用Dockerfile来自…

人形机器人场景应用全解析,2024睿抗 AI ROBOT创新挑战赛火热报名中!

人工智能(AI)已成为推动科技革命和产业变革的关键力量。随着大模型等AIGC技术的迅猛发展,AI正深刻改变我们的生活并重新定义生产方式。越来越多人期望将AI技术从纯粹的思维和计算扩展到与物理世界的互动中,即发展具身智能。 为了推…

网络库-libcurl介绍

1.简介 libcurl 是一个功能强大的库,支持多种协议,用于数据传输。它广泛应用于实现网络操作,如HTTP、HTTPS、FTP、FTPS、SCP、SFTP等。libcurl 提供了丰富的 API,可以在多种编程语言中使用。 libcurl 主要特点 支持多种协议&am…

812寸硅片为什么没有平边(flat)?

知识星球(星球名:芯片制造与封测社区,星球号:63559049)里的学员问:上期种说2,4,6寸硅片都有平边,那为什么8&12寸硅片只有一个notch?为什么不能像小尺寸晶…

抖店商家选品误区,看你中了几条?

我是王路飞。 作为抖店的核心,选品的重要性自然不言而喻。 你跟达人沟通的重点是产品,与厂家沟通的重点也是产品,产品不行,一切都白搭。 然而很多新手商家刚开始做抖店的时候,总是选不到比较好的品。 今天给你们总…

「51媒体」邀请媒体参会报道和媒体发稿有啥不同

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 媒体参会报道和媒体发稿是新闻报道的两种不同形式,它们的主要区别在于内容来源、报道方式和目的。 内容来源: 媒体参会报道:通常指的是记者或媒体代…

STM32:EXTI—外部中断的初始化

文章目录 1、中断1.2 中断系统1.3 中断执行流程 2、STM32中断2.2EXTI(外部中断)2.3 EXTI 的基本结构2.4 AFIO复用IO口 3、NVIC基本结构3.2 NVIC优先级分组 4、配置EXTI4.2 AFIO 库函数4.3 EXTI 库函数4.4 NVIC 库函数4.5 配置EXTI的步骤4.6 初始化EXTI 1…

工作中使用IDEA查看Stream变化

工作中使用IDEA查看stream变化 代码debug调试 代码 package com.demo;import java.util.stream.LongStream;public class LamdaDemo {public static void main(String[] args) {long[] dataResult LongStream.of(1,5,7,9).filter(data -> data > 10).map(data -> da…

答辩PPT设计太耗时?aippt工具,AI一站式服务

这些网站我愿称之为制作答辩PPT的神! 很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路,一窍不通。但这并不是你们的错,对于平时没接触过相关方面,第一次搞答辩PPT的人来说,这是很正常的一件事。一个好的答辩PPT…

无线领夹麦克风怎么挑选?无线麦克风怎么用?主流机型推荐必看

​在短视频与直播盛行的当下,一款优质的麦克风无疑是提升作品音质的得力助手,让你的创作更具质感。作为一名短视频博主,我在拍摄和直播的过程中也积累了不少使用麦克风的经验,深知哪些无线麦克风既好用又价格亲民。接下来&#xf…

【MinGW】MinGW-w64的安装及配置教程

目录 🌞1. MinGW简介 🌞2. MinGW安装详情 🌊2.1 资源包获取 🌊2.2 安装详情 🌞1. MinGW简介 MinGW (Minimalist GNU for Windows) 是一个在 Windows 平台上开发软件的开发工具集合。它提供一组用于编译 Windows 应…

Python自动化SQL注入和数据库取证工具库之sqlmap使用详解

概要 在网络安全领域,SQL注入仍然是最常见的攻击之一。sqlmap是一个开源的自动化SQL注入和数据库取证工具,它提供了广泛的功能来检测和利用SQL注入漏洞。本文将详细介绍sqlmap的安装、特性、基本与高级功能,并结合实际应用场景,展示其在网络安全测试中的应用。 安装 sqlm…

便签字号怎么改 便签字体大小调节方法

在日常工作和生活中,便签是我形影不离的助手。每当灵感闪现或是有待办事项时,我都会随手记录在便签上,它就像我生活中的记事本,帮助我安排生活和工作。 然而,每个人都有不同的视觉需求和阅读习惯,对于便签…

设计说明-行为型-状态模式-State

状态接口 public interface State {//状态接口void insertQuarter();//投币void ejectQuarter();//退币void turnCrank();//按下“出纸巾”按钮void dispense();//出纸巾 } 有纸巾类 public class HasQuarterState implements State {private TissueMachine tissueMachine;O…

【MySQL】sql表设计的注意事项

程序员的实用神器 文章目录 程序员的实用神器强烈推荐引言注意事项强烈推荐专栏集锦写在最后 强烈推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:人工智能 推荐一个个人工作&#x…

文档加密软件大比拼:哪款更适合你

在数字时代的浪潮中,信息安全成为了每个人和企业都无法忽视的重要议题。文档加密软件作为保护数据安全的重要手段,其种类繁多,功能各异。本文将带您走进文档加密软件的世界,对比多款热门产品,助您找到最适合自己的加密…

代码随想录训练营Day 28|力扣216.组合总和III、17.电话号码的字母组合

1.组合总和3 题目链接/文章讲解: 代码随想录 视频讲解:和组合问题有啥区别?回溯算法如何剪枝?| LeetCode:216.组合总和III_哔哩哔哩_bilibili 代码:(这里剪枝的思路和昨天发的一样) class Solution { priv…

vue 运行项目node-scss报错

vue项目node版本与自己电脑node版本不一样运行node导致报错 node-sass模块对node版本有兼容性,版本不适配,就容易报错 解决方案: 在项目目录下打开cmd: 输入命令: npm rebuild node-sass 然后再更新一下:…

linux性能监控之free

free:linux系统自带命令,显示内存状态,命令查询来源于/proc/meminfo 文件 [rootk8s-master ~]# free --helpUsage:free [options]Options:-b, --bytes show output in bytes-k, --kilo show output in kilobytes-m, --mega…