Visual Point Cloud Forecasting enables Scalable Autonomous Driving——点云论文阅读(12)

news2025/1/7 8:47:22

此内容是论文总结,重点看思路!!

文章概述

这篇文章介绍了一个名为 ViDAR 的视觉点云预测框架,它通过预测历史视觉输入生成未来点云,作为自动驾驶的预训练任务。ViDAR 集成了语义、三维几何和时间动态信息,有效提升了感知、预测和规划等自动驾驶核心任务的性能。实验表明,该框架显著减少了对高成本标注数据的依赖,并在多个下游任务中优于现有最佳方法,为实现可扩展的视觉自动驾驶提供了新的解决方案。

主要贡献

1.提出“视觉点云预测”作为新的预训练任务

  • 通过从历史视觉输入预测未来点云,这一任务结合了语义、三维几何和时间动态建模,适用于感知、预测和规划等自动驾驶核心任务。

2.设计了通用的预训练框架ViDAR

  • 包括历史编码器(提取视觉序列特征)、潜在渲染操作(解决几何特征建模问题)、未来解码器(生成未来时间的点云预测),为自动驾驶提供了系统性的解决方案。

3.引入潜在渲染操作(Latent Rendering)

  • 克服了传统方法中“射线特征”不够区分的缺陷,显著提升了三维几何信息的建模能力,从而增强了下游任务的性能。

4.显著提升了自动驾驶系统的性能

  • 在多个下游任务(如3D检测、语义占用预测、轨迹预测和规划)中,ViDAR 均超越了现有最佳方法。例如,短时预测误差减少了33%,碰撞率降低了15%。

5.减少对高成本标注数据的依赖

  • ViDAR 通过无监督预训练显著降低了对大规模3D标注数据的需求,在数据有限的情况下依然表现出色,从而推动了可扩展的自动驾驶技术。

6.首次验证了视觉点云预测在自动驾驶中的可扩展性

  • 通过实验表明,视觉点云预测能在感知、预测和规划三个任务中同时取得显著进步,为端到端自动驾驶提供了全面的性能提升。

主要方法

1. 视觉点云预测(Visual Point Cloud Forecasting)

视觉点云预测的任务是从历史视觉输入中预测未来的点云。这种任务的设计目标是同时捕获以下三个方面的信息:

  • 语义信息:场景中的语义特征,例如道路、车辆和行人等。
  • 三维几何信息:物体的形状、位置和空间布局。
  • 时间动态信息:场景中的运动模式和变化趋势。

通过将这些信息结合,视觉点云预测既可以作为一个独立的任务,又可以为感知、预测和规划任务提供有效的预训练支持。

2. ViDAR框架

ViDAR是一个通用的视觉点云预测框架,包含三个主要模块:

(1) 历史编码器(History Encoder)
  • 作用:从多视图历史图像中提取鸟瞰视角 (Bird’s Eye View, BEV) 特征。
  • 架构
    • 历史编码器可以是任何 BEV 编码器,例如 BEVFormer。
    • 使用深度神经网络(如 ResNet101)提取视觉特征,并结合 FPN(特征金字塔网络)对特征进行多尺度融合。
    • 通过空间-时间变换器将图像特征转换为 BEV 表征。
(2) 潜在渲染操作(Latent Rendering Operator)
  • 创新点

    • 模拟潜在空间中的体渲染操作,将 BEV 特征转化为几何嵌入。
    • 提出了一种改进的“条件概率函数”和“特征期望函数”,解决传统方法中“射线特征”(ray-shaped features)的问题。
  • 操作细节

    1. 条件概率函数
      • 计算光线上的各个点是否被占用的概率,通过抑制相邻点的高响应来区分几何特征。
    2. 特征期望函数
      • 结合光线上的几何特征计算出每个网格的最终特征。
    3. 多组潜在渲染(Multi-group Latent Rendering)
      • 将特征通道分为多组并并行渲染,以捕捉更多几何信息。
    4. 结果
      • 渲染后的特征能够有效地表示场景中的几何细节(如物体和障碍物)。
(3) 未来解码器(Future Decoder)
  • 作用:预测未来时间步的 BEV 特征。

  • 架构

    • 基于自回归的变换器(Transformer),逐步预测未来特征。
    • 包括以下关键模块:

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2271476.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    MacBook_Xcode_Swift雨燕

    Swift Swift Swift Swift是苹果公司开发的现代化编程语言, 专为Apple平台设计。其简洁语法、类型安全、Optionals处理、Playgrounds交互式环境、泛型编程、协议与扩展、闭包功能、枚举与关联值、结构体与类的高效内存管理、异步编程的async/await语法、Swift Packa…

    STM32完全学习——使用LIBJPEG库解码图片

    一、有关配置 这个库的移植可以说是,很简单,直接使用CubMAX工具就可以帮我们生成移植好的代码,如果你想移植到其他平台,将CubMAX生成的那几个文件拷到你的工程里面就可以了。主要是这个如何使用起来,其实也不难&#…

    验证码识别插件 - captcha-killer

    验证码识别插件 - captcha-killer 简介 captcha-killer 是一款用于 Burpsuite 的验证码识别插件。它的主要功能是调用各种验证码识别接口,以便在进行渗透测试时能够自动识别和绕过验证码。这个插件本身并不直接进行验证码的识别,而是通过调用外部的 OC…

    unity团结云下载项目

    今天开plastic scm发现它云服务好像停了哈,在hub里下载云端项目也不会出现在项目列表里,之前也有发邮件说让提前迁移到团结云。打开云仓库会弹这个,大概就是plastic scm无法解析域名地址吧 研究了一下团结云咋使,官方手册看半天也…

    【VUE】使用create-vue快速创建一个vue + vite +vue-route 等其他查看的工程

    create-vue 简介 GitHub:https://github.com/vuejs/create-vue 创建的选项有多个,具体的可以看下方截图,当创建完成的时候可以发现工程中是自带vite的。 下面对其中的各种内容进行简单的说明 JSX (可以选择,但是我感觉没什么必要) 全称:JavaScript XML 允许你在 Java…

    RIP配置实验

    RIP配置实验 案例简介 天一公司下属三个分公司,属于不同的地区,三个公司之间用路由器连接,路由器名称分别为分别为 Router0、Router1、Router2,请把一公司的部门pc0,通过二公司路由器,连接三公司的部门pc1,公司之间通…

    video.js视频播放上手

    html案例 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>videojs视频播放</title> </head> <link href"https://cdnjs.cloudflare.com/ajax/libs/video.js/7.3.0/video-js.min.cs…

    Introducing Optimization

    Chapter6&#xff1a;Introducing Optimization 声明&#xff1a;本篇博客笔记来源于《Neural Networks from scratch in Python》&#xff0c;作者的youtube 其实关于神经网络的入门博主已经写过几篇了&#xff0c;这里就不再赘述&#xff0c;附上链接。 1.一文窥见神经网络 2…

    解决Git中没有小绿勾与红叉叉的问题

    一、检查自己的软件 必须安装Git和Tortoisegit&#xff08;也就是俗称的小乌龟&#xff09;这两个软件。 Git的下载地址&#xff1a; CNPM Binaries Mirrorhttps://registry.npmmirror.com/binary.html?pathgit-for-windows/ 寻找与自己电脑相配的软件版本就可以了。 Tor…

    向量数据库技术

    前言 这里有一些狗&#xff0c;熟悉犬类的朋友应该能很快区分出它们的品种&#xff0c;我们之所以能做到这一点&#xff0c;是因为我们会从不同的角度来观察它们的特征。 比如体型的大小&#xff0c;如果我们使用一个坐标轴来表示这个特征&#xff0c;这些狗将落在不同的坐标点…

    算法攻略:顺序表的进阶之路——移除元素

    题目如下&#xff1a; 思路&#xff1a; 双指针法 nums[src] val&#xff0c;srcnums[src] ! val&#xff0c;src的值赋值给dst&#xff0c;src和dst都 注&#xff1a; 1&#xff09;双指针法&#xff1a;只是抽象出了两个指向数组的变量&#xff0c;并不是真的指针。 2&#…

    docker Error response from daemon

    问题 Error response from daemon: Get "https://index.docker.io/v1/search?qnginx&n25": read tcp 192.168.50.233:54354->54.198.86.24:443: read: connection reset by peer Unable to find image redis:latest locally docker: Error response from d…

    【HTML】Day02

    【HTML】Day02 1. 列表标签1.1 无序列表1.2 有序列表1.3 定义列表 2. 表格标签2.1 合并单元格 3. 表单标签3.1 input标签基本使用3.2 上传多个文件 4. 下拉菜单、文本域5. label标签6. 按钮button7. div与span、字符实体字符实体 1. 列表标签 作用&#xff1a;布局内容排列整齐…

    iOS 11 中的 HEIF 图像格式 - 您需要了解的内容

    HEIF&#xff0c;也称为高效图像格式&#xff0c;是iOS 11 之后发布的新图像格式&#xff0c;以能够在不压缩图像质量的情况下以较小尺寸保存照片而闻名。换句话说&#xff0c;HEIF 图像格式可以具有相同或更好的照片质量&#xff0c;同时比 JPEG、PNG、GIF、TIFF 占用更少的设…

    【MATLAB APP Designer】小波阈值去噪(第一期)

    代码原理及流程 小波阈值去噪是一种信号处理方法&#xff0c;用于从信号中去除噪声。这种方法基于小波变换&#xff0c;它通过将信号分解到不同的尺度和频率上来实现。其基本原理可以分为以下几个步骤&#xff1a; &#xff08;1&#xff09;小波变换&#xff1a;首先对含噪信…

    NCCL源码解读3.1:double binary tree双二叉树构建算法,相比ring环算法的优势

    目录 一、双二叉树出现的原因 二、双二叉树介绍 三、双二叉树大规模性能 四、双二叉树源码解读 双二叉树注意事项 核心逻辑 源码速递 视频分享在这&#xff0c;未完待补充&#xff1a; 3.1 NCCL源码解读双二叉树构建算法&#xff0c;double binary tree相比ring环算法的…

    Linux部署web项目【保姆级别详解,Ubuntu,mysql8.0,tomcat9,jdk8 附有图文】

    文章目录 部署项目一.安装jdk1.1 官网下载jdk81.2 上传到Linux1.3 解压1.4 配置环境变量1.5 查看是jdk是否安装成功 二.安装TomCat2.1 官网下载2.2 上传到Linux2.3 解压2.4配置2.5 启动Tomcat2.6 验证是否成功 三.安装mysql四.部署javaweb项目4.1 打包4.2 启动tomcat 部署项目 …

    unity中的UI系统---GUI

    一、工作原理和主要作用 1.GUI是什么&#xff1f; 即即时模式游戏用户交互界面&#xff08;IMGUI&#xff09;&#xff0c;在unity中一般简称为GUI&#xff0c;它是一个代码驱动的UI系统。 2.GUI的主要作用 2.1作为程序员的调试工具&#xff0c;创建游戏内调测试工具 2.2为…

    MySQL 【多表查询】

    一 . 概述 多表关系&#xff1a; 一对多(多对一) &#xff0c; 多对多 &#xff0c;一对一 1&#xff09; 一对一 案例: 用户 与 用户详情的关系 关系: 一对一关系&#xff0c;多用于单表拆分&#xff0c;将一张表的基础字段放在一张表中&#xff0c;其他详情字段放在另 一张表…