未来已来:揭秘20篇自动驾驶顶会顶刊,开启智能交通新纪元!

news2024/10/4 22:08:18

【自动驾驶】是近年来在深度学习领域中备受关注的一项技术,它通过整合传感器数据、计算机视觉和机器学习算法,实现车辆的自主导航和决策。自动驾驶技术已经在路径规划、环境感知和车辆控制等多个领域取得了显著成果,其独特的方法和有效的表现使其成为研究热点之一。

为了帮助大家全面掌握自动驾驶的方法并寻找创新点,本文总结了最近两年【自动驾驶】相关的20篇顶会顶刊的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“自动驾驶20”即可全部领取

图片

1、UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

图片

-这篇文章提出了一个名为UniPAD的新型自监督学习范式,旨在提高自动驾驶领域中特征学习的有效性。文章指出,尽管传统的3D自监督预训练方法已取得广泛成功,但大多数方法都是基于2D图像的原始设计。因此,作者们设计了UniPAD,它利用3D体积可微渲染技术,隐式编码3D空间,从而促进连续3D形状结构及其2D投影的复杂外观特征的重建。

-UniPAD的灵活性使其能够无缝集成到2D和3D框架中,实现对场景的更全面理解。通过在各种3D感知任务上进行广泛的实验,证明了UniPAD的可行性和有效性。该方法显著提高了基于激光雷达、相机和激光雷达-相机的基线的NDS(nuScenes Detection Score)分别达到了9.1、7.7和6.9。特别值得注意的是,UniPAD的预训练流水线在nuScenes验证集上达到了73.2 NDS的3D目标检测和79.4 mIoU的3D语义分割,与先前方法相比取得了最先进的结果。

-文章还详细介绍了UniPAD的工作原理,包括如何使用3D编码器提取分层特征,并通过体素化将3D特征转换到体素空间,然后应用可微体积渲染方法重建完整的几何表示。此外,为了在训练阶段保持效率,作者提出了一种针对自动驾驶应用特别设计的内存高效光线采样策略,这可以大幅降低训练成本和内存消耗。

-在相关工作部分,文章回顾了点云的自监督学习以及图像中的表示学习的最新进展,并讨论了神经渲染在自动驾驶中的应用。在方法论部分,详细描述了UniPAD框架的两个主要组成部分:模态特定编码器和体积渲染解码器,以及如何通过最小化渲染的2D投影与输入之间的差异来鼓励模型学习输入数据的连续几何或外观特征。

-在实验部分,作者在nuScenes数据集上进行了实验,并与现有的最先进方法进行了比较。结果表明,UniPAD在3D目标检测和3D语义分割任务上均取得了显著的性能提升。此外,文章还进行了一系列的消融研究,以评估不同组件和设计选择对模型性能的影响。

-最后,文章总结了UniPAD的主要贡献,并指出了该方法的一些限制,例如需要将点和图像特征显式转换为体积表示,这可能会随着体素分辨率的增加而增加内存使用量。文章的结论强调了UniPAD在各种3D感知任务中的卓越性能,并展望了通过在其他领域取得的进步来促进表示学习的可能性。

2、VLP: Vision Language Planning for Autonomous Driving

图片

-这篇文章介绍了一个名为VLP(Vision Language Planning)的新型框架,旨在通过结合视觉和语言模型来增强自动驾驶系统(ADS)的规划能力。VLP框架利用大型语言模型(LLMs)的常识理解和推理能力,以改善自动驾驶中的源记忆基础和自我驾驶汽车的上下文理解,从而提升系统的安全性和泛化能力。

-文章首先指出,尽管基于视觉的自动驾驶方法在场景理解方面取得了显著进展,但在推理能力、泛化性能和长尾场景等方面仍存在不足。为了解决这些问题,VLP框架通过两个关键组件——Agent-centric Learning Paradigm(ALP)和Self-driving-car-centric Learning Paradigm(SLP)——来加强ADS。ALP模块专注于提升局部语义表示和BEV(鸟瞰视图)的推理能力,而SLP模块则致力于指导规划过程,以提高自我驾驶汽车的决策能力。

-在ALP中,通过将预训练语言模型的一致特征空间整合到BEV中的代理特征上,利用语言模型中嵌入的常识和逻辑流程,增强了ADS在多样化驾驶场景中的有效性。SLP则通过利用预训练语言模型中编码的知识,将规划查询与预期目标和自我驾驶汽车的驾驶状态对齐,从而在规划阶段做出更明智的决策。

-通过在具有挑战性的NuScenes数据集上的实验,VLP在端到端规划性能上达到了最先进的水平,与之前的最佳方法相比,在平均L2误差和碰撞率方面分别降低了35.9%和60.5%。此外,VLP在面对新的城市环境时显示出改进的性能和强大的泛化能力。

-文章还进行了新城市泛化能力的研究,通过在波士顿和新加坡两个城市之间进行训练和测试,证明了VLP在新城市泛化方面的能力,显著优于仅基于视觉的方法。此外,这是首次在ADS的多个阶段引入LLMs,以提高在新城市和长尾情况下的泛化能力。

-在相关工作部分,文章回顾了端到端自动驾驶、视觉-语言模型以及将语言模型应用于自动驾驶的研究进展。在方法论部分,详细介绍了VLP模型的工作原理,包括ALP和SLP的设计和实现。

-实验部分展示了VLP在开放环路规划、感知/预测任务中的有效性,并通过一系列消融研究来验证各个组件和设计选择对模型性能的影响。最后,文章总结了VLP的主要贡献,并指出了未来的研究方向,包括在更广泛的数据集和传感器模态上评估VLP的性能。

需要的同学扫码添加我

回复“自动驾驶20”即可全部领取

图片

3、DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

图片

-这篇文章介绍了一个名为DriveWorld的新型4D预训练场景理解框架,专门针对以视觉为中心的自动驾驶任务。与传统的2D或3D预训练方法不同,DriveWorld利用多摄像头驾驶视频,通过时空方式进行预训练,以学习能够理解4D场景的表示。

-文章首先指出,自动驾驶是一个复杂的任务,需要对场景进行全面的四维(4D)理解,包括感知、预测和规划。传统的视觉中心自动驾驶预训练方法主要依赖于2D或3D的预训练任务,而忽略了自动驾驶作为4D场景理解任务的时间特性。为了解决这一挑战,文章提出了基于世界模型的自动驾驶4D表示学习框架DriveWorld。

-DriveWorld框架的核心是Memory State-Space Model,包含Dynamic Memory Bank模块和Static Scene Propagation模块。Dynamic Memory Bank模块用于学习时间感知的潜在动态,以预测未来状态的变化;Static Scene Propagation模块用于学习空间感知的潜在静态特征,以提供全面的场景上下文。此外,文章还引入了Task Prompt,通过语义提示调整特征提取网络,以适应不同的下游任务。

-在实验部分,作者在nuScenes数据集上进行了预训练,并在OpenScene数据集上进行了测试。实验结果表明,与2D ImageNet预训练、3D占用预训练和知识蒸馏算法相比,DriveWorld在3D目标检测、在线映射、多目标跟踪、运动预测、占用预测和规划等多个自动驾驶任务上都取得了显著的性能提升。例如,在OpenScene数据集上预训练后,DriveWorld在3D目标检测的mAP上提高了7.5%,在在线映射的IoU上提高了3.0%,在多目标跟踪的AMOTA上提高了5.0%,在运动预测的minADE上降低了0.1m,在占用预测的IoU上提高了3.0%,在规划的平均L2误差上降低了0.34m。

-文章还进行了消融研究,以验证DriveWorld中每个组件的有效性。结果表明,Memory State-Space Model的各个组成部分,包括Dynamic Memory Bank、Static Scene Propagation和Task Prompt,都对性能提升有重要贡献。此外,文章还探讨了数据集规模对性能的影响,发现使用更多的数据进行预训练可以提高下游任务的性能。

-最后,文章总结了DriveWorld的主要贡献,并指出了未来的研究方向。尽管DriveWorld在自动驾驶的4D场景理解方面取得了显著进展,但当前的标注仍然基于激光雷达点云,未来需要探索自我监督学习以实现视觉中心的预训练。此外,DriveWorld的有效性目前仅在轻量级的ResNet101骨干网络上得到了验证,未来值得考虑扩大数据集和骨干网络的规模。作者希望提出的4D预训练方法能为自动驾驶基础模型的发展做出贡献。

需要的同学扫码添加我

回复“自动驾驶20”即可全部领取

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1890990.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

笛卡尔乘积算法js实现

全因子实验设计( DOE) :指所有因子的所有水平的所有组合都至少进行一次实验,可以估计所有的主效应和所有的各阶交互效应。 笛卡尔乘积:指在数学中,两个集合X和Y的笛卡尔积(Cartesian product),…

如何在TechNow招聘顶尖AI工程师

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

好看的风景视频素材在哪下载啊?下载风景视频素材网站分享

随着短视频和自媒体的兴起,美丽的风景视频不仅能让人眼前一亮,更能吸引大量观众。无论是旅游博主分享那些令人心旷神怡的旅行片段,还是视频编辑师寻找背景素材来增强作品的视觉效果,高质量的风景视频素材需求量巨大。以下是几个下…

深度学习与飞桨 PaddlePaddle Fluid

编辑推荐 飞桨PaddlePaddle是百度推出的深度学习框架,不仅支撑了百度公司的很多业务和应用,而且随着其开源过程的推进,在其他行业得到普及和应用。 本书基于2019年7月4日发布的飞桨PaddlePaddle Fluid 1.5版本(后续版本会兼容旧版…

LeetCode 60.排序排列(dfs暴力)

给出集合 [1,2,3,...,n],其所有元素共有 n! 种排列。 按大小顺序列出所有排列情况,并一一标记,当 n 3 时, 所有排列如下: "123""132""213""231""312""321" 给定…

独享代理VS共享代理,新手选择攻略

随着互联网的广泛普及和应用,涉及网络隐私、数据安全和网络访问控制的问题变得越来越重要。代理服务器作为一种常见的网络工具,可以在跨境电商、海外社媒、SEO投放、网页抓取等领域发挥作用,实现匿名访问并加强网络安全。在代理服务器类别中&…

每日两题 / 20. 有效的括号 155. 最小栈(LeetCode热题100)

20. 有效的括号 - 力扣(LeetCode) 遇到左括号入栈 遇到右括号判断栈顶是否为匹配的左括号 最后判断栈是否为空 func isValid(s string) bool {var stk []runefor _, value : range s {if value ( || value { || value [ {stk append(stk, value)}…

项目实战--MySQL实现分词模糊匹配

一、需求描述 推广人员添加公司到系统时,直接填写公司简称,而公司全称可能之前已经被添加过,为防止添加重复的公司,所以管理员在针对公司信息审批之前,需要查看以往添加的公司信息里是否有相同公司。 二、方案 技术…

盒子模型(笔记)

盒子模型 盒子模型的属性 padding属性 内边距:盒子的边框到内容的距离 /*每个方向内边距*/padding-top: 20px;padding-left:20px;padding-bottom:20px;padding-right: 20px; /*每个方向内边距的第二种方法*/ /* 顺序依次是上左右下*/padding: 10px 20px 30px 4…

WIN32核心编程 - 数据类型 错误处理 字符处理

公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页 目录 数据类型 基本数据类型 Win32基本数据类型 错误处理 C语言中的错误处理 C中的错误处理 Win32中的错误处理 字符处理 C/C WIN32 字符处理 数据类型 基本数据类型 C/C语言定义了一系列…

Linux的Socket开发概述

套接字(socket)是 Linux 下的一种进程间通信机制(socket IPC),在前面的内容中已经给大家提到过,使用 socket IPC 可以使得在不同主机上的应用程序之间进行通信(网络通信)&#xff0c…

cv2.cvtColor的示例用法

-------------OpenCV教程集合------------- Python教程99:一起来初识OpenCV(一个跨平台的计算机视觉库) OpenCV教程01:图像的操作(读取显示保存属性获取和修改像素值) OpenCV教程02:图像处理…

德国威步的技术演进之路(下):从云端许可管理到硬件加密狗的创新

从单机用户许可证到WkNET网络浮点授权的推出,再到引入使用次数和丰富的时间许可证管理,德国威步产品不断满足市场对灵活性和可扩展性的需求。TCP/IP浮动网络许可证进一步展示了威步技术在网络时代的创新应用。借助于2009年推出的借用许可证以及2015年推出…

CV- 人工智能-深度学习基础知识

一, 深度学习基础知识 1,什么是深度学习?机器学习是实现人工智能的一种途径,深度学习是机器学习的一个子集,也就是说深度学习是实现机器学习的一种方法。2, 传统机器学习算术依赖人工设计特征,并进行特征提取,而深度学习方法不需要人工,而是依赖算法自动提取特征。深度…

llm学习-4(llm和langchain)

langchain说明文档:langchain 0.2.6 — 🦜🔗 langChain 0.2.6https://api.python.langchain.com/en/latest/langchain_api_reference.html#module-langchain.chat_models 1:模型 (1)自定义模型导入&#x…

代码随想录-Day46

121. 买卖股票的最佳时机 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。 返回你可以从…

pmp顺利通关总结

目录 一、背景二、总结三、过程 一、背景 人活着总是想去做一些事情,通过这些事情来证明自己还活着。 而我证明自己还会活着并且活得很好的方式和途径,是通过这些东西去让自己有一个明确的边界节点;借此知识来验证自己的学习能力。 我坚定认…

掌握Go语言邮件发送:net/smtp实用教程与最佳实践

掌握Go语言邮件发送:net/smtp实用教程与最佳实践 概述基本配置与初始化导入net/smtp包设置SMTP服务器基本信息创建SMTP客户端实例身份验证 发送简单文本邮件配置发件人信息构建邮件头部信息编写邮件正文使用SendMail方法发送邮件示例代码 发送带附件的邮件邮件多部分…

硅纪元视角 | 1 分钟搞定 3D 创作,Meta 推出革命性 3D Gen AI 模型

在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,…

服务器之BIOS基础知识总结

1.BIOS是什么? BIOS全称Basic Input Output System,即基本输入输出系统,是固化在服务器主板的专用ROM上,加载在服务器硬件系统上最基本的运行程序,它位于服务器硬件和OS之间,在服务器启动过程中首先运行&am…