经典文献阅读之--ParkingE2E(基于摄像头的端到端停车网络:从图像到规划)

news2025/1/15 23:19:17

0. 简介

自动泊车是智能驾驶领域的一项关键任务。传统泊车算法通常采用基于规则的方案来实现。然而,由于算法设计的复杂性,这些方法在复杂的泊车场景中效果欠佳。相比之下,基于神经网络的方法往往比基于规则的方法更加直观且功能多样。通过收集大量专家泊车轨迹数据,并利用基于学习的方法模拟人类策略,泊车任务可以得到有效解决。《ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning》采用模仿学习的方法,通过模仿人类驾驶轨迹,实现从RGB图像到路径规划的端到端规划。所提出的端到端方法利用目标查询编码器来融合图像和目标特征,以及基于Transformer的解码器来自回归地预测未来路径点。相关的代码在Github中可以看到。

在这里插入图片描述

图1:整体工作流程的示意图。我们的模型以环视摄像头图像和目标停车位作为输入,输出预测的轨迹关键点,随后由控制器执行。补充视频材料可在以下链接查看:https://youtu.be/urOEHJH1TBQ。

1. 主要贡献

智能驾驶涉及三大主要任务:城市驾驶、高速公路驾驶和泊车操作。自动代客泊车(AVP)和自动泊车辅助(APA)系统作为智能驾驶中的关键泊车任务,显著提升了泊车的安全性和便捷性。然而,主流的泊车方法往往基于规则,需要将整个泊车过程分解为多个阶段,如环境感知、地图构建、车位检测、定位和路径规划。由于这些复杂模型架构的精细性,它们在紧凑车位或复杂场景中更容易遇到困难。

端到端(E2E)自动驾驶算法通过将感知、预测和规划组件集成到一个统一的神经网络中进行联合优化,减少了跨模块的累积误差。将端到端算法应用于泊车场景有助于减少对人工设计特征和规则的依赖,提供全面、整体且用户友好的解决方案。

虽然端到端自动驾驶已经显示出显著的优势,但大多数研究都集中在模拟上,而没有验证算法在现实世界中的有效性。与城市环境的复杂性和高速公路驾驶的危险性相比,泊车场景的特点是速度低、空间有限且可控性高。这些特点为在车辆中逐步部署端到端自动驾驶能力提供了一条可行的途径。我们开发了一个端到端泊车神经网络,并在现实世界的泊车场景中验证了该算法的可行性。

这项工作扩展了我们之前的工作E2E-Carla,通过提出一种基于模仿学习的端到端泊车算法,该算法已在真实环境中成功部署和评估。该算法接收车载camera捕捉的环视图像,预测未来的轨迹结果,并根据预测的路径点执行控制。一旦用户指定了一个停车位,端到端泊车网络就会与控制器协同工作,自动操控车辆进入停车位,直到完全停好。本文的主要贡献概括如下:

  • 设计了一个端到端网络来执行泊车任务。该网络将环视图像转换为鸟瞰图(BEV)表示,并通过使用目标特征来查询图像特征,将其与目标停车位特征相融合。由于轨迹点的顺序性,我们采用基于Transformer解码器的自回归方法来生成轨迹点。
  • 将端到端模型部署在实车上进行测试,验证了该网络模型在各种现实场景中的泊车可行性和通用性,为端到端网络的部署提供了有效解决方案。

2. 初步研究:问题定义

我们使用端到端神经网络 N θ N_θ Nθ 来模仿专家轨迹进行训练,并定义数据集:

D = { ( I i , j k , P i , j , S i ) } , (1) \mathcal{D} = \{ ( I_{i,j}^{k}, P_{i,j}, S_{i} ) \}, \tag{1} D={(Ii,jk,Pi,j,Si)},(1)

其中,轨迹索引 i ∈ [ 1 , M ] i \in [1, M] i[1,M],轨迹点索引 j ∈ [ 1 , N i ] j \in [1, N_i] j[1,Ni],相机索引 k ∈ [ 1 , R ] k \in [1, R] k[1,R],RGB 图像 I I I,轨迹点 P P P 和目标槽 S S S。将数据集重新组织为(这里 T i , j T_{i,j} Ti,j是根据端到端神经网络计算得出):

T i , j = { P i , min ⁡ ( j + b , N i ) } b = 1 , 2 , … , Q , (2) T_{i,j} = \{ P_{i, \min(j+b, N_i)} \}_{b=1,2,\ldots,Q}, \tag{2} Ti,j={Pi,min(j+b,Ni)}b=1,2,,Q,(2)

D ′ = { ( I i , j k , T i , j , S i ) } , (3) D' = \{ (I^{k}_{i,j}, T_{i,j}, S_i) \}, \tag{3} D={(Ii,jk,Ti,j,Si)},(3)

其中, Q Q Q 表示预测轨迹点的长度, R R R 表示 RGB 摄像头的数量。端到端网络的优化目标如下:

θ ′ = arg ⁡ min ⁡ θ E ( I , T , S ) ∼ D ′ [ L ( T , N θ ( I , S ) ) ] , (4) \theta' = \arg \min_{\theta} \mathbb{E}_{(I, T, S) \sim \mathcal{D'}} \left[ \mathcal{L}(T, N_{\theta}(I, S)) \right], \tag{4} θ=argθminE(I,T,S)D[L(T,Nθ(I,S))],(4)

其中 L L L 表示损失函数。

3. 基于摄像头的端到端神经规划器

3.1 概述

如图 2 所示,我们开发了一种端到端的神经规划器,该规划器以 RGB 图像和目标槽作为输入。所提出的神经网络主要包括两个部分:输入编码器和自回归轨迹解码器。通过输入 RGB 图像和目标槽,RGB 图像被转换为鸟瞰视图(BEV)特征。随后,神经网络将 BEV 特征与目标槽融合,并采用自回归方式通过变换器解码器生成下一个轨迹点

在这里插入图片描述

图 2:我们方法的概述。多视角 RGB 图像经过处理后,其图像特征被转换为鸟瞰视图(BEV)表示。目标槽用于生成 BEV 目标特征。我们使用目标查询将目标特征与图像的 BEV 特征进行融合。随后,我们通过自回归变换器解码器逐一获得预测的轨迹点。

3.2 编码器

我们在鸟瞰视图(BEV)中对输入进行编码。BEV 表示提供了车辆周围环境的俯视图,使自我车辆能够检测停车位、障碍物和标记。同时,BEV 视图在不同驾驶视角下提供了一致的视点表示,从而简化了轨迹预测的复杂性。

3.2.1 相机编码器(这一步就是特征提取+lss前视转鸟瞰的操作)

在 BEV 生成流程的开始,我们首先利用 EfficientNet [22] 从 RGB 输入中提取图像特征 F i m g ∈ R C × H i m g × W i m g F_{img} ∈ \mathbb{R}^{C×H_{img}×W_{img}} FimgRC×Himg×Wimg。受到 LSS [23] 的启发,我们学习图像特征的深度分布 d d e p ∈ R D × H i m g × W i m g d_{dep} ∈ \mathbb{R}^{D×H_{img}×W_{img}} ddepRD×Himg×Wimg,并将每个像素提升到 3D 空间。然后,我们将预测的深度分布 d d e p d_{dep} ddep 与图像特征 F i m g F_{img} Fimg 相乘,以获得包含深度信息的图像特征。结合相机的外参和内参,图像特征被投影到 BEV 体素网格中,以生成相机特征 F c a m ∈ R C × H c a m × W c a m F_{cam} ∈ \mathbb{R}^{C×H_{cam}×W_{cam}} FcamRC×Hcam×Wcam。BEV 特征在 x x x 方向的范围表示为 [ − R x −R_x Rx, R x R_x Rx]m,其中 m 表示米,而 y y y 方向的范围表示为 [ − R y −R_y Ry, R y R_y Ry]m。

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中国的铁路订票系统在世界上属于什么水平?

每到节假日,中国的铁路订票系统总会成为人们热议的焦点。无论是“抢票大战”还是“秒杀特价票”,这一系统似乎总是牵动着亿万乘客的心。那么,中国的铁路订票系统到底有多强大?在全球范围内,它处于什么水平?…

Java_ElasticSearch(ES)——分布式搜索引擎

介绍: Elasticsearch是一个开源的分布式搜索和分析引擎,最初由Elastic公司开发。它构建在Apache Lucene搜索引擎库之上,提供了一个强大的全文搜索和分析引擎, 它结合kibana、Logstash、Beats,是一整套技术栈&#xff0…

C语言——简单的do while循环找100~999之间的水仙花数(所有的三位水仙花数)

这道题的关键是如何把这个三位数的个位、十位、百位表示出来 这里用到了 / &#xff08;整除&#xff09;和 % &#xff08;取余&#xff09;这两个运算符 #include<stdio.h> int main() { int num 100; do { int a; int b; int …

手把手教你:用sentence-transformers库进行文本嵌入

在 Python 中使用 sentence-transformers 库进行实操&#xff0c;你可以按照以下步骤进行&#xff1a; 1. 安装 sentence-transformers 库 首先&#xff0c;确保你已经安装了 sentence-transformers。如果没有&#xff0c;可以通过 pip 安装&#xff1a; pip install sentenc…

图像去噪评论:从经典到最先进的方法

系列文章目录 文章目录 系列文章目录前言摘要1 引言1.1.噪声抑制 2. 空间域过滤2.1.局部滤波器2.2.非局部滤波器 3.变换域滤波3.1.阈值3.1.1. 通用阈值3.1.2. VISUShrink3.1.3.SURE收缩3.1.4.BayesShrink3.1.5.概率收缩3.1.6.SURELET3.1.7.Neigh Shrink Sure&#xff08;NSS&am…

十一头像红旗怎么弄的?3个方法轻松教会你!

国庆佳节渐行渐至&#xff0c;朋友圈里早已掀起了一股更换国庆主题头像的热潮&#xff01;那些五彩斑斓、光彩夺目的渐变国旗头像&#xff0c;既美观又富有节日气氛。如果你也想加入这个行列&#xff0c;那么如何动手制作呢&#xff1f;别担心&#xff0c;接下来我将为你介绍三…

求解组合优化问题的具有递归特征的无监督图神经网络

文章目录 ABSTRACT1 Introduction2 Related Work3 QRF-GNN方法4 数值实验4.1 MAX-CUTABSTRACT 介绍了一种名为QRF-GNN的新型算法,有效解决具有二次无约束二进制优化(QUBO)表述的组合问题。依赖无监督学习,从最小化的QUBO放松导出的损失函数。该架构的关键组成部分是中间GNN…

服务端之Node的QQ邮件发送功能、授权码申请流程、邮箱、createTransport、sendMail

MENU 前言邮箱授权码的申请流程Node连续发送邮件失败的原因 前言 1、代码段的主要功能是通过nodemailer模块从一个QQ邮箱发送电子邮件。 2、代码段实现从QQ邮箱1283077926qq.com发送一封邮件到2506562048qq.com&#xff0c;邮件主题为“微信公众号推广”&#xff0c;正文为“亲…

Docker私有镜像仓库Harbor安装并推拉镜像

1.环境信息 前置要求&#xff1a; linux&#xff1a;Oracle Linux Server release 7.9 docker&#xff1a;26.1.4 安装&#xff1a; docker-compose: Docker Compose version v2.29.2 harbor&#xff1a;v2.11.1 2.下载安装说明 docker-compose下载&#xff1a; https://githu…

Vue(八) localStorage、组件的自定义事件、Todo案例修改

文章目录 一、浏览器本地存储1. 相关API2. Todo案例中的应用 二、组件的自定义事件1. 回顾props传值方式2. 绑定自定义事件&#xff08;1&#xff09;方式一&#xff1a;v-on或&#xff08;2&#xff09;方式二&#xff1a; ref 3. 解绑自定义事件4. 注意点总结 三、Todo案例采…

【机器学习】在 scikit-learn 中,有哪些特征编码方法?分布详细举例列出

一、在scikit-learn中&#xff0c;有多种特征编码方法可以用来处理分类数据&#xff0c;以下是一些常见的编码方法及其示例&#xff1a; One-Hot Encoding (独热编码): 使用 OneHotEncoder 类将分类特征转换为二进制向量。例如&#xff0c;对于颜色特征 [red, blue, green]&…

day01项目概述、环境搭建

1 软件开发整体介绍 软件开发流程 角色分工 软件环境 2 苍穹外卖项目介绍 项目介绍 产品原型 技术选型 3 开发环境搭建 前端环境搭建 注意&#xff1a; - Nginx目录必须放在没有中文的目录中才能正常运行 - 当前Nginx的配置文件中已经配置了反向代理&#xff0c;通过此配置…

面试SQL题的水到底有多深?一文带你揭晓

不谋万世者&#xff0c;不足谋一时&#xff1b;不谋全局者&#xff0c;不足谋一域 目录 0 面试现状 1 面试SQL题目的难度及特点 1.1 题目场景化 1.2 题目算法化 1.3 方法多元化 2 破局之道 3 总结 数字化建设通关指南 主要内容&#xff1a; &#xff08;1&#xff09;SQL进阶实…

ChatTTS 长音频合成和本地部署2种方式,让你的“儿童绘本”发声的实战教程(文末有福利)

接上文&#xff08;GLM-4-Flash 大模型 API 免费了&#xff0c;手把手构建“儿童绘本”应用实战&#xff08;附源码&#xff09;&#xff09;&#xff0c;老牛同学通过 GLM-4-Flash 文生文和 CogView-3 文生图大模型&#xff0c;和大家一起编写了一个图文并茂的儿童绘本应用&am…

Claude3.5 Sonnet模型评测(附使用方法)

随着模型的发展&#xff0c;之前大家常用的鉴别模型能力的测试已经有很多过时现象&#xff0c;比如经典的喝水测试&#xff0c;目前国内的先进模型也已经可以答对&#xff0c;我们需要更复杂的问题来测试模型能力&#xff0c;最近有研究人员发现&#xff0c;大模型不会比较浮点…

操作符详细解析

操作符详解 文章目录 操作符详解1.操作符分类2.算数操作符3.移位操作符3.1整型二进制的表示3.1.1整数二进制的种类3.1.2二进制原码反码补码的表示 3.2移位运算符使用规则3.2.1正数的左移运算符 3.2.2负数的左移运算符3.2.3右移操作符3.2.3.1右移运算符的两种形式&#xff1a;3.…

使用WSL在Windows上安装Linux

文章目录 环境步骤参考 注&#xff1a;WSL是“Windows Subsystem for Linux”的缩写&#xff0c;即“适用于 Linux 的 Windows 子系统”&#xff0c;说白了就是在Windows系统里直接使用Linux&#xff0c;而不需要VMWare等虚拟软件。 环境 Windows 11 家庭中文版 步骤 首先&…

DORIS - DORIS简介

前言 本博文基于DORIS的2.1.5版本。apache-doris-2.1.5-bin-x64.tar.gz 是什么&#xff1f; DORIS官网 Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库&#xff0c;以高效、简单、统一的特点被人们所熟知&#xff0c;仅需亚秒级响应时间即可返回海量数据下的…

迅为2K1000开发板流畅运行Busybox、Buildroot、Loognix、QT5.12 系统

硬件配置 国产龙芯处理器&#xff0c;双核64位系统&#xff0c;板载2G DDR3内存&#xff0c;流畅运行Busybox、Buildroot、Loognix、QT5.12 系统! 接口全板载4路USB HOST、2路千兆以太网、2路UART、2路CAN总线、Mini PCIE、SATA固态盘接口、4G接口、GPS接口WIF1、蓝牙、Mini HD…

leetcode72. 编辑距离,二维动态规划

leetcode72. 编辑距离 给你两个单词 word1 和 word2&#xff0c; 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作&#xff1a; 1.插入一个字符 2.删除一个字符 3.替换一个字符 示例 1&#xff1a; 输入&#xff1a;word1 “horse”,…