觉非科技数据闭环系列 | BEV感知研发实践

news2025/1/13 13:07:47

随着自动驾驶迈向量产场景,“BEV感知+数据闭环”已成为新一代自动驾驶量产系统的核心架构。数据成为了至关重要的技术驱动力,发挥数据闭环的飞轮效应或将成为下半场从1到N的胜负关键。

觉非科技在此方面已进行了大量的研究工作,并在实际量产项目中开始了部分技术的应用。结合这些实践的经验,觉非科技感知算法专家戚玉涵博士近期在「生成式AI热潮下的自动驾驶」技术论坛中进行了分享,系统介绍了觉非科技“BEV感知+数据闭环”技术架构与研发进展。

一.觉非科技的数据闭环

Fig.1觉非基于BEV感知的量产架构图

  • 觉非科技利用离线高精地图生成静态要素真值数据,用于训练基于BEV的静态要素感知模型;将模型部署于车端,实时推理时产生静态要素的栅格图结果并上传云端,在云端对栅格图进行SLAM拼接以及矢量化等后处理,通过量产化制图能力产生大规模的高精度地图数据库,进而实现静态要素的数据闭环。
  • 觉非构建的大数据中心可实现快速不断的迭代,供给生成BEV感知算法的训练数据。觉非BEV感知任务包括三个部分:动态目标的3D检测与跟踪、静态要素的分割、以及静态要素的拓扑结构矢量图。

觉非的采集车配备7V相机(其中,采集车前向安装一台长焦相机,主要用于感知远距离目标),以及一台128线束的激光雷达。目前依赖点云检测来生成视觉BEV 3D动态目标感知的真值数据,其高度依赖于高精度的传感器标定和时空同步。

Fig.2相机软件触发与硬件触发数采方式下,训练模型BEV 3D感知效果对比图

上图:相机软件触发方式采集训练数据的BEV 3D模型推理结果

下图:相机根据LiDAR相位角触发方式采集训练数据的BEV 3D模型推理结果

为此,觉非科技自研了基于高精地图的点云与相机的外参标定技术,同时依靠自研GNSS授时和根据LiDAR相位角硬件触发相机采集的同步板卡,对激光雷达和相机进行硬件同步,保证了BEV动态目标3D感知结果的位置精度。

二.觉非科技对BEV感知算法的优化方式

觉非BEV多任务联合感知算法的框架中,先将车周环视相机的图像接入BEV编码器,其结构包括backbone与neck,用于较好地提取图像特征;经视角变换模块得到稠密的BEV特征,与缓存的历史帧BEV特征一起送入时序融合模块,进行时序BEV特征聚合,时序融合能够提高被遮挡的动态目标的召回率,且提高视觉感知方式下目标速度的检测精度。

针对不同的感知任务,由BEV feature sampler设定不同的感知范围和BEV网格的粒度,对采样后的BEV特征进行解码和task head,得到最终动态目标3D检测和静态要素栅格图语义分割结果。

Fig.3觉非BEV多任务联合感知模型框架图

在算法持续迭代的进程中,觉非的主要优化方向包含几个方面:

1.视角转化(view transform)

目前学界在视角转换上存在很多范式,主流的方法主要包括LSS、MLP、Transformer

等。在考虑部署的便利性以及硬件平台对算子的支持等因素后,觉非选用的是LSS范式。

LSS范式下,视角变换模块利用depthnet网络输出两组信息,一是每一个像素点对应的图像上下文语义特征,其次是每个像素点上预测的深度分布,两路信息进行外积后可得出各个相机的视锥体(frustum)中每个像素点的上下文特征信息,从而实现2D到3D的提升。视角变换模块在工程化部署的方式上有两种方式:

Fig.4觉非视角转化模块

  • 对于Nvidia的芯片,对每个像素点的上下文语义特征与估计得到的深度分布权重和进行外积实现Lifting,得到描述各个相机视锥体特征的到五维向量(B*N,c,d,h,w),而后根据相机参数将各个相机视锥体的特征splat到BEV视角下,可调用英伟达CUDA Kernal的多线程做并行加速来实现BEV的Pooling,得到聚合后的稠密BEV特征。
  • 对于地平线J5芯片,根据车机视觉模组内外参数可预先计算出视锥体中每一个像素点与BEV网格唯一的哈希映射关系,而后在BEV网格进行特征聚合时,根据预设好的映射关系通过视锥体中像素点的索引值分别提取上下文特征和深度值进行相乘,所有BEV网格内的特征进行张量的求和,从而实现特征聚合。

BEV pooling过程中的预先计算视锥点与BEV网格,可以在节约推理耗时,保证了模型在车端部署的实时性。例如,在实际落地实践中,觉非的BEV 3D感知可实现自车前后80米、左右40米范围,哈希映射计算前置与BEV pooling的并行加速节约耗时可达到16毫秒。

2.相机视椎体切割(Camera Frustum Cutting)

在BEV pooling环节中,可以根据预设的感知范围对参与BEV特征聚合的各个相机的视锥体进行裁剪,仅保留BEV感知范围内的视锥点参与特征聚合,可以节约参与BEV pooling的计算量。

3.远距离感知(Long-distance Perception Range)

学界在BEV 3D感知上一般可实现车周半径51.2m(nuScenes数据集),或是75m(waymo数据集),而在真实的量产实践中,感知范围远远不能满足下游规划控制的需求。

觉非科技的BEV感知方案中,除6v环视相机以外,在自车前视方向增加了1台长焦相机,可以感知远距离的目标;同时设计了一种非均匀粒度分布的BEV网格,在扩大BEV感知范围的同时,不额外增加过多的网格数量和模型计算量;同时引入点云数据对相机视锥点深度估计的显式监督,能保证模型对远距离动态目标的召回与较为精确的空间位置。

4.BEV坐标样本BEV Grid Sampler

觉非的BEV感知为多任务联合训练模型,感知任务包含对动态目标的3D检测与跟踪,静态要素的语义分割。其中静态要素的语义分割任务中,高分辨率的BEV特征是保证地面要素检测精度的前提。

因此在模型的设置上,觉非加入了BEV Grid Sampler模块,在对BEV特征解码前,该模块根据设定的地面要素感知的范围,对稠密BEV特征进行裁剪,并利用双线性差值方式对BEV特征上采样还原得到高精度、精细化的BEV特征。

Fig.5 BEV网格采样器示意图

在联合训练的过程中,为避免同时训练不同任务对各个子任务性能的负面影响(一般称为:负迁移),觉非的联合训练模型中对不同的感知子任务设计了独立解码器,在解码过程中,各任务不共享BN(Batch Normalization)层的参数,可提升联合训练模型的稳定性并降低负迁移的影响。

Fig.6多任务联合训练策略

5.基于MapTR的创新与优化

在车端与路端大规模数据积累的基础上,觉非基于MapTR提出了相应创新优化,其中包括:

①对车道信息的表达方式进行优化,采用车道中心线进行表征并加入道路拓扑要素的建模;

②在不额外增加解码器query数量的基础上,通过回归车道宽度的方式还原车道标线的几何位置;

③学习车道线的虚实信息,可用于变道时判断旁边车道是否可以跨越;

④加入车道方向信息的学习,用于区分自车车道与对向车道;

⑤在MapTR的基础上加入了地图先验信息,有效提升模型输出地图元素的准确度与召回率。觉非对MapTR的创新能够系统化提升单车实时建图的能力,更易于自动驾驶规控使用。

Fig.7在线矢量化地图构建

目前觉非科技正在对“BEV感知+数据闭环”进行持续的优化,通过数据与算法的自研经验,以及在数据闭环搭建过程中大量的Know-How积累,为开发和迭代提供一套高效的工具链,并提升模型的泛化能力,在自动驾驶「数据驱动」的时代,推动数据闭环在量产车不断落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/998781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode-简单题】69. x 的平方根

文章目录 题目方法一:二分查找 题目 方法一:二分查找 假设求8的平方根,那就设置left 0 ,right 8; 每次取最中间的元素的平方和8对比,如果大于8,则right mid-1,如果小于8 left mi…

大数据是什么?看完这个就明白了【电商大数据分析与电商API】

什么是大数据? 在互联网技术发展到至今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数…

PIONEER MAGNETICS PM3326B-6-1-2-E 80026-529-01 电源

输出功率:该电源模块通常具有特定的输出功率,用于供电其他设备和系统。输出功率可能在规格表中列出。 电压和电流范围:通常,该电源模块可以提供一定范围内的输出电压和电流,以满足不同设备的需求。这些参数通常在技术…

迅为i.MX8mm小尺寸商业级/工业级核心板

尺寸: 50mm*50mm CPU: NXP i.MX8M Mini 主频: 1.8GHz 架构: 四核Cortex-A53,单核Cortex-M4 PMIC: PCA9450A电源管理PCA9450A电源管理NXP全新研制配,iMX8M的电源管理芯片有六个降压稳压器、五…

C语言经典100例题(44)--学习使用extern的用法。

目录 题目 问题分析 代码 运行结果 题目 题目:学习使用extern的用法。 问题分析 extern int i; //定义全局变量 i 上述代码语句,extern告诉编译器,变量i是在程序中的其他位置定义的(很有可能是在不同的源文件中…

自定义Dynamics 365实施和发布业务解决方案 - 7. 报表

在每个组织中,决策者都依赖于各种报告来推动业务取得成功。因此,每个软件开发项目都需要开发报告,Dynamics365配备了最先进的报告功能。这些报告的范围从简单的查询到具有复杂查询的更高级的报告。此外,Dynamics365的一个关键功能是其仪表板功能,它提供了一些不错的数据可…

防雷检测综合技术方案

雷电是一种自然现象,具有极高的电压、电流和能量,对人类的生命财产安全构成严重威胁。为了有效地防止或减轻雷电灾害的危害,建筑物需要安装合理的防雷装置,以拦截或引导雷电流,保护建筑物内部的人员和设备。然而&#…

戳泡泡小游戏

欢迎来到程序小院 戳泡泡 玩法: 鼠标点击上升的起泡泡,点击暴躁记录分数,不要让泡泡越过屏幕,共有三次复活生命,会有随机星星出现,点击即可暴躁全屏哦^^。开始游戏https://www.ormcc.com/play/gameStart/1…

【笔试强训选择题】Day39.习题(错题)解析

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:笔试强训选择题 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!!!&#xff…

深圳寄墨西哥专线国际快递详解

随着全球贸易的不断发展,国际快递服务的需求也越来越大。深圳这座中国的特区城市,不仅是全球电子产品供应链的重要节点,也是国际快递服务的中心之一。对于那些需要将物品从深圳邮寄到墨西哥的人来说,深圳邮寄到墨西哥专线是他们不…

记录在windows下安装MySQL所遇到的各种坑

1.下载 从官网下载installer 然后开始选择要安装的组件 安装了很久进度都是0,无奈点击show detail以后发现,webclient异常,最后是将链接地址复制到迅雷才成功下载的 等迅雷下载完成以后,会看到有如下2个新msi文件 msi都是windows…

手机照片怎么拼图?分享几种拼图小技巧

当我们有很多照片想要展示,但是单独的每一张照片都不足以表达我们想要传达的信息时,我们会把这些照片拼在一起,以形成一张照片墙或者一张拼贴画。这样不仅可以更好地展示我们想要表达的内容,还可以在视觉上创造出更多的艺术效果和…

100个ArcGIS属性查询公式

这里说的ArcGIS属性查询公式,其本质是在ArcMap中通过属性分析查询数据时,为数据库的SQL查询语句构建查询条件。 因此,这里所谓的查询公式,其实是查询条件,希望它能在你处理地图数据的工作中,为你提升些许工…

微服务架构的现状与未来:服务网格与云原生趋势解析

文章目录 微服务架构的崛起服务网格的崭露Istio和EnvoyLinkerd 云原生技术的崭露KubernetesHelm 未来趋势更强大的服务网格更智能的自动化更紧密的云原生集成 结论 🎉欢迎来到AIGC人工智能专栏~微服务架构的现状与未来:服务网格与云原生趋势解析 ☆* o(≧…

(十一)Springboot+ElasticSearch8整合

前言 在 Elasticsearch7.15版本之后,Elasticsearch官方将它的高级客户端 RestHighLevelClient标记为弃用状态。推出全新的 Java API客户端 Elasticsearch Java API Client,该客户端也将在 Elasticsearch8.0及以后版本中成为官方推荐使用的客户端。 1.导…

【nosql】redis之高可用(主从复制、哨兵、集群)搭建

redis群集有三种模式 redis群集有三种模式,分别是主从同步/复制、哨兵模式、Cluster集群,下面会讲解一下三种模式的工作方式,以及如何搭建cluster群集 ●主从复制:主从复制是高可用Redis的基础,哨兵和集群都是在主从…

c#查看代码的执行耗时( Stopwatch )

我们如果需要看某段代码的执行耗时&#xff0c;会通过如下的方式进行查看 using System.Diagnostics; private void button1_Click(object sender, EventArgs e){Stopwatch sw Stopwatch.StartNew();//sw.Start();StringBuilder sb new StringBuilder();for(int i 0; i <…

云数据中心需要加密密钥的解决方案

云数据中心的加密密钥解决方案是确保数据的保密性和安全性的重要组成部分。以下是一些常见的加密密钥解决方案&#xff1a; 对称密钥加密&#xff1a;对称密钥加密是一种常见的加密方法&#xff0c;使用相同的密钥对数据进行加密和解密。在云数据中心中&#xff0c;可以使用对称…

Matlab进阶绘图第29期—三角热图

三角热图&#xff0c;顾名思义&#xff0c;就是仅保留热图数据矩阵的上三角或下三角部分。 三角热图简单明了&#xff0c;通过不同颜色表示数据的大小&#xff0c;可以更加直观地对矩阵数据进行可视化表达。 由于Matlab中未收录三角热图的绘制函数&#xff0c;因此需要大家自…

Python编程练习与解答 练习140:邮政编码

加拿大邮政编码的第一、三和五个字符是字母&#xff0c;第二四六个字符是数字。地址所在的省和地区可以根据邮政编码的第一个字符来确定&#xff0c;如下表所示。目前有效的邮政编码不以D、F、I、O、Q、U、W、Z开头&#xff0c; 邮政编码中第二个字符标识是农村还是城市。如果…