自动驾驶BEV火了,再给它加点脑洞会靠谱吗?

news2025/2/24 21:07:00

作者 | 洪泽鑫

编辑 | Bruce


百度今年Create大会上辅助驾驶板块的内容挺硬核的,不在这个行业内基本听不懂。

正好是研究兴趣所在,结合百度给的资料,试着来中译中一下。

总的来说,百度是弄了一个车路一体的BEV感知方案——叫UniBEV。

做什么用?

简单理解,就是马路上现在都装了摄像头等传感器,百度借这个方案,想把这些设备都用上,让乘用车的辅助驾驶系统达到更好的感知结果。

即便某辆车上装了有31个感知传感器,但也会有感知不到的物体,这时就可以把路边的传感器也都用上,让车拥有“千里眼”。


先回到什么是BEV感知?

BEV是近几年车企和自动驾驶公司经常提到的词,全称是Bird's Eye View,可翻译为鸟瞰图,也被称为上帝视角。

4cc7c4fe4dbcac77254ae53374d742e2.jpeg

用上图来理解,BEV感知就是把多个视角的摄像头图像,统一通过公共的特征提取器,投影到同一个BEV空间里面,主要是两步:

  • 摄像头接收到影像,通过一个视觉神经网络的主干网络(Backbone)提取影像中的特征值(Feature);

  • 借助Transformer算法,把上一步得到的多个摄像头影像的特征值,放进一个3D空间里。

这里又涉及到Transformer算法,这是一种传统用于自然语言处理——也就是机器翻译的算法。

要想详细了解,可以看大神的这篇文章:https://zhuanlan.zhihu.com/p/552543893

文章里有个例子,当机器想把“一套自动驾驶解决方案”翻译成英文“an autonomous driving solution”时,为什么算法会知道“一套”应该翻译成“an”而非“a”?“解决方案”应该翻译成“solution”而非“settlement”?

靠的就是Transformer算法,通俗点说,它能让句子中的每个元素都能“联系上下文”,知道自己应该被翻译成什么。

2021年之后,BEV感知、Transformer都爆火了一把。

1f252a3a051a5600b4372f10b092356c.jpeg

在BEV感知之前,传统的做法是分别算出每个摄像头图像的感知结果,然后再把这些感知结果拼在一起。

假如有一辆小电动,但形状比较怪异,导致两个摄像头的感知结果不一样——一个觉得是只狗,一个觉得是台电动车,就得靠人类程序员制定规则,来下个定论——比如程序员觉得XXX情况下这肯定是只狗。

BEV不需要上述这个人类插手的过程——也是容易犯错的过程,所以可以真正做到“数据驱动”,理论上收集的数据越多,感知越精准。

23f72e0796d1f00d97215adf04fb087c.jpeg

百度之前就是用的传统的方式,上面这张图表示的是一个单目摄像头,再加上多个环视摄像头的后融合技术。

每一个不同朝向的相机,会各自先经过一个神经网络去推理出周围的障碍物位置、大小、朝向等信息,然后再把他们拼在一个3D空间里。

2019年,百度对标特斯拉做的纯视觉智能驾驶方案Apollo Lite用的就是这个技术。

虽然百度当时单个相机的深度学习感知已经做得很牛——单相机的3D感知信息都可以通过模型来输出,但有些被截断的物体也是识别不出来的,而且没有其他相机的数据作为“上下文”,也不好猜。


百度想把BEV玩出花儿来

过去的一年,百度首先也把视觉感知升级成BEV感知了。

可以检测到障碍物,预测障碍物的轨迹,以及感知道路结构(车道线、马路边缘等)。

并且记录下时间,形成一个带时间序列的4D空间,就像赛车游戏的仿真场景那样,只不过更抽象。

8619bf9efaf4e26a1b237d7576ff0245.jpeg

当然,百度开始跟进BEV并不意味着是在剽窃特斯拉。早在2016年,百度就开始在BEV视角下实现了点云感知。

而Transformer模型最早是2017年谷歌团队提出来的,之后就有各种魔改的Transformer。

而在特斯拉2021年AI DAY之前,就有一些基于Transformer做BEV感知的学术论文。

特斯拉当时的分享,让车企更有决心跟进罢了。

这两年,BEV感知也逐渐被应用于三维点云,也就是能把激光雷达也用上。

在主流BEV感知基础上,百度做了些创新,也就是开头提到的车路一体的BEV感知方案——UniBEV。


首先,百度先给传感器做了解耦。

要知道,不同量产车型的传感器数量、参数以及安装位置都是不一样的,无论是传统的视觉感知方法,还是BEV感知,每款车都得重新适配一次,只是BEV感知适配更简单。

特斯拉的车只有那么几款,所以这个问题影响不大。

但百度的方案是希望卖给很多车企的各种车型的,所以他们专门自研了一个内外参解耦算法,也就是下图中虚线框的模块。

67b3603f95f15149c179a327aaf747ad.jpeg

把不同相机解耦,意味着不管传感器的数量、位置怎么变化,都可以被投影到同一个BEV空间下面。


其次,百度在全国各地都有智能交通项目。

所以他们也想把路侧的摄像头也用上,把路侧摄像头图像提取的特征也投影到同一个BEV空间里。

电线杆上的摄像头都比较高,这就意味着车辆能有“千里眼”,真的拥有“上帝视角”,可以提前看见被遮挡的行人、电动车……

93e001fd6d77ac520cf82cd3f65352ce.jpeg

这样可以解决很多corner case,比如提前发现鬼探头(突然从看不到的角落冒出来的人)、更好地应对路口的无保护左转等等。

前两年国内在开发各种5G车路协同应用时,就有人提出类似的功能。

先算出路口的感知结果,再把这些结果通过5G网络或微波传输到车上,放进一个空间里,相当于后融合。


bd84edbc6ab3ff686c3aa35704c381b8.jpeg

上图蓝色的物体表示路端感知结果,绿色则是车端感知结果,来自轻舟


据百度的描述,UniBEV也是路端和车端在点云特征层面的BEV投影。

路端的数据如何稳定、实时地传输到车端?这块百度没有详谈,也还没有放出DEMO。


再有,百度把无人出租车的海量数据用了起来。

BEV感知的特征提取,主要依靠神经网络模型,这意味着要有足够多的数据,而且是有真值的数据,才能训练出一个强大的模型。

百度现在有几百台无人出租车在北京、上海、重庆、武汉这些城市测试,积累了有超4000万公里的数据,正好都可以用上。

因为这些数据既有视觉图像的数据,也有激光雷达的数据,还有3D的感知结果,可以作为云端真值系统来使用。

在识别障碍物这件事上,百度相当于拥有了一个经验丰富的老师傅。

1715fbe2c5cb6763e50acff7b4a61fbf.jpeg

这个云端真值系统是没有人工介入做精标注的,如果从中挑选出一些特殊的场景数据,人工进行精标注的话,还能得到一个更高质量的模型。


最后,凭借百度地图的高精地图,百度能让BEV的语义地图精度更高。

目前国内的辅助驾驶方案都是需要高精地图的,百度地图这样的图商会提前把各地的道路都扫一遍,形成高精度的语义地图。

而BEV感知是支持生成局部的语义地图的,这也是为什么特斯拉敢说自己不需要高精地图。

4d4e0ca6117ea5cd8c22af2aa9c8750b.jpeg

照这个逻辑,百度地图收集的高精地图是不是就毫无用武之地了?

非也。

百度目前将这些高精地图以及高精度的定位信息,作为BEV感知的训练数据来用。

f5fdf7c18037a6059cac2ecaa38e712e.jpeg

也就是说,在识别道路结构这件事上,百度也有一个经验老道的老师傅。

总的来说,百度在跟进BEV感知上拥有不少优势。

前段时间,百度放出了一个ANP 3.0的DEMO视频,纯视觉方案跑城市NOA功能,表现不错。



这次提出的UniBEV,在理论上也是说得通的,并且也发挥了百度在车路协同模块的优势。

只是UniBEV这一创新什么时候会落地(估计还远),就要看百度高阶自动驾驶落地的第一款车了。

目前,百度有一支几百人的团队对接集度,提供高阶智驾能力,集度的团队在这个基础上进行产品定义。

百度也开始在北、上、广、深多地做ANP3.0的泛化测试了,确保明年下半年方案的量产和功能交付。

只期待能快点坐到实车上体验一番了。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/156331.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于FPGA的UDP 通信(二)

引言前文链接:基于FPGA的UDP 通信(一)本文继续介绍与以太网数据协议相关的内容。以太网帧协议IEEE802.3标准规定了,以太网数据传输的格式:字段解释:字段名称字段长度/(字节)含义前导…

【MyBatis】第二篇:核心配置文件常用标签

前提 Mbatis的配置文件中的顺序如下: MyBatis核心配置文件中的标签必须安装指定的顺序配置。 (properties?,settings?,typeAliases?,typeHandlers?,objectFactory?,objectWrapperFactory?,reflectorFactory?,plugins?,environments?,databaseIdProvider?…

SweetAlert让消息弹出窗口更加具有个性化!

SweetAlertSweetAlert是指可对JavaScript标准功能alert()和confirm()进行个性化定制的库。SweetAlert的要点官网上有很多示例,看了这些基本上就OK了。但是,在kintone上使用时,【弹出消息后更新页面】这个处理只参照示例来写的话,一…

微信小程序分包

1.什么是分包? 分包指的是把一个完整的小程序项目,按照需求划分为不同的子包,在构建时打包成不同的分包,用户在使用时按需进行加载。 2.分包的好处对小程序进行分包的好处主要有以下两点: 可以优化小程序首次启动的下载时间在多…

Elasticsearch 核心技术(四):索引管理、映射管理、文档管理(REST API)

❤️ 个人主页:水滴技术 🚀 支持水滴:点赞👍 收藏⭐ 留言💬 🌸 订阅专栏:大数据核心技术从入门到精通 文章目录一、索引管理1. 创建索引创建一个索引索引设置映射字段别名2. 获取索引3. 删除索…

阿拉伯数转中文与英文[找到规律,抽象问题,转换成代码]

阿拉伯数转中文与英文前言一、阿拉伯数字转换1、阿拉伯数字转中文a、案例b、解决方案2、阿拉伯数转英文a、案例b、解决方案总结参考文献前言 如果思考算法的解法方案是一种模拟,那么这一般不是个好的解决方案。对于一个复杂的问题,挖掘其中的规律&#…

制造业管理系统如何帮助企业快速应对品质异常问题?

在企业生产制造过程中,成品发生品质异常问题是不可避免的。当成品出现问题,为了有效防范批量品质事故,品管需要快速判断可能是哪个材料引起的,需要知道这批成品是谁做的,什么时候做的,提供材料的分别是哪个…

MySQL基础篇语句--DDL语句

SQL简介 当面对一个陌生的数据库时,通常需要一种方式与它交互,以完成用户所需要的各种工作,这个时候,就要用到SQL语言了。 SQL是Structure Query Language(结构化查询语言)的缩写,它是使用关系模型的数据库应用语言,由…

传统推荐模型(一)协同过滤算法_UserCF和ItemCF

传统推荐模型(一)协同过滤算法_UserCF 1、UserCF 协同过滤就是协同大家的反馈、评价和意见一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息的推荐过程。 物品1物品2物品3物品4物品5用户131233用户243435用户333154用户41552…

OneNote(或印象笔记)迁移到Joplin的方法

2023年1月10日实操记录简介背景是必须卸载OneNote,所以要迁移笔记。告别了用了23年的Outlook ,和10年左右的OneNote,小伤感,自此一别 就不能用练就的VBA技能在Excel和Access中处理数据了。。。基本前提Joplin支持.enex格式文件的导…

总结述职报告撰写方法,报告目的、对象、内容、技巧等

导语 又到年末时,述职报告再一次席卷而来。这篇文章将带来干货满满的述职报告撰写方法,包括述职目的、对象、内容、技巧等多个方面。 一、述职目的 有多少人认为,述职只是走个形式,走个过场的? 如果你这样认为&#x…

2023济南制药机械展|中国(济南)国际制药机械与包装技术展览会

2023中国(济南)国际制药机械与包装技术展览会将于2023年3月30-4月1日在山东国际会展中心(济南市槐荫区日照路1号)同期举办:2023第11届国际生物发酵展2023国际生化仪器与实验室装备展2023国际生物技术与生物制药展支持单…

以太网链路聚合与交换机堆叠、集群

网络的可靠性 网络的可靠性指当设备或者链路出现单点或者多点故障时保证网络服务不间断的能力网络的可靠性可以从单板、设备、链路多个层面实现 一般重要的核心设备都有一定的冗余 s12700E-8机框正面结构 框式交换机由机框、电源模块、风扇模块、主控板、交换网板&#xff…

CSS入门六、常用技巧

零、文章目录 文章地址 个人博客-CSDN地址:https://blog.csdn.net/liyou123456789个人博客-GiteePages:https://bluecusliyou.gitee.io/techlearn 代码仓库地址 Gitee:https://gitee.com/bluecusliyou/TechLearnGithub:https:…

人工智能-linux高级操作命令

目录1、 重定向命令2、查看文件内容命令3、链接命令3.1 软链接4、查找文件内容命令5、查找文件命令6、压缩和解压缩文件7、文件权限命名8、获取管理员权限的相关命令9、远程登陆、远程拷贝10、软件安装与卸载11、vim介绍1、 重定向命令 将目录下的文件名全部写入新文件 touch …

场景编程集锦 - BMI指数与健身达人

1. 场景描述 BMI指数(身体质量指数,英文Body Mass Index)是用体重公斤数除以身高米数的平方得出的数字,是目前国际上通用的衡量人体胖瘦程度以及是否健康的一个标准。“身体质量指数”这个概念,是由19世纪中期的比利时…

马蹄集 宽度与对齐

宽度与对齐 难度:白银 时间限制:1秒巴占用内存:64M 输出455、-123、987654,宽度为5,分别左对齐和右对齐 格式 输入格式:无 输出格式:输出为整型,空格分隔。每个数的输出占一行 #inc…

[34]. 在排序数组中查找元素的第一个和最后一个位置

在排序数组中查找元素的第一个和最后一个位置题目算法设计:二分查找题目 算法设计:二分查找 进行两次二分查找(定制版本),第一次先查找【第一个大于等于target的数】,第二次再查找【第一个大于target的数】…

Mac安装python3并配置环境变量

文章目录homebrew 安装 python3配置 python3 环境变量homebrew 安装 python3 可以用 homebrew 安装,也可以官网下载安装,我这里选择使用 homebrew 安装,没有装 homebrew 的小伙伴请自行百度 brew install python3我们执行下 python3 发现可…

Centos7安装高版本zshzim框架安装powerlevel10k

1. 安装高版本zsh 1.1 卸载低版本zsh sudo yum remove zsh -y1.2 下载源码 源码:https://zsh.sourceforge.io/Arc/source.html # 下载 wget https://jaist.dl.sourceforge.net/project/zsh/zsh/5.9/ # 解压 $ tar xvf zsh-5.9.tar.xz1.3 编译安装 yum install …