解读BEVFormer,新一代CV工作的基石

news2024/11/17 20:34:19

文章出处

BEVFormer这篇文章很有划时代的意义,改变了许多视觉领域工作的pipeline[2203.17270] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2203.17270

BEV (Bird's Eye View)

即鸟瞰图通常用于描述地面上的物体、车辆、行人以及其他障碍物的位置和运动,含有丰富的特征。在自动驾驶系统中,BEV可以帮助车辆更好地理解周围的车辆和行人的位置,从而更安全地进行驾驶决策。

BEVFormer

这是一种基于Transformer的BEV编码器,从多视角摄像头和历史BEV特征中聚合时空特征,即时空编码,注意力机制用来融合时空信息。

文中提到了三个关键点

  • 网格状BEV查询,通过灵活的注意机制融合空间和时间特征

  • 空间交叉注意模块,用于聚合来自多摄像头图像的空间特征

  • 时间自注意模块,来自RNN的思想,用于从历史BEV特征中提取时序信息,(移动物体的速度估计和遮挡物体的检测)递归操作实现的准确速度预测

上面这个是文章中给出的示意图。输入数据是六个摄像头在相同时间段内的数据,每个时刻对应了六张图表示周围的空间。

具体工作流程

先对前一个时刻的BEV特征做查询结合上当前的时刻特征,这样就是能够学习到时序关系,输出的BEV query再空间交叉注意力查询多摄像头的特征信息,生成当前时间戳的BEV特征bev_embedding。

loss和损失评估

匈牙利算法做框匹配,利用已知的框位和模型框选计算L1 loss,结合分类损失平均最小

文中的关键概念解析

空间交叉注意力的概念

每个BEV查询只和感兴趣区域内的特征做交互,减少计算需要,也不会损失很多关键信息,学习效果也可以比全局注意力机制更强。这是基于可变注意力Deformable Attention的一个改进。首先操作是升为柱状的查询,不同高度的点只会对应某几个视角下2D图片的几个点位置,只对这些区域做查询,太高或太低导致不出现在2D图片中的投影点就不查询。

时间自注意力的概念

BEV查询会交互两个特征信息,当前的BEV和历史的BEV,比较特例的是时间序列的第一个样本不包含时间信息。操作是先将BEV查询Q和t-1时刻的特征对齐。这是因为车在运动,前后时刻的特征在空间上不对齐,使用车辆的旋转角度和偏移信息数据来做特征对齐。车周围的物体运动依靠注意力机制的学习实现对齐。文中提到的偏移量是一个车在运动时造成画面中特征的偏移值,这个根据自注意力学习得到,偏移量是对于参考点的一个修正作用。

BEV Quires

BEV中自注意力查询的方式:每次的操作在平面中查询一块的H,W大小网格中的信息,查询前对BEV查询Q做位置嵌入,目的是用于查询得到BEV特征图

应用

  • 3D目标检测,利用得到的BEV特征作为3D检测头输入,实现3D边框的检测和速度预测,无需后处理。

  • 地图分割,设计2D分割头,类似语义分割,利用掩码解码器做类别查询,实现车辆,道路,车道线等划分

代码部分的一些解读

论文项目的代码仓库fundamentalvision/BEVFormer: [ECCV 2022] This is the official implementation of BEVFormer, a camera-only framework for autonomous driving perception, e.g., 3D object detection and semantic map segmentation. (github.com)icon-default.png?t=N7T8https://github.com/fundamentalvision/BEVFormer

观察代码部分,可以发现其中先分别构建构建分类和回归的分支。

对于目标检测和边缘标注任务,将模型输出的当前bev_embedding特征做一个解码。

用到了多层的Decoder嵌套,每一层都会有计算分类和回归结果,除了初始选定参考点,每一次都是用回归的结果对前面参考点的一个优化,最终得到分类。具体是先通过自注意力更新query以及参考点做可变形的注意力,酸菜查询特征,再调用回归分支计算得到预测输出,输出的就是预测框的坐标和相关的运动信息,拿来更新点。

框选的实现是根据已经解码出来的一组点数据,结合做3D格式转换实现视频中框选和标注

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1413829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数论Leetcode204. 计数质数、Leetcode858. 镜面反射、Leetcode952. 按公因数计算最大组件大小

Leetcode204. 计数质数 题目 给定整数 n &#xff0c;返回 所有小于非负整数 n 的质数的数量 。 代码 class Solution:def countPrimes(self, n: int) -> int:if n < 2:return 0prime_arr [1 for _ in range(n)]prime_arr[0], prime_arr[1] 0, 0ls list()for i in…

链表--102. 二叉树的层序遍历/medium 理解度C

102. 二叉树的层序遍历 1、题目2、题目分析3、复杂度最优解代码示例4、适用场景 1、题目 给你二叉树的根节点 root &#xff0c;返回其节点值的 层序遍历 。 &#xff08;即逐层地&#xff0c;从左到右访问所有节点&#xff09;。 示例 1&#xff1a; 输入&#xff1a;root […

Django开发_20_form表单前后端关联(2)

根据上一篇文章的代码,进一步了解掌握GET,POST的运行机制 一、实例代码 views.py: def show_reverse(request):if request.method "GET":return redirect(reverse("work4:fill"))if request.method "POST":hobby request.POST.get("h…

Android Studio离线开发环境搭建

Android Studio离线开发环境搭建 1.下载离线和解压包2.创建工程3.创建虚拟机tips 1.下载离线和解压包 下载地址 百度网盘&#xff1a;https://pan.baidu.com/s/1XBPESFOB79EMBqOhFTX7eQ?pwdx2ek 天翼网盘&#xff1a;https://cloud.189.cn/web/share?code6BJZf2uUFJ3a&#…

Apache SeaTunnel 数据集成插件开发最新经验总结!

在Apache SeaTunnel的最新插件开发中&#xff0c;connector-v2 maxcompute 连接器实现了基于CatalogTable SaveMode的新版本。 本文主要给大家分享了源端的关键改动包括弃用了过时的方法&#xff0c;改为通过CatalogTable实现数据传递。汇端则增加了对multi-table sink和save…

HTML+JavaScript-04

JavaScript中的循环 for语句 一个for循环会一直执行&#xff0c;直到循环条件为false for(let i0; i<array.length-1; i){//当遍历完数组后结束循环console.log(array[i] "<br/>");//循环语句 }do...while语句 do...while 语句一直重复直到指定的条件求…

深入理解Redis:如何设置缓存数据的过期时间及其背后的机制

目录 Redis 给缓存数据设置过期时间 Redis是如何判断数据是否过期的呢&#xff1f; 过期的数据的删除策略 Redis 内存淘汰机制 Redis 给缓存数据设置过期时间 一般情况下&#xff0c;我们设置保存的缓存数据的时候都会设置一个过期时间。为什么呢&#xff1f; 因为内存是有…

shell编程-7

shell学习第7天 sed的学习1.sed是什么2.sed有两个空间pattern hold3.sed的语法4. sed里单引号和双引号的区别:5.sed的查找方式6.sed的命令sed的标签用法sed的a命令:追加sed的i命令:根据行号插入sed的c命令:整行替换sed的r命令sed的s命令:替换sed的d命令:删除sed中的&符号 7…

Ubuntu20.04添加桌面启动、侧边栏启动和终端启动

桌面启动 新建XX.desktop文件 在桌面新建一个XX.desktop文件&#xff0c;以QtCreator为例。 &#xff08;注意这里不能使用sudo&#xff0c;因为这样会把文件的权限归为root&#xff0c;导致后续设置可执行程序不方便&#xff09; gedit qtcreator.desktop在XX.desktop文件中…

算子:详细篇

目录 一、执行环境 1.1 创建执行环境 1.2 执行模式 二、源算子 2.1 从集合中读取数据 2.2 从文件读取数据 2.3 从socket读取数据 2.4 从kafka读取数据 三、转换算子 3.1 基本转换算子 &#xff08;1&#xff09;映射(map) &#xff08;2&#xff09;过滤(filter) &#xff08…

数据结构与算法教程,数据结构C语言版教程!(第六部分、数据结构树,树存储结构详解)二

第六部分、数据结构树&#xff0c;树存储结构详解 数据结构的树存储结构&#xff0c;常用于存储逻辑关系为 "一对多" 的数据。 树存储结构中&#xff0c;最常用的还是二叉树&#xff0c;本章就二叉树的存储结构、二叉树的前序、中序、后序以及层次遍历、线索二叉树、…

ASP.NET 7 Core Web 读取appsetting.json

把一些配置信息保存在json文件可以避免更改时要重新发布程序的烦恼。 我这里使用的是写一个类文件&#xff0c;然后通过program.cs启动的方式&#xff08;.net 6 开始没有startup了&#xff09;。 项目类型&#xff1a;ASP.NET Core Web MVC / .NET 7.0 / VS2022 第一步…

架构学习(一):scrapy实现按脚本name与日期生成日志文件

原生scrapy日志机制 一般情况下&#xff0c;我们可以直接在setting文件中定义日志文件&#xff0c;这种会把所有脚本的日志都写在同一个文件 LOG_LEVEL INFO # 日志级别 LOG_STDOUT True # 日志标准输出 LOG_FILE rD:\python\crawler\logs\1163.log # 日志文件路径现在…

少儿编程 2023年12月电子学会图形化编程等级考试Scratch一级真题解析(选择题)

2023年12月scratch编程等级考试一级真题 选择题&#xff08;共25题&#xff0c;每题2分&#xff0c;共50分&#xff09; 1、观察下列每个圆形中的四个数&#xff0c;找出规律&#xff0c;在括号里填上适当的数 A、9 B、17 C、21 D、5 答案&#xff1a;C 考点分析&#xf…

niushop靶场漏洞查找-文件上传漏洞等(超详细)

实战漏洞-niushop 一.端口扫描 http://www.xxx.com/index.php?s/admin/login 这里查询到后面的url有且仅有一个&#xff0c;目测估计是后台 访问url 发现确实是后台 二、找漏洞 Sql注入漏洞1&#xff1a; 点击进去 修改id www.xxx.com/index.php?s/goods/goodslist&…

automa插件使用的一些实战经验3

1 子流程的变量怎么传回父流程 主流程向子流程传参很容易 在子流程可以看到&#xff0c;父流程定义的表格&#xff0c;在子流程中是看不到的&#xff0c;那么子流程定义的变量如何传回父流程呢&#xff1f;另外在子流程再添加执行工作流&#xff0c;是无法选择父流程本身&…

惊了!用vue开发官网,以前我觉得胡闹,现在觉得未尝不可。

以前&#xff0c;有人做好官网UI&#xff08;展示性&#xff0c;没啥功能&#xff09;&#xff0c;找我开发前端&#xff0c;说要vue来做&#xff0c;我都劝了。 基于以下四个原因&#xff1a; 1、官网毕竟还是考虑seo的&#xff0c;流量多少算多少&#xff0c;总比没有强&am…

如何使用 dotnet pack 打包 .NET 跨平台程序集?

如何使用 dotnet pack 打包 .NET 跨平台程序集&#xff1f; dotnet pack 介绍官方描述 dotnet pack 命令说明使用示例打包 .net 类库项目生成带注释的 nuget 包构建特定平台的 nuget 包关于 .NET RID 目录 dotnet pack 介绍 dotnet pack 是一个 .NET Core NuGet 包打包程序。 …

鸿蒙开发初体验

文章目录 前言一、环境配置1.1 安装DevEco Studio1.2 安装相关环境 二、工程创建三、工程结构介绍四、代码实现4.1 初识ArkTs4.2 具体实现 参考资料 前言 HarmonyOS是华为公司推出的一种操作系统&#xff0c;旨在为不同设备提供统一的操作系统和开发平台。鸿蒙开发的出现为用户…

3d gaussian splatting笔记(paper部分翻译)

本文为3DGS paper的部分翻译。 基于点的&#x1d6fc;混合和 NeRF 风格的体积渲染本质上共享相同的图像形成模型。 具体来说&#xff0c;颜色 &#x1d436; 由沿射线的体积渲染给出&#xff1a; 其中密度 &#x1d70e;、透射率 &#x1d447; 和颜色 c 的样本是沿着射线以…