MapTR 论文研读

news2024/11/18 20:28:50

MapTR 论文研读

MapTR论文 :https://arxiv.org/pdf/2208.14437.pdf

代码:https://github.com/hustvl/MapTR

MapTR(来自地平线)

1.摘要

作者们提出了一种有效构建高清地图的方法(MapTR),该地图为自动驾驶系统的规划提供丰富且精确的环境信息。这是一种结构化端到端变换器,用于高效在线矢量化地图构建。作者提出了一种统一的等价排列建模方法,即将地图元素建模为一个具有一组等价排列的点集,这准确地描述了地图元素的形状并稳定了学习过程。他们设计了一种分层查询嵌入方案,以灵活地编码结构化地图信息,并对地图元素学习进行分层二分匹配。在nuScenes数据集上,与现有的基于相机输入的矢量化地图构建方法相比,MapTR实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度运行(25.1 FPS),比现有的最先进的基于相机的方法(VectorMapNet C)快8倍,同时实现了5.0的mAP提高。与现有的最先进多模态方法相比,MapTR-nano(VectorMapNet C&L)实现了0.7的mAP的提高,而MapTR-tiny实现了13.5的mAP的提高和3倍的推理速度。丰富的定性结果显示,MapTR在复杂和各种驾驶场景中保持了稳定且鲁棒的地图构建质量。MapTR在自动驾驶领域具有重要的应用价值。

2. 论文贡献

本文的贡献可以总结如下:

• 提出了一种统一的等价排列建模方法,用于地图元素,即将地图元素建模为一个具有一组等价排列的点集,这准确地描述了地图元素的形状并稳定了学习过程。

• 基于这种新颖的建模方法,设计了MapTR,一种用于高效在线矢量化高清地图构建的结构化端到端框架。作者设计了一种分层查询嵌入方案,以灵活地编码实例级和点级信息,执行地图元素学习的分层二分匹配,并利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

• MapTR是首个实时且最先进的矢量化高清地图构建方法,在复杂和各种驾驶场景中都具有稳定而强大的性能。

image

image

早期的研究(Chen等,2022a; Liu等,2021a; Can等,2021年)利用线形先验知识,基于前视图像来感知开放形式车道。然而,它们受限于单视角感知,无法处理具有任意形状的其他地图元素。

Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei
Geng, Hongyang Li, Con-

ghui He, Jianping Shi, Yu Qiao, and Junchi Yan. Persformer: 3d lane
detection via perspective

transformer and the openlane benchmark. In ECCV, 2022a.

Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane
shape prediction with transformers. In WACV, 2021a.

Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, and Luc Van
Gool. Structured bird’s-eye-view traffic scene understanding from
onboard images. In ICCV, 2021.

随着俯视图BEV的发展,最近的研究(Chen等,2022b; Zhou&Kr¨ahenb¨uhl,2022年; Hu等,2021年; Li等,2022c年)通过进行BEV语义分割来预测光栅化地图。然而,光栅化地图缺乏矢量化的实例级信息,例如车道结构,这对于下游任务(例如运动预测和规划)很重要。

Shaoyu Chen, Tianheng Cheng, Xinggang Wang, Wenming Meng, Qian Zhang,
and Wenyu Liu. Efficient and robust 2d-to-bev representation learning
via geometry-guided kernel transformer. arXiv preprint
arXiv:2206.04584, 2022b.

Brady Zhou and Philipp Krähenbühl. Cross-view transformers for
real-time map-view semantic segmentation. In CVPR, 2022.

Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu,
Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view
representation from multi-camera images via spatio temporal
transformers. In ECCV, 2022c.

为了构建矢量化的HD地图,HDMapNet(Li等,2022a年)将像素级别的分割结果进行分组,这需要复杂而耗时的后处理。

Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. Hdmapnet: An online hd map
construction and evaluation framework. In ICRA, 2022a.

VectorMapNet(Liu等,2022a年)将每个地图元素表示为一个点序列。它采用级联的粗到精的框架,并利用自回归解码器按顺序预测点,从而导致了较长的推理时间。

Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Vectormapnet:
End-to-end vectorized hd map learning. arXiv preprint
arXiv:2206.08920, 2022a.

不同于目标检测,其中目标可以很容易地几何抽象为边界框,矢量化地图元素具有更动态的形状。为了准确描述地图元素,作者提出了一种新颖的统一建模方法。将每个地图元素建模为一个具有一组等价排列的点集。点集确定了地图元素的位置。排列群包括了点集的所有可能的组织顺序,对应于相同的几何形状,避免了形状的歧义

基于等价排列建模,作者设计了一个结构化框架,以车载摄像头的图像作为输入,并输出矢量化的高清地图。作者将在线矢量化高清地图构建流程简化为一个并行回归问题。作者提出了分层查询嵌入,以灵活地编码实例级和点级信息。都是通过统一的Transformer结构同时预测所有实例和实例中的所有点。训练过程被形式化为一个分层集合预测任务,作者进行分层的二分匹配来依次分配实例和点。作者利用提出的点对点损失边缘方向损失点和边缘级别的几何形状进行监督。

凭借所有提出的设计,作者呈现了MapTR,一种高效的端到端在线矢量化高清地图构建方法,具有统一的建模和架构。在nuScenes(Caesar等,2020年)数据集上,MapTR在现有的矢量化地图构建方法中实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度(25.1 FPS)运行,比现有最先进的基于相机的方法快8倍,同时实现了5.0倍的mAP提高。与现有的最先进多模态方法相比,MapTR-nano实现了0.7倍的mAP提高和8倍的推理速度,而MapTR-tiny实现了13.5倍的mAP提高和3倍的推理速度。正如可视化显示的(图1),MapTR在复杂和各种驾驶场景中保持了稳定而强大的地图构建质量。

3. 其他相关工作

1.HD地图构建

近年来,随着2D到BEV方法的发展(Ma等,2022年),HD地图构建被定义为基于车载摄像头捕获的全景视图图像数据的分割问题。

Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming
Wang, Y. Qiao, Ruigang Yang, Dinesh Manocha, and Xinge Zhu.
Vision-centric bev per

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1252745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[AutoSAR 存储] 汽车智能座舱的存储需求

公知及经验整理&#xff0c;原创保护&#xff0c;禁止转载。 专栏 《AutoSAR 存储》 <<<< 返回总目录 <<<< 1 智能座舱的发展&#xff1a; 1.1 发展历史 车辆信息娱乐系统的发展可以分为三个阶段。 机械化阶段 在上世纪90年代&#xff0c;车辆仪表盘…

LeetCode78.子集

这道题如果用暴力法几乎是不可能解出来的&#xff0c;因为情况太复杂了&#xff0c;但是一旦用上递归回溯就会轻松很多&#xff0c;先上代码&#xff1a; class Solution {List<List<Integer>> result new ArrayList<List<Integer>>();List<Integ…

服务器连接github

https://zhuanlan.zhihu.com/p/543490354 比着这个一步步做就行。 https://blog.l0v0.com/posts/94ffdbdf.html 上传文件可以看这个 注意&#xff1a; 密钥ssh-keygen设置好之后&#xff0c;以后就不用每次输入账号密码才能访问了。 otherwise&#xff0c;每次要输入账号密码。…

ENVI中给影像添加坐标系

目录 待匹配影像坐标系信息参考影像坐标信息通过参考影像匹配坐标系 当我们在ENVi中打开影像发现缺失坐标系的时候&#xff0c;可以非常方便地通过参考影像来对其进行坐标系的匹配。 待匹配影像坐标系信息 首先我们双击想要加坐标系的影像查看Metedata&#xff0c;发现此时影像…

打破障碍:2024年赋能企业人工智慧生成创新-5个应用场景与6个转型步骤

想要了解如何采用生成式AI来提高企业效率和竞争力&#xff1f;本指南将介绍如何采用生成式AI来实现数字化转型&#xff0c;并打造智能化商业模式。从5大应用场景和6大步骤切入&#xff0c;让您了解如何开启生成式AI创新。立即连线创新专家咨询或观看创新战略方案视频进一步了解…

每日一题(LeetCode)----链表--链表中的下一个更大节点

每日一题(LeetCode)----链表–链表中的下一个更大节点 1.题目&#xff08;1019. 链表中的下一个更大节点&#xff09; 给定一个长度为 n 的链表 head 对于列表中的每个节点&#xff0c;查找下一个 更大节点 的值。也就是说&#xff0c;对于每个节点&#xff0c;找到它旁边的第…

蓝桥杯每日一题2023.11.25

题目描述 “蓝桥杯”练习系统 (lanqiao.cn) 题目分析 对于此题目最开始是递归想法&#xff0c;但发现题意中的匹配次数实际上是指在这8个字母中这8个字母每个字母对应的个数是否相同&#xff0c;如果相同则匹配。 此处我们可以使用subsrtr函数&#xff0c;每次循环截取8个字…

死锁是什么?死锁是如何产生的?如何破除死锁?

1. 死锁是什么 多个线程同时被阻塞&#xff0c;它们中的一个或者全部都在等待某个资源被释放。由于线程被无限期地阻塞&#xff0c;因此程序不可能正常终止。 2. 死锁的三种典型情况 一个线程, 一把锁, 是不可重入锁, 该线程针对这个锁连续加锁两次, 就会出现死锁. 两个线程…

图的邻接矩阵,邻接表的C语言实现(408真题)

图的邻接矩阵 数据结构定义 #define MAXV 50;//顶点数目的最大值 typedef struct{int vex[MAX]; //顶点表 int edge[MAXV][MAXV]; //邻接矩阵 int edgeNum,vexNum; //图中实际的边数和顶点数 }MGraph;初始化 void Matrix_Init(MGraph *Mgraph) {int v1, v2;//存储有边的…

【Linux】指令详解(三)

目录 1. 前言2. 常见指令2.1 重定向2.1.1 >2.1.2 >>2.1.3 < 2.2 与文件有关指令2.2.1 more2.2.2 less &#xff08;推荐使用&#xff09;2.2.3 head2.2.4 tail2.2.5 wc2.2.6 | 2.3 find2.4 grep 3. 时间相关的指令3.1 data3.2 时间戳3.3 cal 4. zip/unzip 1. 前言 …

JVM——垃圾回收(方法区中的垃圾回收和(堆回收)自动垃圾回收)

目录 1.自动垃圾回收介绍1.C/C的内存管理2.Java的内存管理3.垃圾回收的对比 2.方法区的回收方法区的回收 – 手动触发回收 3.堆回收1.引用计数法2.可达性分析算法 1.自动垃圾回收介绍 1.C/C的内存管理 ⚫ 在C/C这类没有自动垃圾回收机制的语言中&#xff0c;一个对象如果不再…

2017年8月3日 Go生态洞察:贡献者峰会探秘

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

智能化学习打破资源障碍 成为英语学习新趋势

智能化学习是一种基于互联网和人工智能技术的学习行为,通过网络,学习者可以随时随地进行学习,真正打破了时间和空间的限制。与传统线下学习方式相比,智能化学习更加方便、资源更加丰富,使海量英语学习资源唾手可得,智能化学习正逐渐成为中国孩子习得英语的重要方式。 随着全球…

代码随想录算法训练营第四十五天|57. 爬楼梯、322.零钱兑换、279. 完全平方数

KamaCoder 57. 爬楼梯 题目链接&#xff1a;题目页面 (kamacoder.com) 这道题使用完全背包来实现&#xff0c;我们首先考虑的是总的楼梯数&#xff0c;因此dp数组大小为n 1 &#xff0c;其意义是&#xff0c;在n阶时有多少种方法爬到楼顶&#xff0c;因此&#xff0c;当前n状…

MVCC多版本并发控制相关面试题整理

多版本并发控制是一种用于支持并发事务的数据库管理系统技术&#xff0c;它允许多个事务同时访问数据库&#xff0c;而不会相互干扰或导致数据不一致。MVCC通过在数据库中维护不同版本的数据来实现这一目标&#xff0c;从而允许每个事务看到一致的数据库快照。 并发导致的问题…

基于51单片机的人体追踪可控的电风扇系统

**单片机设计介绍&#xff0c; 基于51单片机超声波测距汽车避障系统 文章目录 一 概要概述硬件组成工作原理优势应用场景总结 二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 # 基于51单片机的人体追踪可控的电风扇系统介绍 概述 该系统是基于51…

王者农药小游戏

游戏运行如下&#xff1a; sxt Background package sxt;import java.awt.*; //背景类 public class Background extends GameObject{public Background(GameFrame gameFrame) {super(gameFrame);}Image bg Toolkit.getDefaultToolkit().getImage("C:\\Users\\24465\\D…

【教学类-06-09】20231125 (55格版)X-Y之间“加法减法+-题” (以10-20之间为例)(加法的正序+逆序,减法的正序,题目多)

图片展示 需求&#xff1a; 20以内加法减法&#xff0c;不需要再练习其中10以内部分&#xff0c;改为10-20以内的加法减法&#xff0c;X-Y大于10&#xff0c;小于20的所有加法减法题。 代码展示&#xff1a; X-Y 之间的所有加减混合法题&#xff08;如10-20之间的所有加法减法…

Proteus仿真--基于DS1302与1602LCD设计的可调式电子日历与时钟

本文介绍基于51单片机的DS1302与1602LCD可调式电子日历与时钟&#xff08;完整仿真源文件及代码见文末链接&#xff09; 仿真图如下 本设计中时间芯片选用DS1302芯片&#xff0c;液晶选用LCD1602模块&#xff0c;按键K1-K4&#xff0c;K1用于年月日时分选择&#xff0c;K2用于…

前端入门(三)Vue生命周期、组件技术、脚手架、存储、事件总线、

文章目录 Vue生命周期Vue 组件化编程 - .vue文件非单文件组件组件的注意点组件嵌套Vue实例对象和VueComponent实例对象Js对象原型与原型链Vue与VueComponent的重要内置关系 应用单文件组件构建 Vue脚手架 - vue.cli项目文件结构组件相关高级属性引用名 - ref数据接入 - props混…