自动驾驶之MultiPath++论文阅读笔记

news2024/11/20 2:26:07

预测道路参与者的future behavior.

摘要

  • 将输入由dense image-based encoding改为a sparse encoding of heterogeneous scene elements.
    即用polylines(折现)来描述road features和原始的agent state information(例如位置、速度和加速度)。
    主要方法是对这些元素进行a context-aware fusion,然后开发一个可重复使用的(reusable) multi-context gating fusion组件.
  • 重新考虑预定义的、静态的anchors的选择,使得模型可以端到端学习latent anchor embeddings.
  • ensemble和output aggregation技术,寻找effective概率的多模型输出表达

Introduction

目前在自动驾驶中,对human agents建模和预测有以下难点:

  • Multimodal output space: 未来环境的不可知性,使得模型必须可以表达rich output space.
  • Heterogenous, interrelated(相互关联的) input space:动静态混合输入,包括道路信息、交通灯、agents的历史状态. 驾驶是高度交互的,可以有很多agent.

MultiPath的光栅化的方法有如下缺点:

  • 空间网格的分辨率、视野和计算要求三者的trade-off.
  • 这是个人工特征工程,一些特征内在的不适合,例如径向速度(radial velocity)
  • 小的卷积视野很难获取长距离的交互。
  • 信息是系数的,dense表达是潜在浪费的.

MultiPath++比MultiPath有如下改进:

  • 避开光栅化+CNN的方法,将road元素表示为折现(polylines),agent的历史信息保存为一个RNN编码的序列,agent交互为与本车相邻的状态的RNNs. 避免了荣誉的光栅化
  • 获取road和agent之间的关系很重要,将所有road element交互地编码效果会更好,因此提出multi-context gating(MCG).
  • 探索轨迹建模。比较基于动力学控制和连续时间地多项式
  • 在miss-rate(MR)和mAP上得到提升.
  • 在Waymo Open Motion Dataset上第一,在Argoverse Motion Forecating上第4.

在这里插入图片描述

3.1 输入表达

  • Agent state history: 一个state sequence, 固定past steps. 坐标系: agent-centric坐标系,最近的agent pose在原点,朝向东.
    • 在Waymo数据集中,包括位置、速度、3D框的大小、朝向角和目标类型.
    • Argoverse数据集,仅有位置信息.
    • Road network:路网例如车道线、人行道、停止线,表达为参数曲线。进一步通过对每个road element 近似点序列作为线性/多项式的a set of piecewise.
    • Agent interactions:对于每个agent,考虑其所有邻居agent. 对于每个邻居,考虑agent坐标系下的坐标系. 例如相对朝向、相对距离、历史和速度
    • AV-relative features: 提取自动驾驶车辆相对于其它agent的features,

3.2 Multi Context Gating for fusing modalities

MCG满足:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QRfQg1R0-1670638818528)(:/065b5969e0f84f7f88db1037806f9228)]

s 1 : N s_{1:N} s1:N作为elements的集合
置换之后,input context vector c c c不变, 输出为输入的置换.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hm9DYGTA-1670638818529)(:/4c46ada762134c239382a9136b29c3cd)]

在这里插入图片描述
在这里插入图片描述

3.3 Encoders

  • Agent history encoding. encode由以下三个向量concat

    • 对历史features作用于LSTM,从历史时间T到当前
    • LSTM到相邻feature之差
    • frame_id: one-hot; MCG blocks运用到这些历史的elements,每个element的包含历史位置和time offset(以秒为单位)相对于当前时间
  • Agent interaction encoding:
    考虑每个相邻agent v v v的历史观测
    在这里插入图片描述

将第 v v v个状态转到当前建模agent的坐标系,使用LSTM来获取一个embedding.

获取一系列交互embeddings后,使用MCG进行融合:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ymMBjwsg-1670638818535)(:/99cf1521f7d24b60acf0bb7ec8b82f18)]

  • 路网encoding: 折现road element表达, 每个线由start point, end point和road element semantic type γ \gamma γ表示(例如十字路口、黄实双线),对于每个agent,选取最近的P=128个折线,转换到agent的坐标系,即转换之后的segment p = ( a , b ) p=(a,b) p=(a,b). 对于每个segment, 寻找距离每个segment上最近的点,还有计算a点处的垂线. 表示agent空间关系由如下相邻:
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5MHuEacC-1670638818537)(:/0193bd9d3c804347836bbde152acce17)]

MCG融合road element embeddings和agent history embedding:
在这里插入图片描述

3.4 输出表达

每条轨迹的高斯分布 ( x , y ) (x,y) (x,y)
在这里插入图片描述

M M M个混合,
在这里插入图片描述

3.5 Prediction architecture with learned anchor embeddings

预测模块预测GMM的参数,namely M M M个轨迹,每个点附近有似然和不确定性.

将学习anchor embeddings作为全局模型训练的一部分,将这些embeddings作为在隐藏空间的anchors. 建立这些embedding到GMM输出轨迹的一对一对应.

将MCG输出的embeddings整合,获得固定长度的特征向量,

就是MLP
在这里插入图片描述

3.6 Internal Trajectory Representation

轨迹由 位置、朝向,验证agent的纵向和横向的高斯不确定性.
在这里插入图片描述
在这里插入图片描述

    1. 可以用多项式表示,即添加一个bias,保证光滑,插值表示.
    1. 预测更详细的运动学控制信号:
      在这里插入图片描述

算法1 表示了从控制信号到输出位置的转换:
在这里插入图片描述

4 Ensembling predictor heads via bootstrap aggregation

集成.

使用bootstrap aggregation (bagging).

类似于dropout 50%.
在这里插入图片描述

GMM的集成.

5 Experiments

The Waymo Open Motion Dataset (WOMD),

400x400 cells, 每个cell 0.2 m × 0.2 m 0.2m\times 0.2m 0.2m×0.2m.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/77099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【POJ No. 2778】DNA 序列 DNA Sequence

【POJ No. 2778】DNA 序列 DNA Sequence 北大OJ 题目地址 【题意】 DNA序列是一个只包含A、C、T和G的序列。分析DNA序列片段非常有用,若动物的DNA序列包含片段ATC,则意味着该动物可能患有遗传病。 给定m 个遗传病片段,求有多少种长度为n 的…

自动驾驶两大路线对决,渐进式玩家为何更容易得人心?

HiEV消息(文/长海)对自动驾驶赛道而言,2022年的冬天格外冷冽。寒潮袭来,从各家的应变方式看,不同路径的玩家呈现“冰火两重天”,进化的趋势也越来越清晰。 以Waymo为代表、持续研发L4级无人驾驶的跨越式路线…

web课程设计网页规划与设计 :DW旅游主题网页设计——凤阳智慧旅游官方-地方旅游网站模板html源码HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

ONES X 华西证券|以需求全流程管控,洞见金融数据价值

近日,ONES 签约全国一流证券金融服务商——华西证券,助推华西证券构建需求全流程管控体系,保障需求任务的上下游衔接与顺畅流转,做到系统内所有数据透明化、线上化、统一化,提高团队协同效率,打破「部门墙」…

所谓“生活的艺术“, 就是悠闲二字

关于作者 作为陈独秀、胡适、鲁迅的同时代人,林语堂是"五四"新文化运动的参与者,中国现 代著名作家、学者、翻译家、语言学家,新道家代表人物。他清晰地看到了关于中国 传统文化观点的两种极端倾向,一种是把 中国传统文…

R语言VAR模型的不同类型的脉冲响应分析

目录 模型与数据 估算值 预测误差脉冲响应 识别问题 正交脉冲响应 结构脉冲反应 广义脉冲响应 参考文献 最近我们被客户要求撰写关于脉冲响应分析的研究报告,包括一些图形和统计输出。脉冲响应分析是采用向量自回归模型的计量经济学分析中的重要一步。它们的…

火爆出圈的ChatGPT,你也来体验一下吧!

最近网络上流行了一个叫ChatGPT的东西,他到底是什么东西? ChatGPT是人工智能实验室OpenAI发布的一款对话式聊天机器人。他可以解答很多刁钻有难度的问题,一经发布就火遍科技圈。12月4日,马斯克在咨询该聊天机器人关于推特经营的建…

构建高性能内存队列:Disruptor 永远滴神~

我们清楚使用锁的性能比较低,尽量使用无锁设计。接下来就我们来认识下Disruptor。 Disruptor简单使用 先简单介绍下: Disruptor它是一个开源的并发框架,并获得2011 Duke’s程序框架创新奖【Oracle】,能够在无锁的情况下实现网络…

单机存储系统可靠性及相关技术介绍

一、存储系统可靠性的影响因素单机存储系统包括存储硬件和存储软件。存储硬件又包含存储介质、存储控制器、设备固件;存储软件栈层次则更为复杂,以Linux为例包括:存储设备驱动层、 块设备层(Block Layer)、可选的虚拟块设备层(Device Mapper)…

新手使用wvp-pro和zlm的菜鸟说明(手把手教)

对于wvp-pro的使用,很多大佬都是白嫖菜鸟党,很多都第一次使用wvp,甚至第一次接触国标,连国标最基本流程都不清楚。所以写此文档以供各位菜鸟大佬点评指正 看此文档前提: 第一:先看三遍zlm和wvp的wiki&…

【光照感知子场:差分感知融合模块与中间融合策略相结合】

PIAFusion: A progressive infrared and visible image fusion network based on illumination aware 本文提出了一种基于光照感知的渐进式图像融合网络PIAFusion,自适应地保持显著目标的亮度分布和背景的纹理信息。具体而言,我们设计了一个光照感知子网…

【Java基础篇】基础知识易错集锦(一)

在学习的路上,我们只记得学习新的知识,却忽略了一切新知识都是在旧知识的基础上;努力奔跑的过程中,也要记得常回头看看; 题目展示: 解析: abstract是抽象的意思,在java中&#xff0…

【Vue 快速入门】使用vue脚手架创建一个项目

文章目录一、环境检查1.安装node环境2.脚手架配置3.不同版本vue介绍二、创建项目三、脚手架配置解说1.配置解说2.我的第一个vue程序一、环境检查 1.安装node环境 Node.js发布于2009年5月,由Ryan Dahl开发,是一个基于Chrome V8引擎的JavaScript运行环境…

Flutter - AlignmentGeometry :Alignment 和 FractionalOffset

AlignmentGeometry 是一个抽象类,它有两个常用的子类:Alignment和 FractionalOffset Alignment Alignment继承自AlignmentGeometry,表示矩形内的一个点,他有两个属性x、y,分别表示在水平和垂直方向的偏移 上图中 Flu…

阳光保险港交所上市:年营收1200亿 市值超600亿港元

雷递网 雷建平 12月9日阳光保险集团股份有限公司 (简称:“阳光保险”,06963)今日在港交所上市,发行价为每股5.83港元,募资净额为64.195亿港元。若行使超额配股权,阳光保险可额外再募资9.81亿港元。阳光保险发行价为5.8…

软件测试 -- 进阶 7 软件测试环境构建 与 测试数据准备

工欲善其事,必先利其器。-- 《论语卫灵公》 释译:工匠想要工作做好,一定要先让工具锋利。比喻要做好一件事,准备工作非常重要。 1. 为什么要构建测试环境、准备测试数据 提前准备测试所需资源保证测试有效执行保证测试用序执…

ChatGPT新玩法来了,微信聊天机器人

前言 上一篇文章中说了ChatGPT是什么,然后怎么注册使用。 传送门:花了1块钱体验一把最近很火的ChatGPT 但是实际操作下来还是有不少小伙伴跟我一样遇到各种坑。 没有科学上网工具OpenAI的服务在你的国家无法使用(最多的问题) 注…

自动驾驶之夜间检测调研

1. ExDark 第一个 公开 特定的提供 natural low-light images for object的数据集 7363张 low-light images, 12 classes Low-light image enhancement: IVC database. general image enhancement而非特指low-light. 黑夜是人工合成的,可以找到原图像See-in-the-Dark datase…

如何创建Spring项目以及如何使用?

目录: 1.创建Spring项目 2.将对象存储在Spring中 3.从Spring中取出对象 4.使用对象 5.总结 Spring 就是⼀个包含了众多⼯具⽅法的 IoC 容器,它具备两个最基本的功能: 将对象存储到容器(Spring)中;从容器…

Web大学生网页作业成品——美食餐饮网站设计与实现(HTML+CSS+JavaScript)

👨‍🎓静态网站的编写主要是用HTML DIVCSS JS等来完成页面的排版设计👩‍🎓,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode 、Webstorm、Animate等等,用的最多的还是DW,当然不同软件写出的…