摘要

将输入由dense image-based encoding改为a sparse encoding of heterogeneous scene elements.
即用polylines(折现)来描述road features和原始的agent state information(例如位置、速度和加速度)。
主要方法是对这些元素进行a context-aware fusion，然后开发一个可重复使用的(reusable) multi-context gating fusion组件.
重新考虑预定义的、静态的anchors的选择，使得模型可以端到端学习latent anchor embeddings.
ensemble和output aggregation技术，寻找effective概率的多模型输出表达

Introduction

目前在自动驾驶中，对human agents建模和预测有以下难点:

Multimodal output space: 未来环境的不可知性,使得模型必须可以表达rich output space.
Heterogenous, interrelated(相互关联的) input space:动静态混合输入，包括道路信息、交通灯、agents的历史状态. 驾驶是高度交互的，可以有很多agent.

MultiPath的光栅化的方法有如下缺点:

MultiPath++比MultiPath有如下改进:

避开光栅化+CNN的方法，将road元素表示为折现(polylines),agent的历史信息保存为一个RNN编码的序列，agent交互为与本车相邻的状态的RNNs. 避免了荣誉的光栅化
获取road和agent之间的关系很重要，将所有road element交互地编码效果会更好，因此提出multi-context gating(MCG).
探索轨迹建模。比较基于动力学控制和连续时间地多项式
在miss-rate（MR）和mAP上得到提升.
在Waymo Open Motion Dataset上第一，在Argoverse Motion Forecating上第4.

在这里插入图片描述

MCG满足:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QRfQg1R0-1670638818528)(:/065b5969e0f84f7f88db1037806f9228)]

$s_{1:N}$ 作为elements的集合
置换之后，input context vector $c$ 不变, 输出为输入的置换.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hm9DYGTA-1670638818529)(:/4c46ada762134c239382a9136b29c3cd)]

在这里插入图片描述

Agent history encoding. encode由以下三个向量concat
- 对历史features作用于LSTM，从历史时间T到当前
- LSTM到相邻feature之差
- frame_id: one-hot; MCG blocks运用到这些历史的elements,每个element的包含历史位置和time offset(以秒为单位)相对于当前时间
Agent interaction encoding:
考虑每个相邻agent $v$ 的历史观测

将第 $v$ 个状态转到当前建模agent的坐标系，使用LSTM来获取一个embedding.

获取一系列交互embeddings后，使用MCG进行融合:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ymMBjwsg-1670638818535)(:/99cf1521f7d24b60acf0bb7ec8b82f18)]

路网encoding: 折现road element表达, 每个线由start point, end point和road element semantic type $\gamma$ 表示(例如十字路口、黄实双线)，对于每个agent，选取最近的P=128个折线，转换到agent的坐标系，即转换之后的segment $p = (a, b)$ . 对于每个segment, 寻找距离每个segment上最近的点，还有计算a点处的垂线. 表示agent空间关系由如下相邻: