【Scene Transformer】scene transformer论文阅读笔记

news2025/4/6 16:44:17

文章目录

      • 序言
      • (Abstract)
      • (Introduction)
      • (Related Work)
      • (Methods)
        • (Scene-centric Representation for Agents and Road Graphs)
        • (Encoding Transformer)
        • (Predicting Probabilities for Each Futures)
        • (Joint and Marginal Loss Formulation)
      • (Results)
      • (Discussion)
      • (Questions)

 

scene transformer模型架构
掩码策略进行独立/联合预测

序言

  • 论文: https://arxiv.org/pdf/2106.08417v3
  • 代码: https://github.com/Chen-Albert-FENG/SceneTransformer
  • 年份: 2021.06
  • 数据: argoverse + waymo

(Abstract)

  • 核心思想: 受语言模型的启发, 在模型中使用序列掩码策略作为Query, 通过改变数据的可见性,允许用多种方式进行预测(MP,CMP,GCP),如给定自车的goal或自车完整轨迹或其他agent的行为,以这些为条件来进行多目标预测,估算被掩码掉的未来时间和agents的feature

  • 即:

    • Quety ---- 自车goal或自车完整轨迹或agent行为
    • Result — 多目标预测结果
  • 文章采用的注意力机制结合了agent时间步, agents之间交互和道路元素之间的特征

  • 文章独立预测和联合预测都做了, 并在当时获得了最优结果, 但现在在waymo online排行榜中并不靠前

(Introduction)

  • 以前将自动驾驶任务划分为sub-task的方式是基于各个模块(感知,预测,规划)真正独立的假设, 但这个假设是不成立的,不光是模块化之后存在信息丢失,还因为自车和目标之间是互相影响的. 基于此文章提出了联合运动预测与规划的模型, 支持多目标多轨迹同时预测规划

  • 交互式预测要求建模联合特征joint features, 以保持agents未来轨迹的一致性. 建模joint feature最简单的方法是agents独立预测的结合, 但这种结合不具有一致性, 尤其是在轨迹重叠的时候没法避免重叠. 文章提出的模型天然的能捕获agents之间的交互, 得到场景级scene-level的agents预测结果

  • 文章给出了一种从规划角度的一种联合预测规划的方法

  • 文章支持多目标多模态的预测, 难点也就是目标本身行为的多样性(diverse)以及目标对彼此轨迹的影响(influence)

  • 为什么要进行联合预测呢: 首先因为运动预测和规划的子任务并不是真正独立的, 自车也会影响其他agent的行为, 而且独立预测的方案不利于表示不同agent之间未来的交互问题, 由此得到的规划也是次优(sub-optimal)的轨迹

  • 边缘预测 vs 联合预测 (marginal/independent prediction vs. joint prediction)

    • 边缘预测: 未来时刻, 不同agent之间的预测轨迹可能有冲突部分, 轨迹相交
    • 联合预测: 未来同一时刻, 不同agent之间的轨迹不会相交, respect each other’s prediction
  • 按照文章的说法, 文章的贡献在于:

    • (1) 以场景为中心的方法, 能够进行边缘/独立和联合预测的切换, 并都达到当时的SOTA
    • (2) 利用了置换等变的transformer架构, 考虑了agents/timesteps/road元素, 高效的架构
    • (3) 一种掩码序列建模方法, 在推理时以假设的代理未来为条件, 实现条件运动预测或目标条件预测

(Related Work)

  • 早期使用CNN捕获栅格图内元素间关系,但是处理空间交互时很困难;
  • 还有entity-centric的方法,使用RNN等方法编码历史特征,编码地图Pose信息和语义信息,通过信息聚合来捕获entity之间的关系,聚合方法包括池化、自注意力、GNN等方法;
  • 文章觉得之前的文章利用了transformer注意力机制的方法是在不同轴分别进行注意力分析再把结果展平到一起进入联合自注意力层,文章提出的方法能统一建模<agent时间步,不同agents,道路元素>之间的关系
  • 文章认为agent-centric具有固有pose不变性(个人理解是作为参考帧的pose),然后lanegcn等方法也是在global frame里采用agent-centric的
  • 文章认为之前的文章对联合特征joint feature的考虑都是不够的,比如只考虑P(X)然后对Y进行条件建模P(Y|X),本文提出了一般的对多agents联合特征建模的方法,直接解码得到k个联合特征

(Methods)

  • Scene Transformer模型有三个阶段:

    • (1) 对agent和road graph进行高维嵌入embedding
    • (2) 采用注意力网络编码agents和road graph的交互关系
    • (3) 使用注意力网络解码得到多个futures
  • 模型把每个时间步的输入都看做是一个特征feature, 然后预测每个agent每个时间步的输出;

  • 模型在每个时间步都采用一种联合掩码方式,indicator = 1或者0指示输入feature可见或不可见,借鉴了BERT模型的思想,这种方法很灵活,仅仅通过改变数据的可见性(不同的掩码方式),允许同时训练一个模型用于单独的MP=Motion Prediction或者CMP=Conditional Motion Prediction或者GCP=Goal-conditioned Prediction
  • 每一个任务如MP/CMP/GCP都可以使用具体的掩码策略(设置indicator),公式化为一个query,然后把数据提供给模型。模型的目标就是要估算被掩码掉的未来时间和agents的feature,如上图
(Scene-centric Representation for Agents and Road Graphs)
  • scene-centric的嵌入策略,scene-centric的过程:

    • 选择一个感兴趣位置的agent作为原点, 可以是AV也可以是任何一个要预测的agent
    • 其他所有的agents和road graphs都基于它编码
    • 以center的最新可见帧来进行编码的
  • agent-centric就是以每个agent作为原点进行编码, 多个agents就是多个原点

  • scene-centric的编码过程:

    • (1) 生成agents每个时间步的特征
    • (2) 生成静态road graphs的特征集合, 使用PointNet来学习每个polyline的特征向量
    • (3) 生成动态road graphs的特征集合, one feature vector per object如红绿灯, 空间上静止时间上动态
    • (4) 所有特征都处理和旋转到center, 并且进行正弦位置嵌入sin position embedding
(Encoding Transformer)
  • 大多数层都是transformer层, 每个注意力层都跟一个前馈网络,具有相同的隐藏维度; decoder最后接2层MLP,输出7个outputs,包括相对原点的坐标+不确定度和航向角;
  • 由于没有添加agent id, 文章设计了一种因子化注意力方法, 防止相同类型、时间步上相同掩码策略的agents得到相同的预测结果。这种方法也是置换等变的, 即跟agent输入transformer的顺序无关。然后agents和road graph的交互也是置换等变的,在通过网络的过程中road graph的特征也是不变的
(Predicting Probabilities for Each Futures)
  • 模型还需要预测每个future或者trajectory的概率,为此,文章额外添加了人工agent和时间步,具体通过计算agent每个时间步各个特征的均值得到,输入维度就从[A,T,D]变成了 [A+1,T+1,D] ,在解码器最后一层这个人工特征是要剥出来的,以获取每个agent的summary feature,然后这个feature再经过2层MLP和softmax层得到一个logit值,作为future或者trajectory的概率
(Joint and Marginal Loss Formulation)
  • 模型的输出[F, A, T, 7]是每个agent在每个time step的location和heading, scene-centric
    的编码, 支持同时预测所有agents

  • 联合预测和边缘预测的loss回传策略不一样, 感觉文章中没有讲的很清楚

  • 评估指标选用minADEminFDEMRmAP(mean average precision)

(Results)

  • 数据集: 采用了argoversewaymo open motion dataset
  • 因子化注意力方法带来了性能增益;
  • 掩码序列建模策略的优势:
    • 在训练和推理的时候, 模型可以指定哪个agent的哪些timesteps进行掩码(indicator = 0 per timestep), 这允许我们能够选择将不同agents不同timesteps的信息呈现给模型, 也能够知道模型如何利用和响应这些信息, 如此在推理的时候能够提供一种mutli-task模型
    • 这对于自车给定goal或者给定其他agents不同轨迹子集时, 给定自车规划, 预测结果会怎样, 特别有用. 文章的配图表达了这个意思, 如下
  • 定性检查发现, 多个tasks(MP/CMP/GCP)一起训练并没有降低motion prediction的性能
  • 联合预测相比边缘预测, 也能有更低的over-laps(不同agent间overlap是不合理的)

(Discussion)

  • 1.文章提出的单个模型就能进行MP,CMP,GCP的多预测任务
  • 2.通过精心建模可以定量提高系统表现, 得到了一个可以用于planning系统的学习模型
  • 3.模型能够确认环境中agents之间的交互, 潜在提供了确认因果关系的任务

(Questions)

  • (1) scene-centric和agent-centric的区别

    • agent-centric: 以每个agent为原点, 对每个agent都计算features
    • scene-centric: 以感兴趣的agent的位置作为原点计算所有features
  • (2) scene-centric怎么就反映出scene-centric了, scene是什么

    • 在一个场景中, 选定感兴趣的目标, 可以是自车也可以是要预测的目标, 其他所有目标和道路元素都以感兴趣目标最新帧位置为原点进行编码, 区别于agent-centric, 如上
  • (3) 模型能在marginal prediction和joint prediction之间随意切换是什么意思

    • 通过不同的掩码策略来实现切换
    • 不考虑周边其他agents和road graphs, 都掩码为0, 则是marginal prediction
    • 考虑周边所有agents和road graphs, 不进行掩码, 则是joint prediction
  • (4) 什么是transformer架构的permutation equivariant(置换不变性/置换等变性)

    • 标准的transformer并不直接具备置换不变性, 因为它包含了位置编码position-encoding, 位置信息也是编码的, 从而理解序列的顺序
    • 要使transformer具备置换不变性, 需经过特殊设计, 比如简单的不使用位置编码
    • 文章中主要是指agents顺序的置换等变和road graph以场景编码后的置换等变等
  • (5) 就算是一种联合预测规划的方法, 为什么要预测自车呢?预测自车的作用是什么?自车规划轨迹不是主动选择的吗

    • 这个模型就是给规划系统用的
    • 预测自车是选定自车goal的方式, 是goal-conditioned prediction, 联合预测了所有agents和自车的未来轨迹
    • 在实际应用中, 自车预测轨迹可作为实际规划的参考
  • (6) 动态道路图编码也是采用PointNet吗

    • 静态道路图编码是PointNet
    • 从文章附录中看, 动态道路元素不是用PointNet, 而是和agents一样通过2层MLP网络输出D维特征feature
  • (7) 文章提到的序列掩码策略具体长什么样

    • 文章附录A中提到, 有设置indicator来指示目标是否掩码, 如果掩码的话, 除了time embedding外, 所有的特征都要置为0
  • (8) 文章和TNT和DenseTNT的前后关系

    • 文章中和TNT和DenseTNT都做了性能比较
    • 从feature vector构建可知, 和TNT和DenseTNT一样, scene transformer也是用了vector-based的方法

 


[参考文章]
[1]. scene transformer论文学习笔记
[2]. scene transformer论文翻译,不准
[3]. scene transformer论文阅读笔记,推荐

created by shuaixio, 2024.07.10

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977831.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux|最佳命令行下载加速器

引言 无论是远程工作还是本地工作&#xff0c;我们经常需要从外部获取信息。在没有其他选择的情况下&#xff0c;使用命令行工具来获取这些信息是一个不错的选择。 本文[1]将介绍一些通过命令行下载内容时最常使用的工具。 Wget 我们首先介绍一个广受欢迎的工具 wget。它是一个…

使用Qt编译modbus

一.编译库文件 1. 创建library项目 2. 选择要配置的编译器 3. 把自动生成的源码都移除&#xff1a;&#xff08;右键单击&#xff0c;选择 remove&#xff09; 4 4. 导入库源码 把源码拷贝到项目目录下&#xff08;.pro 文件所在的目录&#xff09; 5. 修改 configure.js 文…

(计算机网络)物理层

目录 一.基本概念 二.基本术语 三.码元 四.多路复用技术 一.基本概念 1. 2. 3. 4. 5. 6. 7. 8. 9. 二.基本术语 1. 2. 3.早期--公用的电话网传输数据&#xff0c;网络上传的是模拟信号&#xff0c;调制解调器--将数字信号转化成模拟信号&#xff0c;最后&#xff0c;调制解…

Java: 线程安全问题的解决方案(synchronized)

发生原因 要想解决线程安全问题,那么我们首先得知道线程安全问题为什么会发生. 发生原因: 线程在操作系统中是"随机调度,抢占式执行的"[根本原因].多个线程,同时修改同一个变量修改操作不是"原子"的内存可见性问题指令重排序 解决方案 原因1和2,我们很…

htsjdk库FeatureCodec和Feature接口介绍

在 HTSJDK 库中,FeatureCodec 接口和 Feature 接口分别扮演不同的角色,用于处理基因组数据的不同方面。下面是这两个接口的区别和各自的功能: FeatureCodec 接口 主要功能 编码和解码:FeatureCodec 接口的主要职责是定义如何将数据从文件格式解码为 Java 对象(即 Featur…

【C语言】分支与循环(循环篇)——结尾猜数字游戏实现

前言 C语言是一种结构化的计算机语言&#xff0c;这里指的通常是顺序结构、选择结构、循环结构&#xff0c;掌握这三种结构之后我们就可以解决大多数问题。 分支结构可以使用if、switch来实现&#xff0c;而循环可以使用for、while、do while来实现。 1. while循环 C语言中…

[CP_AUTOSAR]_系统服务_DEM模块(三)功能规范之诊断事件定义

目录 1、诊断事件定义1.1、Event priority&#xff08;事件优先级&#xff09;1.2、Event occurrence&#xff08;事件发生计数器&#xff09;1.3、Event kind&#xff08;事件类别&#xff09;1.4、Event destination&#xff08;故障内存&#xff09;1.5、Diagnostic monitor…

2.MonggoDB是什么?

1. 不是什么&#xff1f; 要想知道MongoDB是什么&#xff0c;我们得先搞清楚它不是什么&#xff0c;首先它不是关系数据&#xff0c;不是像下面这样这种格式存储数据。 这个图展示了关系型数据库的常用存储方式&#xff0c;一个表格&#xff0c;里面存储了多行记录&#xff0…

Linux系统中的两个核心进程:`init`和`kthreadd`

文章目录 1 init 进程1.1 基本信息1.2 主要功能1.3 示例 2 kthreadd 进程2.1 基本信息2.2 主要功能2.3 示例 3 对比总结4 用户空间进程与内核线程4.1 用户空间进程特点 4.2 内核线程特点 5 对比总结6 结论参考链接封面 本文详细对比了Linux系统中的两个核心进程&#xff1a; i…

nvm 对node版本的控制

使用nvm切换Node.js版本的步骤如下 nvm list available // 显示可以安装的所有node.js的版本 如果出现空白 问题解决 经过查找nvm的文档&#xff0c;发现&#xff0c;对于中国用户而言&#xff0c;可以切换nodejs或npm的镜像地址来访问&#xff1a; nvm node_mirror https:…

软raid - - udev规则

一、什么是udev FROM AI: udev是Linux 2.6内核及以后版本中引入的一个设备管理框架&#xff0c;它取代了之前的devfs系统。udev以守护进程的形式运行&#xff0c;并且工作在用户空间而不是内核空间。它的主要功能是动态地创建和管理/dev目录下的设备节点&#xff0c;并且能够根…

SAP支出管理,企业成本控制的智能钥匙

在企业运营中&#xff0c;有效的支出管理是确保财务健康和提升竞争力的关键。SAP支出管理系统作为企业资源规划的核心组成部分&#xff0c;提供了一套全面的解决方案&#xff0c;帮助企业实现成本控制、风险管理和合规性监督。实现支出管理流程自动化&#xff0c;并主动管理更多…

蚂蚁笔试0511-编程题

解题思路&#xff1a; 记录0、正数、负数的个数&#xff0c;分类讨论。 解题思路&#xff1a; 有n个位置&#xff0c;每个位置有m个数&#xff0c;所以一共有m^n种情况&#xff0c;每种情况至少包含权值1&#xff0c;也就是全相等是一段&#xff0c;或者说是一个数形成的 从第二…

黑马Java零基础视频教程精华部分_11_面向对象进阶(3)

系列文章目录 文章目录 系列文章目录一、抽象类1、为什么要有抽象类&#xff1f;2、抽象方法3、抽象类4、抽象类和抽象方法定义格式5、注意事项 二、接口1、为什么会有接口&#xff1f;2、接口和抽象类的异同3、接口的定义和使用4、接口中成员的特点5、接口和类之间的关系6、实…

机器学习第五十周周报 CGNN

文章目录 week50 CGNN摘要Abstract0. 概述1. 题目2. Abstract3. 网络结构3.1 状态更新网络3.2 method 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程 5. 结论6.相关代码CompositeLGNNCompositeGNNcomposite-graph-class小结参考文献 week50 CGNN 摘要 本周阅读了题为Co…

【题解】189. 轮转数组(数组、数学、双指针)

https://leetcode.cn/problems/rotate-array/description/?envTypestudy-plan-v2&envIdtop-interview-150 class Solution { public:void rotate(vector<int>& nums, int k) {k k % nums.size(); // 注意k要取一下模reverse(nums.begin(), nums.end()-k);rev…

常见cms漏洞之ASPCMS

项目地址&#xff0c;自行百度 漏洞复现&#xff0c;使用后台配置文件拿shell 访问后台 http://192.168.177.153/admin_aspcms/login.asp 账号密码已设置成&#xff0c;登录即可 admin 123456

关于Win11无法自动进入休眠问题

最近从win10升到11了 感觉还挺好用的 就是右键有点逆天 主要是为了3k屏连接1080显示器更新的 但是发现彻底无法休眠了&#xff0c;这个还要说的是以前win10睡眠一次就算一次硬盘通电&#xff0c;现在更新后不会了 下面说回休眠 b站浏览一番后发现是22H2隐藏了休眠时间设置&a…

哈希 || unordered系列的关联式容器底层 | 哈希模拟实现 | HashTable代码实现

底层结构 unordered系统的关联式容器之所以效率比较高&#xff0c;是因为其底层使用了哈希结构。 哈希概念 顺序结构以及平衡树中&#xff0c;元素关键码与其存储位置之间没有对应的关系&#xff0c;因此在查找一个元素时&#xff0c;必须经过关键码的多次比较。 顺序查找的…

【机器学习算法基础】(基础机器学习课程)-10-逻辑回归-笔记

一、模型的保存与加载 逻辑回归是一种常见的机器学习算法&#xff0c;广泛用于分类问题。为了在不同的时间或环境下使用训练好的模型&#xff0c;我们通常需要将其保存和加载。 保存模型 训练模型&#xff1a;首先&#xff0c;你需要用你的数据训练一个逻辑回归模型。例如&…