Attentive Fusion论文精读

news2024/12/16 9:04:22

OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication

文章目录

  • 背景
  • 创新点
    • 1.提出新的数据
    • 2.提出了一种注意力中间融合管道
  • 2.相关工作
    • 车对车感知
      • 早期融合
      • 晚期融合
      • 中间融合
    • 车对车数据集
  • 3. OPV2V 数据集
    • A.数据收集
      • 模拟器选择
      • 传感器配置
      • 卡尔弗城数字城镇
      • 数据大小:
      • 下游任务
    • B.数据分析
  • 4. 注意力中间融合管道
    • 元数据共享和特征提取:
    • 压缩和特征共享:
    • 注意力融合:
    • 预测头:
  • 5. 实验
    • 基准模型
    • 早期融合基线:
    • 晚期融合基线:
    • 中间融合:
    • 指标

背景

车对车可以共享其传感信息,从而为同一障碍物提供多个视角以相互补充
主要障碍之一是缺乏大型开源数据集。与单个车辆的感知领域不同,后者存在多个大规模公共数据集 [12]、[13]、[14]

创新点

1.提出新的数据

提出 OPV2V,这是首个用于 V2V 通信感知的大规模开放数据集
通过利用名为 OpenCDA [18] 的协同驾驶联合仿真框架和 CARLA 模拟器收集数据

2.提出了一种注意力中间融合管道

对几种最先进的 3D 目标检测算法结合不同的多车融合策略进行基准测试。
在此基础上,我们提出了一种注意力中间融合管道,以更好地捕捉网络内连接代理之间的相互作用。我们的实验表明,所提出的管道能够有效降低带宽需求,同时实现最先进的性能

2.相关工作

车对车感知

V2V感知方法分成三类:早期融合,晚期融合和中间融合

早期融合

在通信范围内与 CAV 共享原始数据,然后本车将根据聚合数据预测目标。这些方法保留了完整的传感器测量值,但需要大带宽且难以实时操作

晚期融合

晚期融合方法传输检测输出,并将接收到的提议融合为一致的预测。
方法有:Rauch 等人 [20] 提出了一种基于 Car2X 的感知模块,通过扩展卡尔曼滤波器(EKF)在空间和时间上联合对齐共享的边界框提议
在 [21] 中,使用基于机器学习的方法融合不同连接代理生成的提议。
这类工作需要的带宽较少,但模型性能高度依赖于车辆网络中每个代理的性能

中间融合

其中中间特征在连接车辆之间共享并融合以推断周围物体
F - Cooper [22] 利用最大池化聚合共享的体素特征
V2VNet [15] 基于共享消息联合推理边界框和轨迹

车对车数据集

目前文献中没有用于 V2V 感知的大规模开源数据集
在这里插入图片描述

3. OPV2V 数据集

A.数据收集

模拟器选择

选择 CARLA 作为我们的模拟器来收集数据集,但 CARLA 本身默认没有 V2V 通信和协同驾驶功能
因此,我们使用 OpenCDA [18],这是一个与 CARLA 和 SUMO [25] 集成的联合仿真工具,来生成我们的数据集

传感器配置

我们的大部分数据来自 CARLA 提供的八个默认城镇。我们的数据集中每帧平均约有 3 辆连接车辆,最少 2 辆,最多 7 辆。如图 2 所示,每个 CAV 配备 4 个摄像头,可共同覆盖 360° 视野、一个 64 通道激光雷达和 GPS/IMU 传感器。传感器数据以 20Hz 流式传输并以 10Hz 记录。传感器配置的更详细描述见表 I。

卡尔弗城数字城镇

在卡尔弗城收集了 4 个场景,总共约 600 帧
这些场景将用于验证仅使用 CARLA 中纯模拟数据集训练的模型。计划未来添加来自真实环境的数据,并可将其添加到模型训练集中

数据大小:

收集了 11,464 帧(即时间步长)的激光雷达点云(见图 1)和 RGB 图像(见图 3),总文件大小为 249.4GB
为每个 CAV 在每一帧生成鸟瞰图(BEV),以促进基本的 BEV 语义分割任务

下游任务

默认情况下,OPV2V 支持使用摄像头装置或激光雷达传感器进行协同 3D 目标检测、BEV 语义分割、跟踪和预测。为使用户能够扩展初始数据,我们还提供了一个驾驶日志重播工具与数据集一起。通过使用此工具,用户可以定义自己的任务(例如深度估计、传感器融合)并设置额外的传感器(例如深度摄像头),而无需更改任何原始驾驶事件。请注意,在本文中,我们仅报告基于 3D 激光雷达的目标检测的基准测试结果

B.数据分析

如表 III 所示,我们的数据集中包含六种不同类别的道路类型,用于模拟现实生活中最常见的驾驶场景
在这里插入图片描述
图 5 和图 6 显示了我们数据集中 3D 边界框注释的统计信息

4. 注意力中间融合管道

由于来自不同连接车辆的传感器观测可能带有不同程度的噪声(例如,由于车辆之间的距离),一种能够关注重要观测并忽略干扰观测的方法对于稳健检测至关重要。因此,我们提出了一种注意力中间融合管道,以捕捉相邻连接车辆特征之间的相互作用,帮助网络关注关键观测。所提出的注意力中间融合管道由 6 个模块组成:元数据共享、特征提取、压缩、特征共享、注意力融合和预测。整体架构如图 7 所示。所提出的管道灵活,可轻松与现有的基于深度学习的激光雷达探测器集成
在这里插入图片描述
模型由 6 个部分组成:
1)元数据共享:构建连接图并在相邻 CAV 之间广播位置2)特征提取:基于每个探测器的骨干网络提取特征
3)压缩(可选):使用编解码器压缩 / 解压缩特征
4)特征共享:与连接车辆共享(压缩后的)特征
5)注意力融合:利用自注意力学习同一空间位置特征之间的相互作用
6)预测头:生成最终的目标预测。

元数据共享和特征提取:

我们首先广播每个 CAV 的相对位姿和外部参数,以构建一个空间图,其中每个节点是通信范围内的一个 CAV,每条边代表一对节点之间的通信通道。构建图后,在组内选择一个本车。然后,所有相邻的 CAV 将其自身的点云投影到本车的激光雷达帧,并基于投影点云提取特征。这里的特征提取器可以是现有 3D 目标探测器的骨干网络。

压缩和特征共享:

V2V 通信中的一个关键因素是传输带宽的硬件限制。原始高维特征图的传输通常需要大带宽,因此压缩是必要的。中间融合相对于共享原始点云的一个关键优势是压缩后的精度损失较小 [15]。这里我们部署一个编解码器架构来压缩共享消息。编码器由一系列 2D 卷积和最大池化组成,瓶颈中的特征图将广播到本车。本车上包含几个反卷积层 [27] 的解码器将恢复压缩信息并将其发送到注意力融合模块。

注意力融合:

采用自注意力模型 [28] 融合那些解压缩后的特征。同一特征图中的每个特征向量(图 7 中绿色 / 蓝色圆圈所示)对应于原始点云中的特定空间区域。因此,简单地展平特征图并计算特征的加权和会破坏空间相关性。相反,我们为特征图中的每个特征向量构建一个局部图,其中为来自不同连接车辆的同一空间位置的特征向量构建边。图 7 显示了这样一个局部图,自注意力将在该图上操作以推理相互作用,从而更好地捕捉代表性特征。
每个车辆的每个特征向量位置都有一个对应的局部图。在局部图中,为来自不同连接车辆但处于同一空间位置的特征向量建立连接边。通过这种方式,保留了特征间的空间相关性
在构建局部图时,重点关注不同车辆在同一空间位置的特征向量,将它们连接起来,形成局部的关系网络。这样做的目的是为了保留特征间的空间相关性,使自注意力模型能够在每个局部区域内有效地推理特征向量之间的相互作用,从而更好地捕捉代表性特征,避免简单地展平特征图计算加权和而破坏空间信息,进而提高整个感知系统的性能

预测头:

融合后的特征将被输入预测头,以生成边界框提议和相关置信度得分。

5. 实验

基准模型

我们在数据集上实现了四种最先进的基于激光雷达的 3D 目标探测器,并将这些探测器与三种不同的融合策略(即早期融合、晚期融合和中间融合)集成。我们还研究了单车辆设置(称为无融合)下的模型性能,该设置忽略 V2V 通信。因此,基准测试中总共将评估 16 个模型。所有模型都在统一的代码框架中实现,我们的代码和开发教程可以在项目网站上找到。

早期融合基线:

所有激光雷达点云将根据 CAV 之间共享的位姿信息投影到本车坐标帧中,然后本车将聚合所有接收到的点云并将其输入探测器。

晚期融合基线:

每个 CAV 将独立预测带有置信度得分的边界框,并将这些输出广播到本车。之后将对这些提议应用非极大值抑制(NMS)以生成最终的目标预测。

中间融合:

注意力融合管道灵活,可轻松推广到其他目标检测网络。为评估所提出的管道,我们只需将压缩、共享和注意力(CSA)模块添加到现有网络架构中。由于 4 种不同的探测器以类似方式添加 CSA 模块,这里我们仅展示 PIXOR 模型的中间融合架构,如图 8 所示。在 PIXOR 的 2D 骨干网络中添加三个 CSA 模块以聚合多尺度特征,而网络的所有其他部分保持不变。
在这里插入图片描述
VoxelNet:VoxelNet 是一种基于点云的端到端可训练的 3D 目标检测框架
它将原始 3D 点云数据直接转化为体素网格,通过结合 3D 卷积网络和空洞卷积,实现了对 3D 空间的有效建模

指标

在这里插入图片描述
平均精度是对不同召回率(Recall)下精度(Precision)的加权平均。
在目标检测任务中,精度表示预测为正样本且实际为正样本的样本数占预测为正样本的样本数的比例,召回率表示预测为正样本且实际为正样本的样本数占实际为正样本的样本数的比例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Datawhale AI冬令营(第一期)task2--微调玩法攻略

目录 1.微调玩法攻略 1.1.微调思路 1.2.什么是大模型人格化? 1.3. 大模型人格化的应用场景 1.4 构建对应格式的数据集 1.4.1 选择数据格式 1.4.2 Alpaca 格式要求 1.4.3 构建数据集 1.4.4 没有剧本怎么办 1.4.5 整理成 json 格式 1.微调玩法攻略 1.1.微…

VQ-VAE和VAE 的区别是什么?

第一行所展示的就是普通的VAE,它的核心是通过encoder和decoder,将像素空间的图像压缩到一个提取了核心特征的隐变量向量。VQ-VAE的思想是,即使VAE中压缩的这个隐变量中的向量提取了图片中的核心特征信息,但是这些信息仍然可能存在冗余&#x…

Redis--高并发分布式结构

目录 一、引言 二、redis 1.什么是redis? 三、基础概念 1.什么是分布式? 2.应用服务和数据库服务分离 3.负载均衡 4.分库分表 5.微服务架构 四、总结 一、引言 本篇文章就简单介绍一下什么是redis,以及一些关于高并发和分布式结构的…

188-下翻便携式6U CPCI工控机箱

一、板卡概述 下翻式CPCI便携工控机,系统采用6u cpci背板结构,1个系统槽,7个扩展槽, 满足对携带的需求,可装标准6U8槽CPCI主板,8个扩展槽, 满足客户对空间扩展的需求.可宽温服务的工作产品,15高亮度液晶显示屏,超薄88键笔记本键盘,触摸式鼠标,加固型机箱结构,使它能够适应各种复…

Linux 磁盘满了怎么办?快速排查和清理方法

当 Linux 磁盘满了,会导致系统无法正常运行,比如无法写入文件、服务停止、甚至系统崩溃。因此,快速排查并清理磁盘空间是非常重要的。以下是详细的排查和解决步骤: 一、快速定位磁盘占用原因 1. 检查磁盘使用情况 使用 df 命令查…

OpenGL ES详解——多个纹理实现混叠显示

目录 一、获取图片纹理数据 二、着色器编写 1. 顶点着色器 2. 片元着色器 三、绑定和绘制纹理 1. 绑定纹理 2. 绘制纹理 四、源码下载 一、获取图片纹理数据 获取图片纹理数据代码如下: //获取图片1纹理数据 mTextureId loadTexture(mContext, R.mipmap.…

对话小系统(智能图书助手)

对话小系统(智能图书助手) 文章说明核心代码效果展示源码下载 文章说明 现在GPT的功能十分强大,是否可以利用开源的接口来实现自己的智能小助手呢,我想到可以提供一些能力接口,然后对问询内容进行意图识别,…

微服务-01

1.认识微服务 1.1 单体架构 单体架构(monolithic structure):顾名思义,整个项目中所有功能模块都在一个工程中开发;项目部署时需要对所有模块一起编译、打包;项目的架构设计、开发模式都非常简单。 当项目…

WebView2教程(基于C++)【一】环境初始化

创建一个VisualStudio C项目,通过NuGet包管理器安装两个包: 注意,在项目属性页设置项目使用:C 20,子系统设置成窗口(相应的预处理器也要改变),DPI识别设置成每个监视器高DPI识别。 …

KMP算法图解解析(C语言)

文章目录 一.引言二.KMP算法解析三.代码实现1.对目标子串的处理(创建next数组)二.寻找子串的KMP算法实现 一.引言 kmp算法是由三位大牛共同研究提出的,全称为Knuth-Morris-Pratt算法,简写为KMP算法。 kmp算法用来解决子串的问题&a…

数据冒险、控制冒险、结构冒险

计算机组成原理 数据冒险、控制冒险、结构冒险 对所有用户(所有程序员)可见:PSW、PC、通用寄存器 PSW(条件转移需要用到,程序员使用CMP指令的时候也需要用到所以是对用户可见)PC(跳转指令需要…

Python机器学习笔记(七、深度学习-神经网络)

深度学习算法经过精确调整,只适用于特定的使用场景。先学习较为简单的深度学习算法,用于分类和回归的多层感知机(multilayer perceptron,MLP),它可以作为研究更复杂的深度学习方法的起点。MLP 也被称为&…

Kylin麒麟操作系统 | Nginx服务部署

目录 一、理论储备1. Nginx概述2. Nginx与Apache的区别3. Nginx的服务配置 二、任务实施任务1 Nginx的编译安装1. Server配置2. 客户端测试 任务2 Nginx反向代理1. Server1配置2. Server2配置3. 客户端测试 一、理论储备 1. Nginx概述 Nginx是一个轻量级的web服务器&#xff…

【html网页页面012】html+css制作品牌主题宏宝莱网页含视频、留言表单(7页面附效果及源码)

品牌主题宏宝莱网页制作 🥤1、写在前面🍧2、涉及知识🌳3、网页效果完整效果(7页):代码目录结构:page1、首页page2、衍生品page3、包装设计page4、视频介绍page5、留言板page6、联系我们page7、详情页(三层页…

机器学习之交叉熵

交叉熵(Cross-Entropy)是机器学习中用于衡量预测分布与真实分布之间差异的一种损失函数,特别是在分类任务中非常常见。它源于信息论,反映了两个概率分布之间的距离。 交叉熵的数学定义 对于分类任务,假设我们有&#…

0001.基于springmvc简易酒店管理系统后台

一.系统架构 springmvcjsplayuimysql 二.功能特性 简单易学习,虽然版本比较老但是部署方便,tomcat环境即可启用;代码简洁,前后端代码提供可统一学习;祝愿您能成尽快为一位合格的程序员,愿世界没有BUG; …

无限次使用 cursor pro

github地址 cursor-vip 使用方式 在 MacOS/Linux 中,请打开终端; 在 Windows 中,请打开 Git Bash。 然后执行以下命令来安装: 部分电脑可能会误报毒,需要关闭杀毒软件/电脑管家/安全防护再进行 方式1:通过…

AI 语言模型产业的投资困境与发展困境分析

https://benn.substack.com/p/do-ai-companies-work 巨额投资与成本困境 大型语言模型(LLM)的开发成本惊人。根据报道,OpenAI 正在筹集 65 亿美元资金,每年约消耗 70 亿美元用于研究、开发新的 AI 服务和扩充团队。Anthropic 预计…

tryhackme——Pre Security(安检前)-Offensive Security(进攻性安全)

这里我用的edge的插件闪击翻译。这里我英语不好,所以用这个可以顺便学习下英语。 任务一:What is Offensive Security?(什么是进攻性安全?) 很简单啊,通过阅读,知道以下哪个选项更能代表您模拟黑客操作…

[论文阅读] |智能体长期记忆与反思

写在前面:10月份的时候,联发科天玑9400发布,搭载这款旗舰 5G 智能体 AI 芯片的荣耀MagicOS9.0实现了一句话让手机自动操作美团点咖啡。很快商场实体店里便能看到很多品牌手机已经升级为智能体语音助手。下一步,这些智能体或许便能…