【论文解读】Collaboration Helps Camera Overtake LiDAR in 3D Detection

news2025/1/11 10:01:16

CoCa3D

  • 摘要
  • 引言
  • Collaborative Camera-Only 3D Detection
    • Collaborative depth estimation
    • Collaborative detection feature learning
  • 实验
  • 结论和局限

摘要

与基于 LiDAR 的检测系统相比,仅相机 3D 检测提供了一种经济的解决方案,具有简单的配置来定位 3D 空间中的对象。然而,一个主要的挑战在于精确的深度估计,因为输入中缺乏直接的3D测量。许多以前的方法试图通过网络设计来改进深度估计,例如可变形层和更大的感受野。这项工作提出了一个orthogonal direction,通过引入多智能体协作来改进仅相机的 3D 检测。我们提出的仅协作相机的 3D 检测 (CoCa3D) 使代理能够通过通信相互共享互补信息。同时,我们通过选择信息量最大的线索来优化通信效率。来自多个视点的共享消息消除了单智能体估计深度的歧义,并补充了单智能体视图中被遮挡和远程区域。我们在一个真实的数据集和两个新的模拟数据集上评估 CoCa3D。结果表明,CoCa3D 在 DAIR-V2X 上比之前的 SOTA 性能提高了 44.21%,OPV2V+ 提高了 30.60%,CoPerception-UAV+ 提高了 1.59%,AP@70。我们的初步结果表明,在有足够的协作的情况下,相机可能会在某些实际场景中过度接受 LiDAR。我们发布了数据集和代码。

引言

在本文中,我们提出了一个orthogonal direction,通过引入多智能体协作来提高仅相机的3D检测性能。假设在先进的通信系统的支持下,只配备摄像头的多个代理可以相互共享视觉信息。

【orthogonal direction】是指一种与现有方法不同的方法或方向。在这篇论文中,作者提出了一种通过引入多智能体协作来提高相机仅3D检测性能的正交方向。这种方法与现有的基于网络设计的方法不同,通过允许智能体共享互补信息,从而提高3D检测性能。

这将带来三个突出的好处。

  • 首先,来自多个代理的不同视点可以在很大程度上解决仅相机3D检测中的深度模糊问题,从而在深度估计方面与昂贵的激光雷达弥补差距。
  • 其次,多智能体协作避免了单智能体3D检测中不可避免的局限性,如遮挡和长距离问题,并有可能实现更全面的3D检测;即检测3D场景中存在的所有对象,包括超出视觉范围的对象。由于激光雷达的视场也有限,这可能使协作相机的性能优于激光雷达。
  • 第三,由于相机比激光雷达便宜,大型车队的总费用显著降低。

然而,多智能体协作也带来了新的挑战。与许多多视角几何问题不同,这里我们还必须关注通信带宽限制。因此,每个代理都需要选择信息量最大的线索来共享。
根据这一设计原理,我们提出了一种新的协作式纯相机3D检测框架CoCa3D。它包括三个部分:

  • i)单智能体仅摄像头的三维检测,实现了对每个智能体的基本深度估计和三维检测;
  • ii)协作深度估计,其通过促进跨多个代理的视点的空间一致性来消除所估计的深度的歧义;
  • iii)协同检测特征学习,其通过彼此共享关键检测消息来补充检测特征。

我们的主要贡献:

  • 我们提出了一种新的协作式仅摄像头3D检测框架CoCa3D,它通过多智能体协作提高了摄像头的检测能力,促进了更全面的3D检测。
  • 我们提出了核心通信高效协作技术,该技术探索空间稀疏但关键的深度信息,并通过融合来自不同视角的互补信息来解决深度模糊、遮挡和长期问题,实现更准确和完整的3D表示。
  • 我们用更多的代理扩展了之前的两个协作数据集,并进行了广泛的实验,验证了i)CoCa3D在OPV2V+和DAIR-V2X上显著弥合了相机和激光雷达之间的性能差距;以及ii)CoCa3D实现了最先进的性能-带宽折衷。

Collaborative Camera-Only 3D Detection

在这里插入图片描述
【CoCa3D是一个只有摄像头的3D探测器,集成了两个协作模块。协同深度估计(Co-Depth)增强了单智能体估计深度,以获得更准确的3D特征。协同检测特征学习(Co-FL)是对单智能体3D特征的补充,可以实现更全面的3D检测。】

我们的设计思路来自两个方面:

  • 第一,由于摄像头和LiDAR的主要差距是深度,所以信息中应该包含深度信息。这将允许来自多个代理的不同观点消除无限深度可能性的歧义并定位正确的深度候选。
  • 其次,消息中应该包含检测线索,以提供互补的检测信息,这可以从根本上克服单智能体检测不可避免的局限性,如遮挡和远程问题。

Collaborative depth estimation

协同深度估计(Co-Depth)的目标是消除单智能体相机深度估计中无限深度可能性的歧义,并通过多视图一致性定位正确的候选深度。直觉是,对于正确的深度候选,其对应的3D位置应从多个智能体的视点在空间上保持一致。为此,各个agent可以通过通信交换深度信息。同时,我们通过选择最关键、最明确的深度信息来提高通信效率。因此,Co-Depth包括:

  • a)深度不确定性感知的消息打包,它将具有明确深度信息的紧凑消息打包;
    【深度不确定性感知报文封装(DUA)基于深度不确定性将用于多视图一致性的最关键深度信息打包到待发送报文中。深度信息包括:i)体素特征,用于多视图视觉相似性测量;ii)深度概率,表示特征像素属于体素的置信度,用于多视图候选选择。】

  • b)深度信息融合,利用接收到的深度信息增强深度估计
    【深度信息融合的目标是在多个智能体不同视点接收深度信息的情况下增强深度估计。直觉是,对于一个正确的深度候选,多个代理在同一3D点观察到的视觉特征应该是相似的。为了实现这一点,我们引入了多视图深度一致性加权(匹配分数)。】

Collaborative detection feature learning

协作深度估计仔细地细化了深度,并为每个单个代理提供了更准确的3D表示。然而,单智能体的物理局限性,如视野受限、遮挡和远程问题仍然存在。为了实现更全面的三维检测,各个agent应该能够交换三维检测特征并利用互补信息。同时,我们通过选择感知上最关键的信息来提高沟通效率。因此,协同检测特征学习(Co-FL)包括:

  • a)检测置信度感知的消息打包,即在检测置信度的指导下对空间稀疏但感知上至关重要的3D特征进行打包;
    【检测置信度感知(DCA)消息打包的目标是将互补的感知信息打包成一个紧凑的消息。其核心思想是探索感知信息的空间异质性。直觉是,包含对象的区域比背景区域更重要】
  • b)检测信息融合,利用接收到的检测信息增强三维特征。
    【这里我们通过聚合从其他代理接收到的检测消息来增强每个代理的检测特征。我们用简单而有效的非参数逐点最大融合实现了这一点。】

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论和局限

我们提出CoCa3D,一种新颖的协作相机3D检测,接近整体3D检测。其核心思想是引入多智能体协作来提高摄像机的检测能力。同时,对通信成本进行优化,每个agent仔细选择空间稀疏但深度关键的消息进行共享。广泛的实验涵盖了现实世界和模拟场景,以及多种类型的代理(汽车,无人机和基础设施),表明CoCa3D不仅实现了最先进的感知带宽权衡,而且在OPV2V+上超过了基于lidar的探测器,具有足够数量的协作代理。
局限性和未来的工作:收集真实世界的多智能体感知数据集是非常昂贵的。到目前为止,DAIRV2X是唯一一个公开的真实世界数据集,它只有一辆车和一个路边单元。本工作主要利用仿真数据来验证所提出的新方法,并勾画出一个有前景的研究方向。我们提倡为真实世界的数据收集提供更多的资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1421479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

qt语言国际化(翻译),并实现多窗口同时翻译

一、.pro文件中添加支持的语言 在.pro文件中添加下面几句,支持中文和英文 TRANSLATIONS lanague_cn.ts\lanague_en.ts二、通过qt语言家更新翻译生成.ts文件 完成以后在工程目录可以看到.ts文件 三、通过linguist翻译文件 打开文件 将两个文件同时选中&#xf…

(一)PySpark3:安装教程及RDD编程(非常详细)

目录 一、pyspark介绍 二、PySpark安装 三、RDD编程 1、创建RDD 2、常用Action操作 ①collect ②take ③takeSample ④first ⑤count ⑥reduce ⑦foreach ⑧countByKey ⑨saveAsTextFile 3、常用Transformation操作 ①map ②filter ③flatMap ④sample ⑤d…

Matlab plot绘图的 title 语法

x 0:1:10; >> y x.^2 -10*x15; >> plot(x,y) >> title(x_y, interpreter, none) title 里面的 x_y , y不会被当作下标。

数据结构--堆排序(超详细!)

一、前言 堆排序与Top K问题是堆的两大应用,在我们日常也有很广泛的用处 我们已经上面已经说过了堆,这次来说堆的其中一个应用---堆排序。 二、堆排序 堆排序优势在哪里?有什么恐怖之处吗? 重点:拿一个举例&…

你ping一下,服务器累成狗--第二篇

你ping一下,服务器累成狗-目录篇文章浏览阅读1.7k次,点赞65次,收藏20次。我们的电脑怎么干活的https://blog.csdn.net/u010187815/article/details/135796967 你ping一下,服务器累成狗--第一篇文章浏览阅读62次,点赞6…

记录 | ubuntu nm命令的基本使用

什么是nm命令 nm命令是linux下针对某些特定文件的分析工具,能够列出库文件(.a、.lib)、目标文件(*.o)、可执行文件的符号表。 nm命令的常用参数 -A 或 -o 或 --print-file-name:打印出每个符号属于的文件…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之DataPanel组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之DataPanel组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、DataPanel组件 数据面板组件,用于将多个数据占比情况使用占比图进…

1. 两数之和(力扣LeetCode)

文章目录 1. 两数之和题目描述哈希表:map二分查找暴力:双重for循环 1. 两数之和 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可…

永磁同步电机速度环闭环控制

文章目录 1、速度环分析2、电机参数3、PI计算4、模型仿真4.1 模型总览4.2 实际转速与参考转速对比4.3 转矩波形4.4 相电流采样波形 模型下载地址: 链接: 速度闭环模型(速度电流双闭环) 1、速度环分析 2、电机参数 Udc24 V Rs0.6 LdLq1.4e-3…

Apache POI 处理excel文件 记录用法

Apache POI 写excel public static void write() throws IOException {//再内存中创建了一个Excel文件XSSFWorkbook excel new XSSFWorkbook();//创建一个sheet页XSSFSheet sheet excel.createSheet("info");//这里创建行对象,这里的rownum 是从0开始的,类似于数…

C++进阶--继承

概念 继承,允许一个类(称为子类或派生类)从另一个类(称为父类或基类)继承属性和方法。 继承的主要目的是实现代码的重用和构建类之间的层次关系。通过继承,子类可以获得父类的特性,包括数据成员…

qt-C++笔记之QStringList、QList<QString>、QString、QChar、QList<QChar>区别

qt-C笔记之QStringList、QList、QString、QChar、QList区别 —— 杭州 2024-01-30 凌晨0:27 参考博文&#xff1a;qt-C笔记之QStringList code review! 文章目录 qt-C笔记之QStringList、QList<QString>、QString、QChar、QList<QChar>区别1.Qt的字符容器类1.QSt…

维护管理Harbor,docker容器的重启策略

维护管理Harbor 通过HarborWeb创建项目 在 Harbor 仓库中&#xff0c;任何镜像在被 push 到 regsitry 之前都必须有一个自己所属的项目。 单击“项目”&#xff0c;填写项目名称&#xff0c;项目级别若设置为"私有"&#xff0c;则不勾选。如果设置为公共仓库&#…

【个人博客搭建】Hexo安装部署

目录 一、本地构建Hexo (一) 安装前提 1. Node.js 2. Git 3. Hexo (二) 初始化Hexo 1. 初始化博客目录 2. 配置网站基本信息 (三) 主题配置 1. 选择主题 2. 下载主题 (四) 本地启动Hexo 1. 生成静态文件 2. 启动服务 二、部署 (一) 部署到Github Pages 1. 新建…

线性代数------矩阵的运算和逆矩阵

矩阵VS行列式 矩阵是一个数表&#xff0c;而行列式是一个具体的数&#xff1b; 矩阵是使用大写字母表示&#xff0c;行列式是使用类似绝对值的两个竖杠&#xff1b; 矩阵的行数可以不等于列数&#xff0c;但是行列式的行数等于列数&#xff1b; 1.矩阵的数乘就是矩阵的每个…

4D毫米波雷达分类和工程实现

4D毫米波目标检测信息丰富&#xff0c;可获得目标3维位置信息、径向速度vr和rcs等&#xff0c;能够对目标准确分类。 4D毫米波和激光做好时空同步&#xff0c;可以用激光目标给4D毫米波做标注&#xff0c;提升标注效率。 1 激光用做4D毫米波分类真值 128线激光推理的结果作为4…

如何从视频中提取高清图片?可以这样截取

如何从视频中提取高清图片&#xff1f;从视频中提取高清图片可以方便我们制作各种用途所需的素材&#xff0c;如海报、社交媒体配图等。此外&#xff0c;高清图片的细节和色彩也更丰富&#xff0c;可以更好地满足我们的视觉需求。从视频中提取高清图片是一项需要技巧的任务&…

windows上使用anconda安装tensorrt环境

windows上使用anconda安装tensorrt环境 1 安装tensorrt1.1 下载最新的稳定的tensorrt 8.6.1(tensorrt对应的cuda、cudnn等版本是参考链接4)1.2 将tensorrt添加到环境变量1.3 安装tensorrt依赖1.4 安装Pycuda1.5 安装pytorch 2 测试2.1 测试TensorRT 样例(这个测试主要来源于参考…

InsideCli、OutsideCli-电源管理(23国赛真题)

2023全国职业院校技能大赛网络系统管理赛项–模块B&#xff1a;服务部署&#xff08;WindowServer2022&#xff09; 文章目录 题目配置步骤验证 题目 设置电源配置&#xff0c;以便客户端在通电的情况下&#xff0c;永不进入睡眠。 配置步骤 验证

小猪o2o生活通系统更新到了v24.1版本了php文件开源了提供VUE了但是车牌识别功能你真得会用吗

一.车牌识别设置项 车牌识别设置项总开关&#xff1a;系统后台-社区管理-社区配置-车牌识别配置。 平台需要开启车牌识别功能&#xff0c;其次平台可以选择车牌识别功能是由平台配置还是小区自己配置有需要提供代码的可以Q我昵称注明&#xff1a;CSDN网友。如果是平台自己配置&…