【CVPR2024】Bootstrapping Autonomous Radars with Self-Supervised Learning

news2024/11/15 23:57:19

原文链接:https://arxiv.org/abs/2312.04519

简介:自动驾驶中的雷达可以在极端天气下进行感知,但相关模型的训练受到标注困难的阻碍。本文提出自监督框架,利用大量无标注雷达数据预训练雷达表达。方法包括雷达到雷达的、以及雷达到视觉的对比损失,以从雷达热图-摄像头图像对中学习通用表达。在3D目标检测任务上的实验表明,所提出的方法可以大幅超过SotA的性能。

本文的方法基于对比学习,不了解对比学习的读者,可参考自监督学习概述。本文方法的模态内学习部分与其中【例2】的SimCLR类似。

0. 方法概述

本文提出的自监督模型称为Radical(如图所示),可以单独的雷达数据或雷达-视觉数据对为输入。自监督损失包含两项,模态内项和跨模态项。前者关注雷达数据的特定结构,后者则利用视觉先验学习场景结构,以约束和增强稀疏雷达模态的特征。

1. 蒸馏设置

( r , v ) ∈ D (r,v)\in\mathcal D (r,v)D为数据集 D \mathcal D D的雷达-视觉数据对,其中 r ∈ R 1 × L × A r\in\mathbb R^{1\times L\times A} rR1×L×A为雷达热图, v ∈ R 3 × H × W v\in\mathbb R^{3\times H\times W} vR3×H×W为相应的RGB图像。

使用主干网络 f θ r f_{\theta^r} fθr编码雷达热图并使用MLP头 g ϕ r g_{\phi^r} gϕr投影,得到 z r = g ϕ r ( f θ r ( r ) ) ∈ R N z_r=g_{\phi^r}(f_{\theta^r}(r))\in\mathbb R^N zr=gϕr(fθr(r))RN

类似地,编码图像得到 z v = f θ v ∗ ( v ) ∈ R N z_v=f^*_{\theta^v}(v)\in\mathbb R^N zv=fθv(v)RN,其中 f θ v ∗ f^*_{\theta^v} fθv为冻结的预训练图像主干。

知识会以雷达分支内部交互和雷达分支与图像分支交互的方式,从预训练图像主干 f θ v ∗ f^*_{\theta^v} fθv中蒸馏到雷达主干 f θ r f_{\theta^r} fθr

2. 模态内雷达学习

为提高雷达嵌入的鲁棒性和区分度,本文设计数据增广(见后文) T \mathcal T T以进行雷达内实例判别学习。

具体来说,对每个雷达数据 r r r,本文先从 T \mathcal T T中随机抽取变换 t , t ′ ∼ T t,t'\sim\mathcal T t,tT,以获取 r r r的两个正样本视图,并进行编码、投影和 l 2 l_2 l2归一化,得到 z r = g ϕ r ( f θ r ( t ( r ) ) ) , z r ′ = g ϕ r ( f θ r ( t ′ ( r ) ) ) z_r=g_{\phi^r}(f_{\theta^r}(t(r))),z'_r=g_{\phi^r}(f_{\theta^r}(t'(r))) zr=gϕr(fθr(t(r))),zr=gϕr(fθr(t(r)))

在大小为 B B B的小批量中计算对比损失:

l i r → r ′ = − log ⁡ exp ⁡ ( sim ( z r , i , z r , i ′ ) ) ∑ j = 0 B exp ⁡ ( sim ( z r , i , z r , j ′ ) ) l_i^{r\rightarrow r'}=-\log\frac{\exp(\text{sim}(z_{r,i},z'_{r,i}))}{\sum_{j=0}^B\exp(\text{sim}(z_{r,i},z'_{r,j}))} lirr=logj=0Bexp(sim(zr,i,zr,j))exp(sim(zr,i,zr,i))

其中 sim ( x , y ) : = x T y / τ \text{sim}(x,y):=x^Ty/\tau sim(x,y):=xTy/τ为相似度函数, τ \tau τ为温度超参数。

可进一步计算雷达模态内的对称损失:

L intra = 1 2 B ∑ i B ( l i r → r ′ + l i r ′ → r ) L_\text{intra}=\frac1{2B}\sum_i^B(l_i^{r\rightarrow r'}+l_i^{r'\rightarrow r}) Lintra=2B1iB(lirr+lirr)

3. 跨模态雷达-视觉学习

虽然图像前视图和雷达热图表达在不同的坐标系下,但可通过对比损失对齐。

本文定义原型雷达向量为 z ˉ r = ( z r + z r ′ ) / 2 \bar z_r=(z_r+z'_r)/2 zˉr=(zr+zr)/2,并编码和归一化相应的视觉样本 z v = f θ v ∗ ( v ) z_v=f^*_{\theta^v}(v) zv=fθv(v)

类似雷达到雷达的对比学习,本文计算 l i r ˉ → v l_i^{\bar r\rightarrow v} lirˉv,其中 r ˉ \bar r rˉ代表原型雷达向量的使用。则跨模态对比损失为

L cross = 1 B ∑ i B l i r ˉ → v L_\text{cross}=\frac1B\sum_i^Bl_i^{\bar r\rightarrow v} Lcross=B1iBlirˉv

4. 增广

4.1 被赋予新用途的视觉增广

由于雷达热图类似图像,但又与图像表达在不同坐标系下,因此,可以利用小部分图像数据增广方法进行雷达热图增广。

具体来说,本文使用水平翻转、旋转、中心裁剪,其中后两者作用于极坐标系下。


图中(c)为原始雷达热图,(d)为随机相位噪声,(e)为天线丢弃,(f)为极坐标下的旋转,(g)为极坐标下的中心裁剪。

4.2 雷达增广

本文还使用雷达专用增广,称为无线电MIMO掩膜(RMM)。

RMM实施

对于含 M M M个发射天线, N N N个接收天线的MIMO雷达,其每个天线对可得到距离-水平角热图 r ( ρ , ϕ ) ∈ R L × A r(\rho,\phi)\in\mathbb R^{L\times A} r(ρ,ϕ)RL×A,所有天线对能组成3D复张量 S ∈ C M N × L × A S\in\mathbb C^{MN\times L\times A} SCMN×L×A

RMM包括以下两个操作:

(1)天线丢弃:利用MIMO雷达虚拟阵列的可重构性。随机省略一部分虚拟天线元素,以后续的进行信号聚合。

r ′ ( ρ , ϕ ) = ∣ ∑ k = 1 M N b k S ( ρ , ϕ , k ) ∣ , b k ∼ Bernoulli ( p ) r'(\rho,\phi)=|\sum_{k=1}^{MN}b_kS(\rho,\phi,k)|,b_k\sim\text{Bernoulli}(p) r(ρ,ϕ)=k=1MNbkS(ρ,ϕ,k),bkBernoulli(p)

其中 r ′ ( ρ , ϕ ) r'(\rho,\phi) r(ρ,ϕ)为增广雷达热图, k k k为天线对的索引, b k b_k bk为离散随机掩膜,以概率 p p p将第 k k k对天线置零。

该增广模拟了传感器部分失效或部分遮挡的情况,促使模型从不完整数据中学习并提高鲁棒性。

(2)随机相位噪声:该增广在聚合前随机化接收信号的相位,即

S k ′ = S k ⋅ e i θ k , θ k ∼ U [ α π , α π ) , 1 ≤ k ≤ M N S'_k=S_k\cdot e^{i\theta_k},\theta_k\sim U[\alpha\pi,\alpha\pi),1\leq k\leq MN Sk=Skeiθk,θkU[απ,απ),1kMN

其中 S k S_k Sk为第 k k k对天线的信号, S k ′ S'_k Sk为增广信号, θ k \theta_k θk为独立同分布的相位偏移, α ∈ [ 0 , 1 ) \alpha\in[0,1) α[0,1)为超参数。

该随机化模拟了环境因素和雷达与环境的相对运动引起的相位变化,也称为多普勒相位噪声。因此,其可以增强训练数据的覆盖率。

RMM实例化

使用上述两种增广方法的结合。实验中设置 p = 0.9 p=0.9 p=0.9 α = 0.1 \alpha=0.1 α=0.1

5. 下游微调

预训练后,丢弃投影头,而仅使用雷达主干连接任务头。

6. 实施细节

本文使用Radatron(不含FPN)作为雷达主干,预训练的CLIP作为图像编码器。

总结:本文的雷达热图增广方式(即文中RMM)为本文方法的关键和主要创新点。监督学习任务中也可以考虑使用该数据增广方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

适用于不同场合的高频俄语祝福语,柯桥零基础俄语培训

Приятного аппетита. Кушайте на здоровье. (говорят те, кто подает еду на стол, обычно это хозяйка дома, квартиры, или официант в кафе, ресторане…

论文辅导 | 基于贝叶斯优化LSTM的锂电池健康状态评估方法

辅导文章 模型描述 在传统的 LSTM 神经网络中,超参数的取值对模型性能有很大影响,但人工调参很难得到最优解。 因此,本文加入了 BO 来迭代出最优超参数。 在利用LSTM 神经网络评估锂电池 SoH 的基础上,通过 BO来提高评估的精确度。 预测效果

`THREE.PointsMaterial` 是 Three.js 中用于创建粒子系统材质的类。它允许你设置粒子系统的外观属性,比如颜色、大小和透明度。

demo案例 THREE.PointsMaterial 是 Three.js 中用于创建粒子系统材质的类。它允许你设置粒子系统的外观属性,比如颜色、大小和透明度。下面是对其构造函数的参数、属性和方法的详细讲解。 构造函数 const material new THREE.PointsMaterial(parameters);参数&am…

sourceTree 和Tortoise git软件的对比,以及使用sourceTree管理公司托管的 gitlab 项目或github项目

文章目录 Tortoisegit 和sourcetree的比较如何添加 gitlab 的社区版账号总结参考资料 Tortoisegit 和sourcetree的比较 我在 window都是用 Git 小乌龟(Tortoise git)来可视化管理 Git 项目。这时是不区分 Git 平台的,也就是不管你用的是 Git…

第4讲:pixi.js绘制舞台、随窗口大小而改变画布大小和舞台位置

基于前面写的代码,在gamelets的工程目录下新建一个CanvasAndStage.ts 代码如下 import {Application, Graphics} from pixi.js; // 不要忘了,一定要引用这个css样式,否则就会以默认样式显示 import ./style.css // app.view就是画布&#xf…

宝塔面板部署前端项目

部署前端项目 1 打包自己的项目2 登录宝塔面板3 添加站点4 设置域名5 进入当前站点对应的文件目录中6 上传打包后的文件7 访问网站 1 打包自己的项目 2 登录宝塔面板 点击左侧“网站”菜单进入对应页面 点击“添加站点” 3 添加站点 填写域名,如果没有域名的&am…

公交行业系统特点及面临的挑战

在当前城市发展中,公交行业作为公共交通的重要组成部分,承担着重要的社会责任。随着科技的进步和城市化进程的加快,公交行业系统也在不断地发展和完善。然而,从目前的发展情况来看,公交行业系统也呈现出一些显著的特点…

jmeter乱码汇总

一、Web页面乱码 如果想让他显示中文可以按以下操作: 1、打开jmter配置文件 bin/jmeter.properties 2、修改配置文件,查找“sampleresult.default.encoding”将其改为utf8,注意要去掉“#”号 sampleresult.default.encodingutf-8 3、重启 jmeter 4、再次…

让TSN DDS运转起来——面向智能汽车的以太网测试解决方案

概述 作为OPEN联盟和AUTOSAR联盟的核心成员,经纬恒润多年来持续为国内外各大OEM和供应商提供车载以太网相关的咨询服务,涵盖TCP/IP、SOME/IP、DDS、诊断、TSN等前沿技术领域的设计和测试。同时,经纬恒润与行业内的合作伙伴紧密合作&#xff0…

Linux删除文件磁盘空间未释放解决办法

工作中经常遇到Linux系统磁盘空间不足,但是删除后较大的日志文件后,发现磁盘空间仍没有被释放。 解决思路 1、工作发现磁盘空间不足; 2、找到占用磁盘空间较大的文件进行删除; 3、删除文件后,查看磁盘空间使用情况…

Web Serial串口通信实现WEB浏览器读写M1卡

本示例使用的设备&#xff1a;RS232串口RFID NFC IC卡读写器可二次开发编程发卡器USB转COM-淘宝网 (taobao.com) <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> &l…

第10章 启动过程组 (启动过程组的重点工作)

第10章 启动过程组 10.3启动过程组的重点工作&#xff0c;在第三版教材第362~364页&#xff1b; 文字图片音频方式 第一个知识点&#xff1a;项目启动会议 1、作用 标志着对项目经理责权的定义结果的正式公布&#xff0c;通常由项目经理负责组织和召开。2、目的 使项目各…

AI网络爬虫:下载m3u8视频文件

要下载m3u8视频文件&#xff0c;首先得找到m3u8地址&#xff0c;按下F12键&#xff0c;看网络-fetch/xhr,然后找网址中包括m3u8的地址&#xff0c;再预览或者看下相应 https://1304688195.vod2.myqcloud.com/9d058fb7vodtranscq1304688195/1194c6da1253642699220090018/video_1…

【阅读论文】-- IDmvis:面向1型糖尿病治疗决策支持的时序事件序列可视化

IDMVis: Temporal Event Sequence Visualization for Type 1 Diabetes Treatment Decision Support 摘要1 引言2 1 型糖尿病的背景3 相关工作3.1 时间事件序列可视化3.2 电子健康记录可视化3.3 1 型糖尿病可视化3.4 任务分析与抽象 4 数据抽象5 层次化任务抽象5.1 临床医生工作…

【IM 服务】新用户为什么刚注册就能收到通知?为什么能接收注册前的通知?

功能说明&#xff1a; 默认新注册的用户可以接收到注册前 7 天内的广播消息。您可以从控制台免费基础功能页面关闭该服务。 开通方式&#xff1a; 访问开发者后台 免费基础功能 1页面&#xff0c;确认应用名称与环境&#xff08;开发 /生产 &#xff09;正确无误后&#xff0c…

统一视频接入平台LntonCVS视频共享交换平台智慧景区运用方案

随着夏季的到来&#xff0c;各地景区迎来了大量游客&#xff0c;而景区管理面临的挑战也愈加严峻&#xff0c;尤其是安全问题显得格外突出。 视频监控在预防各类安全事故方面发挥着重要作用&#xff0c;不论是自然景区还是人文景区&#xff0c;都潜藏着诸多安全隐患&#xff0…

eslint 与 prettier 的一些常见的配置项(很详细)

目录 1、eslint 常见配置项&#xff08;语法规范&#xff09; 2、 prettier 常见的配置项&#xff08;格式规范&#xff09; 代码规范相关内容看小编的该文章&#xff0c;获取对你有更好的帮助 vsCode代码格式化&#xff08;理解eslint、vetur、prettier&#xff0c;实现格式…

AIPainter:创意绘画的智能助手

AIPainter 介绍 AIPainter是一款简单易用的AI画图工具&#xff0c;支持文生图、图生图&#xff08;提示词改图、图片变体、分辨率增强等&#xff09;&#xff0c;底层大模型基于开源的腾讯混元文生图、SDXL等。 功能特点 提示词库 AIPainter默认提供了一些常用场景的提示词供…

(python)小学出题热门词汇可视化绘制

1.代码 import pandas as pd from wordcloud import WordCloud import matplotlib.pyplot as plt from collections import Counter import jieba # 如果你处理的是中文文本&#xff0c;需要jieba分词 import re # 停用词列表&#xff0c;这里只是示例&#xff0c…

2024年【R2移动式压力容器充装】考试总结及R2移动式压力容器充装试题及解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年【R2移动式压力容器充装】考试总结及R2移动式压力容器充装试题及解析&#xff0c;包含R2移动式压力容器充装考试总结答案和解析及R2移动式压力容器充装试题及解析练习。安全生产模拟考试一点通结合国家R2移动式…