三分钟了解自动驾驶中视觉Transform应用:视觉Transoform自动驾驶综述

news2025/1/18 16:59:11

引言

Transformer技术在自然语言处理领域取得突破,催生了BERT、GPT和T5等模型。它在计算机视觉中也显示出潜力,尤其在自动驾驶领域,Transformer在物体检测、车道检测和分割等关键任务中替代了传统CNN和RNN,与强化学习结合用于路径规划。其自注意力机制增强了对动态环境的理解,对自动驾驶车辆的导航安全至关重要。

探索Transform:结构和功能见解

1、 Transform架构:结构概述

Transform架构是一项突破性创新,通过利用注意力机制进行序列处理,标志着从传统循环层的转变。它由两个主要部分组成:编码器和解码器。编码器通过多头注意力和前馈网络处理输入嵌入,两者都通过层规范化和残差连接得到增强。解码器结构与编码器相似,也聚焦于编码器输出,生成最终的输出序列。位置编码在此架构中至关重要,因为它们使模型能够识别序列顺序,这一关键特性是Transform本身无法辨别词序的。此功能对于把握语言上下文至关重要,使得位置编码成为Transform设计的基本组成部分。在接下来的内容中,我们将详细描述Transform的各个组成部分。

2、 自注意力机制:Transform的核心

Transform模型的核心是自注意力机制(图1),它评估输入序列各个部分之间的关系。在这一过程中,每个输入元素被转换为三个向量:查询(q)、键(k)和值(v),通常维度为d = 512,并编成矩阵Q、K和V。然后,注意力函数通过查询和键的点积计算交互分数,并通过除以√d来稳定训练。这些分数通过softmax函数转换为概率,指示每个元素应受到的关注程度。最终输出(Y)计算为:

Y = softmax( Q · KT / √d ) V.

图片

这是值向量的加权和,概括了整个序列的上下文。此外,编码器-解码器注意力机制使解码器能够根据其当前状态和编码器输出专注于输入序列的相关部分。此机制与位置编码结合,确保对序列排序有全面理解。

3、 多头注意力:增强维度分析

多头注意力机制(图2)增强了分析输入数据各个维度的能力。最初,将输入向量划分为每个头的三个不同集合:查询集合Q’、键集合K’和值集合V’,每个子集的维度为d/h。当d为512时,每个集合由较小的向量组成——具体来说,每个集合有h个向量,每个向量的维度为64。这些向量然后组合成矩阵Q’、K’和V’,以进行随后的注意力计算。多头注意力过程公式化如下:

MultiHead(Q’, K’, V’) = Concat(head1, …, headh)WO,

图片

其中每个headi定义为Y。在此上下文中,Q’、K’和V’表示由各自向量的组合形成的集合矩阵,而WO是结合各个注意力头输出到单一输出向量的学习权重矩阵。

4、 Transform模型的其他核心机制

前馈网络(FFN)是Transform模型的关键组成部分,位于每个单元的自注意力计算之后。它由两个线性操作和一个非线性激活函数(通常是Gaussian Error Linear Unit,GELU组成。数学上表示为:

FFN(X) = W2σ(W1X),

其中W1和W2是可学习参数矩阵,σ表示非线性函数。FFN的作用是增强处理复杂数据模式的能力,其中间层通常包含约2048个单元。

跳跃连接是Transform模型每一层的基本部分,增强信息流动并解决梯度消失问题。这些连接将输入直接添加到子层的输出:

LayerNorm(X + Z(X)),

其中X是输入,Z(X)是输出。跳跃连接与层规范化结合,确保稳定学习。一些变体使用预层规范化进行优化,在每个子层之前应用规范化。

Transform的输出层对于将向量序列转化为可解释输出至关重要。它涉及将向量线性映射到与词汇表大小匹配的logits空间,随后通过softmax函数将logits转换为概率分布。此层在各种数据处理任务中至关重要,将处理过的数据转化为最终可理解的结果。

Transform在自动驾驶中作为高级特征提取器,与CNN不同,通过整合更大视野的视觉信息以实现全球场景理解。其并行处理数据的能力提供了显著的计算效率,对于自动驾驶车辆中的实时处理至关重要。全球视角和效率使Transform对于自动驾驶技术具有显著优势,增强了系统能力。

自动驾驶中的视觉Transformer

视觉Transformer(ViTs)在自动驾驶(AD)中的应用包括:

  • 3D任务:物体检测、跟踪和3D分割,提供环境的三维感知。

  • 2D任务:车道检测、复杂分割和高清地图创建,处理二维空间数据。

  • 预测与整合:轨迹和行为预测,以及在端到端自动驾驶系统中的整合。
    ViTs的多功能性和有效性在提升自动驾驶车辆能力方面发挥着重要作用。

1 、视觉Transformer的兴起

ViT(图3)在自动驾驶中的图像处理领域带来了范式转变,用自注意力层取代了传统的卷积层。这种变革性方法将图像划分为不同的块,通过Transformer编码器进行分析,编码器包括自注意力和前馈层。这使得对图像重要部分的分析更加集中,大大提高了驾驶场景中的感知能力。对于更大的图像,ViT采用了一种混合模型,结合卷积和自注意力层。这一创新策略对于高效处理复杂视觉数据至关重要,这是自动驾驶车辆复杂决策所必需的。

图片

在ViT提出的概念基础上,Swin-Transformer提出了一种新颖的层次结构,专为自动驾驶系统中的图像处理设计。它有效解决了视觉Transformer的可扩展性问题,主要是由于自注意力机制的高计算需求。Swin-Transformer通过引入偏移窗口,能够高效关注相邻块而不重叠,显著减少了计算负载,并能够处理更大的图像。此外,其独特的标记化方法,将图像分割为固定大小的块并分层组合,保持了关键的空间信息并捕捉了局部和全局场景上下文。Swin-Transformer在处理图像特征方面的能力使其在各种自动驾驶感知模型中得到广泛应用,如BEVFusion和BEVerse,突显了其在推进自动驾驶技术方面的影响。

2、 3D感知任务

视觉Transformer模型在自动驾驶中的3D和一般感知任务中取得了显著进展。初期模型如DETR采用了一种创新的方法,将物体检测框架化为集合预测问题,使用预定义的框并利用匈牙利算法预测对象集合。Deformable DETR进一步改进了这一方法,通过引入变形注意力,改善了查询清晰度并加快了收敛速度。DETR3D将这些原理扩展到3D物体检测,将LiDAR数据转化为3D体素表示。此外,FUTR 和FUTR3D等视觉Transformer也扩展了多模态融合的范围,有效处理来自各种传感器的输入,增强了整体感知能力。

视觉Transformer在3D物体检测中带来了显著创新,如PETR、CrossDTR、BEVFormer 和UVTR等模型引领了这一领域。PETR显著地通过位置嵌入变换增强了图像特征的3D坐标信息,提供了更详细的空间理解。CrossDTR结合了DETR3D和PETR的优点,创建了一个结合跨视图分析和深度引导的统一检测框架。BEVFormer利用时空视觉Transformer架构,通过无缝整合空间和时间数据,实现了统一的BEV表示。UVTR则专注于深度推理,采用跨模态交互形成独特的体素空间,从而实现了多模态分析,对于准确的3D物体检测至关重要。

在自动驾驶的3D分割领域,视觉Transformer的集成带来了显著改进。TPVFormer 、VoxFormer和SurroundOcc是其中的典型例子。TPVFormer通过将体积转换为BEV平面来减少计算负载,同时在语义占用预测中保持高精度。VoxFormer使用2D图像创建3D体素查询提案,通过变形跨注意力查询增强了分割能力。SurroundOcc采用一种独特的方法,从不同视角和尺度的2D图像中提取3D BEV特征,有效合并这些特征以绘制出密集的占用空间。

视觉Transformer模型在自动驾驶车辆的3D物体跟踪中带来了变革性变化。MOTR和MUTR3D等模型扩展了传统跟踪方法的能力。MOTR在DETR模型的基础上,引入了“跟踪查询”机制,用于建模视频序列中的时间变化,避免了传统启发式方法的依赖。MUTR3D引入了一种允许并发检测和跟踪的创新方法,通过跨不同摄像机和帧的关联,理解对象的三维状态和外观变化,从而大大提高了跟踪精度和效率。

3、 2D感知任务

在自动驾驶中,与2D感知相关的任务包括车道检测、各种元素的分割和高清地图的创建等关键功能。这些任务专注于处理和理解二维空间数据,这是自动驾驶车辆技术的关键方面。与处理深度和体积的3D任务不同,2D任务需要精确解释平面表面和平面元素,这对于自动驾驶车辆的准确导航和安全至关重要。

车道检测是Transformer模型有效应用的主要领域之一,可以分为两大类。第一类包括BEVSegFormer 等模型,通过跨注意力机制提取多视角2D图像特征,并通过CNN进行语义分割,以实现精确的车道标记检测。另一个例子是PersFormer,将CNN用于2D车道检测,并通过Transformer增强BEV特征。第二类包括LSTR和CurveFormer等模型,专注于直接从2D图像生成道路结构。这些模型使用Transformer查询来优化道路标记,并实现曲线查询以有效生成车道线,展示了Transformer在车道检测任务中的多功能性和精度。

除车道检测外,Transformer模型在自动驾驶中的分割任务中也越来越多地被应用。TIiM是这一应用的典范,它的序列到序列模型有效地将图像和视频转换为俯视BEV地图,将图像中的垂直扫描线链接到地图中的相应射线,实现数据高效和空间感知处理。Panoptic SegFormer提供了一种全方位的全景分割方法,整合了语义和实例分割。通过使用监督的掩码解码器和查询解耦策略,改善了分割效率。这种模型展示了Transformer架构在处理复杂分割任务中的灵活性。

在高清地图生成领域,Transformer架构如STSU 、VectorMapNet 和MapTR带来了显著进步。STSU将车道视为有向图,专注于学习贝塞尔控制点和图连通性,将前视摄像机图像转换为详细的BEV道路结构。另一方面,VectorMapNet在高精度地图的端到端矢量化中处于领先地位,利用稀疏多段线原语建模几何形状。MapTR提供了一个在线框架,用于矢量化地图生成,将地图元素视为点集并采用层次查询嵌入方案。这些模型展示了在将多视角特征整合成一个连贯的BEV视角方面的进步,这对于创建准确详细的自动驾驶地图至关重要。

4、 预测、规划和决策任务

Transformer在自动驾驶中的预测、规划和决策任务中越来越重要。这一进展标志着向端到端深度神经网络模型的重要转变,这些模型将整个自动驾驶流程整合在一起,包括感知、规划和控制。这种整体方法反映了从传统模型向更全面和集成解决方案的重大演变,表明自动驾驶车辆技术向更综合和集成的解决方案的重大演变。

在轨迹和行为预测中,基于Transformer的模型如VectorNet、TNT、DenseTNT、mmTransformer和AgentFormer解决了标准CNN模型在长距离交互建模和特征提取方面

挑战和未来方向

视觉Transform在自动驾驶领域展示了巨大的潜力,但面临着数据收集、安全性和可解释性等挑战。尽管它们在感知和预测方面表现出色,但多模态融合和可解释性等趋势正在逐渐兴起。未来的关注点包括实时处理优化和端到端模型开发,这需要持续的研究以克服这些挑战。

实施Transform模型的挑战

Transform从最初专注于3D障碍物感知,逐渐扩展到自动驾驶中的各种感知任务,在向多模态融合过渡时遇到了新的挑战。这一过渡需要多模态模型和高效的无线连接来提升效率,这对于高级自动驾驶至关重要。然而,这也带来了训练的复杂性,需要在算法和系统集成方面取得进展。

硬件加速与模型复杂性

随着Transform模型的复杂性增加,它们需要创新的硬件加速解决方案以实现高效部署。将各种模型整合到一个端到端系统中在硬件优化方面面临挑战,尤其是像可变形注意力这样的操作符使并行处理复杂化。这需要专门的硬件设计以满足这些高级模型的多样化需求。

未来方向:
算法和硬件进步

未来在自动驾驶领域的Transform模型进展将集中在算法增强和硬件创新上。关键领域包括混合精度量化,以平衡计算需求和可解释性技术,如基于注意力的显著性图。这些发展旨在改进模型压缩并提供对决策过程的见解,建立对自动驾驶系统的信任。

提高模型效率和可解释性

效率和可解释性对于自动驾驶中Transform模型的未来至关重要。需要能够有效处理多视角数据并提供改进的泛化能力,同时优化性能的模型。开发具有视觉突出关键数据技术的可解释模型将提高系统的可靠性和用户对自动驾驶技术的信任。

总结:

本文全面调查了Transformer模型,尤其是视觉Transformer(ViTs)在自动驾驶(AD)中的应用,展示了它们超越传统卷积神经网络(CNNs)和循环神经网络(RNNs)的重要性。我们探讨了它们的基础架构、在自然语言处理和计算机视觉中基于注意力的处理优势,以及它们在各种自动驾驶任务中的卓越性能,包括3D物体检测、2D车道检测和高级场景分析。此外,我们强调了视觉Transformer在AD中的挑战、趋势和未来展望,旨在激发对这个动态领域进一步的兴趣和研究。视觉Transformer在改变自动驾驶方面具有细微的数据处理能力,预示着车辆技术将取得令人兴奋的进步。

引用文章:

A Survey of Vision Transformers in Autonomous Driving: Current Trends and Future Directions

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1979181.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

秒懂Linux之gdb调试

目录 ​ 一. 前情提要 二. 相关命令 2.1 l 行号/函数名 2.2 r 2.3 b 2.4 info break 2.5 d 2.6 disable/enable 2.7 n 2.8 s 2.9 p 2.10 display/undisplay 2.11 c 2.12 bt 2.13 finish 2.14 untill 2.15 set var 三. 总结 一. 前情提要 Linux gcc/g出来的二…

100379.新增道路查询后的最短距离I

今天看到很有意思的一个题目,记录下来,供大家参考 题目描述 解题思路 为了解决这个问题,我们需要处理一系列的单向道路添加操作,并在每次添加后计算从城市 0 到城市 n-1 的最短路径长度。由于初始时每个城市 i 都有一条到 i1 的…

【C++高阶】:C++11的深度解析下

✨ 彼方尚有荣光在,何须悲叹少年轻 🌏 📃个人主页:island1314 🔥个人专栏:C学习 🚀 欢迎关注:👍点赞 👂&…

浅谈 Spring AOP框架 (1)

文章目录 一、什么是 Spring AOP二、为什么要使用 Spring AOP三、AOP 的一些应用场景四、AOP 的组成五、如何使用 Spring AOP六、Spring AOP 的实现原理6.1、JDK 和 CGLIB 的区别 一、什么是 Spring AOP AOP (Aspect Oriented Programming) :面向切面编程&#xff…

[CTF]-PWN:格式化字符串漏洞题综合解析

printf型格式化字符串漏洞: 任意地址写: 32位: 例题(inndy_echo): 有格式化字符串漏洞,可以修改printf的got表内地址为system,传参getshell 解法一: 在32位中可以使…

C语言 操作符

操作符分多种:算术操作符,移位操作符,位操作符,赋值操作符,单目操作符,关系操作符,逻辑操作符,条件操作符,逗号表达式,下标引用,函数调用和结构成…

【Web开发手礼】探索Web开发的秘密(十四)-Vue2(1)Node.js的安装、Vue入门

主要介绍了Node.js的安装教程、Vue2常用的一些指令、声明周期!!! 文章目录 前言 Node.js安装 选择安装目录 验证NodeJS环境变量 配置npm的全局安装路径 切换npm的淘宝镜像 安装Vue-cli ​编辑 Vue2入门 引入vue.js文件 入门代码 常用指令 生…

眼在手外-机器人坐标系与相机坐标系标定方法

1 眼在手外坐标系概述 实现机械臂和相机的手眼标定,就是要通过双目相机坐标系、机械臂坐标系和机械臂 末端执行器三者的坐标系转换,求出手眼转换矩阵。设双目相机坐标系为 Oc,标定板坐标 系为 Ow,末端执行器坐标系为 Oe&#xff0…

【学习笔记】Day 3

一、进度概述 1、作业1 2、组会会议纪要——没太听懂,得再看 二、详情 1、作业1 (1)在python中,想要使output为图片,需要用的matplotlib库,这里做简单的整理,以便更好的理解代码。 …

ADC的介绍和工作原理

一,什么是ADC? Analog-to-Digital Converter,指模拟/数字转换器 什么是ADC: ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁 SUCH AS: 12 位 ADC 是一种逐次逼近…

免费【2024】springboot 导师选择管理系统的管理设计与实现

博主介绍:✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围:SpringBoot、Vue、SSM、HTML、Jsp、PHP、Nodejs、Python、爬虫、数据可视化…

从零入门 AI for Science(AI+药物) 笔记 #Datawhale AI 夏令营

💖使用平台 我的Notebook 魔搭社区 https://modelscope.cn/my/mynotebook/preset . 魔搭高峰期打不开Task3又换回飞桨了 吧torch 架构换成了 飞桨的paddle 飞桨AI Studio星河社区-人工智能学习与实训社区 https://aistudio.baidu.com/projectdetail/8191835?cont…

解决电脑数字小键盘经常自动关闭的问题

本文解决了电脑数字小键盘经常自动关闭的问题,可供大家参考。 winR,输入regedit打开注册表 依次选择HKEY_USERS DEFAULT Control Panel---Keyboard”,将InitialKeyboardIndicators的值由2147483648改为80000002,即可解决。

xss漏洞(四,xss常见类型)

本文仅作为学习参考使用,本文作者对任何使用本文进行渗透攻击破坏不负任何责任。 前言: 1,本文基于dvwa靶场以及PHP study进行操作,靶场具体搭建参考上一篇: xss漏洞(二,xss靶场搭建以及简单…

[240804] OpenTofu 1.8.0 发布,带来更友好的编码体验 | 生成式 AI 滥用现象分析

目录 OpenTofu 1.8.0 发布,带来更友好的编码体验生成式 AI 滥用现象分析 OpenTofu 1.8.0 发布,带来更友好的编码体验 OpenTofu 1.8.0 现已发布,主要功能包括: 变量和局部值的早期求值: 现在可以在模块源、后端配置和状态加密等更…

西部数据HDD和闪存业务均在复苏加速

财务概览 西部数据(Western Digital)截至2024年7月341日的第四财季营收达到37.6亿美元,同比增长41%,超出预期的33亿美元,净利润达到3.3亿美元,与去年同期亏损7.15亿美元形成鲜明对比。整个2024财年的营收增…

C语言初阶(12)

1.调试的基本 调试是发现并解决C语言编译的bug的方法。 调试基本步骤是1.发现程序错误的存在 2.以隔离、消除等方式对错误进行定位 3.确定错误产生的原因 4.提出纠正错误的解决办法 5.对程序错误予以改正,重新测试 编译版本release和debug版本,releas…

一例AutoHotkey语言生成的文件夹病毒分析

概述 这是一个使用AutoHotkey语言编写的文件夹病毒,使用ftp服务器来当作C2,通过U盘传播,样本很古老,原理也很简单,这种语言的样本还是第一次见到,记录一下。 样本的基本信息 PE32库: AutoIt(3.XX)[-]编译…

Cocos Creator2D游戏开发(11)-飞机大战(9)-cocos发布微信小游戏

准备工作: ① cocosCreator ②微信小游戏开发者工具 第一步: cocosCreator 打包编译,设置发布平台,默认场景,设备方向,AppId 最后点击构建 等待构建完成 第二步: 导入微信开发者工具 就是cocos Creator 中构建发布里面的发布路径 然后编译: 剩下的就是微信开发者工具…

Bootstrap框架介绍

1、Bootstrap框架的下载和使用 Bootstrap框架是基于HTML、CSS、JavaScript的CCS/HTML框架,是一种封装好的前端框架。它包括js、css、front字体样式库。该框架下载链接:https://v3.bootcss.com/getting-started/#download,并选择下载源码。 建一个BootstrapDemo文件夹,将js…