51c自动驾驶~合集50

我自己的原文哦~ https://blog.51cto.com/whaosoft/13280022

#VLA 主流方案全解析

旨在让智能体在物理世界中通过感知、决策和行动来实现目标，而视觉 - 语言 - 动作（VLA）模型作为其中的关键技术，近年来备受关注。VLA 模型能够处理视觉、语言和动作信息，使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容，对主流的 VLA 方案进行总结，包括其开源项目、核心思想、结论共识以及未来发展方向，希望能为关注领域的读者提供有价值的参考。

一、VLA 方案总览（一）基于经典 Transformer 结构方案

代表性开源项目：ALOHA(ACT)系列、RT-1、HPT等。
核心思想：利用强化学习轨迹与序列建模问题结构的自然对齐性，采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模，有效提升了模型在复杂环境中的决策能力。例如，在机器人控制任务中，模型可以根据过去的状态和动作序列，预测未来的最优动作，从而更好地适应复杂环境中的变化。

（二）基于预训练 LLM/VLM 方案

代表性开源项目：RT - 2、OpenVLA 等。
核心思想：将 VLA 任务视为一个序列到序列的生成问题，利用预训练的语言模型（LLM）或视觉语言模型（VLM）来处理视觉和语言信息，并生成相应的动作。以 RT - 2 为例，它通过共同微调，使模型适应互联网规模的视觉问答数据和机器人数据，从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时，能够借助预训练模型对语言和视觉信息的理解，更准确地生成合适的动作指令，为机器人在复杂任务中的执行提供了有力支持。

（三）基于扩散模型方案

代表性开源项目：Diffusion Policy、RDT - 1B 等。
核心思想：将机器人策略建模为去噪扩散概率模型（DDPM），通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术，如后退视域控制、视觉条件和时间序列扩散变压器，在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时，该模型能够有效地生成稳定且多样化的动作，为机器人在复杂环境中的动作生成提供了新的思路和方法。

（四）LLM + 扩散模型方案

代表性开源项目：Octoπ0 等。
核心思想：结合 LLM 和扩散模型的优势，LLM 用于压缩多模态表征，扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合，在不同机器人和任务中实现了正向转移和泛化，提高了模型在复杂任务中的性能和适应性。例如，在多模态信息处理中，LLM 可以对视觉和语言信息进行初步的理解和整合，然后扩散模型根据这些信息生成精确的动作轨迹，使机器人能够更好地完成任务。

（五）视频生成 + 逆运动学方案

代表性开源项目：UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
核心思想：先根据首帧和指令生成运动视频，再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态，然后利用逆运动学将预测的状态转换为可执行的动作，提高了动作生成的可解释性和准确性。以 UniPiRo 为例，它根据给定的初始帧和指令生成运动视频，该视频展示了机器人在未来一段时间内的预期运动轨迹，然后通过逆运动学将视频中的状态转换为具体的关节动作，使机器人能够按照预期轨迹运动，在机器人控制任务中具有重要意义。

（六）显示端到端 VLA 方案

代表性开源项目：众多端到端 VLA 模型，如部分基于 Transformer 的模型等。
核心思想：将视觉语言信息压缩成联合的表征，再映射到动作空间生成动作。这些模型通过直接处理多模态信息，减少了中间环节的信息损失，提高了模型的效率和准确性。在实际应用中，模型可以直接从视觉和语言输入中提取关键信息，快速生成相应的动作。例如，模型在接收到 “将蓝色杯子从桌子上拿起并放到厨房的架子上” 的指令和对应的视觉场景后，能够直接对视觉中的物体进行识别、定位，结合语言指令理解任务目标，然后生成一系列精确的动作指令，如控制机械臂移动到杯子上方、调整夹爪姿态、抓取杯子、移动到架子位置并放置杯子等，整个过程无需复杂的中间转换，有效提高了机器人的响应速度和执行准确性。

（七）隐式端到端 VLA 方案

代表性开源项目：如利用人类视频训练世界模型的相关项目（如 SWIM 等）。
核心思想：利用当前的视频扩散模型预测未来状态，再通过逆运动学生成动作，同时注重提高模型的可解释性。例如，SWIM 通过使用人类视频训练世界模型，并结合视觉可供性地图推断目标姿势，实现了知识从人类数据到机器人控制的有效转移。该模型从人类视频中学习到人类在不同场景下的行为模式，然后利用这些知识预测机器人在相似场景下应采取的动作，为机器人在复杂环境中的决策提供了更可靠的依据。

（八）分层端到端 VLA 方案

代表性开源项目：结合了高层任务规划和低层控制策略的分层模型（如一些包含 LLM 作为高层规划器的项目）。
核心思想：充分利用大小模型的特点，高层任务规划器将复杂任务分解为子任务，低层控制策略执行子任务，以提升模型的泛化性和执行效率。这种分层结构使模型能够更好地处理长时域任务，提高了机器人在复杂任务中的执行能力和适应性。例如，在执行 “整理房间” 这样的长时域任务时，高层规划器可以将任务分解为 “捡起物品”“移动到指定位置”“放置物品” 等子任务，低层控制策略则负责具体执行这些子任务，使机器人能够有条不紊地完成整个任务。

二、方案对比与结论共识（一）模型架构与信息融合

在模型架构方面，不同方案探索了多种融合视觉和语言输入的方法。例如，基于经典 Transformer 结构的方案通过特定的网络结构设计来整合多模态信息；基于预训练 LLM/VLM 的方案则借助预训练模型的强大表征能力进行信息融合。
结论共识是，合适的架构设计对于实现高效的视觉 - 语言 - 动作交互至关重要。不同架构在处理多模态信息时有其优势和局限性，如某些架构在处理长序列信息时表现较好，而另一些在模型参数效率上更具优势。例如，Transformer 架构在处理长序列数据时能够有效捕捉信息之间的依赖关系，但可能需要较大的计算资源；而一些基于卷积神经网络的架构在参数效率上可能更高，但在处理长序列信息时可能存在一定困难。

（二）动作类型与训练目标

动作类型上，多数低层级控制策略预测末端执行器的位姿，但不同方案在动作表示和处理方式上存在差异。例如，一些方案采用离散动作表示，而另一些则采用连续动作表示。
训练目标方面，包括行为克隆（BC）、强化学习等多种方式。不同训练目标对模型的性能和泛化能力有不同影响，例如 BC 在模仿学习中广泛应用，但其在不同动作类型下的实现方式和效果有所不同。以 RT - 1 为例，它采用离散动作表示，通过行为克隆的方式进行训练，在一些简单任务中表现出较好的性能，但在处理需要连续动作的复杂任务时可能存在一定局限性。
总体而言，选择合适的动作类型和训练目标需要综合考虑任务需求、模型性能和数据可用性等因素，以实现高效的动作生成和优化。例如，在需要精确控制动作的任务中，连续动作表示可能更合适；而在数据量有限的情况下，行为克隆等基于已有数据的训练方式可能更具优势。

（三）LLM 与非 LLM 方案

LLM - 基于方案（如 RT - 2 等）在指令理解和复杂任务处理上具有优势，能够更好地解析用户意图。然而，其训练成本高且部署速度可能较慢，在动态环境中可能面临推理延迟的问题。例如，RT - 2 在理解复杂语言指令方面表现出色，但由于其模型规模较大，训练过程需要大量的计算资源和时间，并且在实时性要求较高的动态环境中，可能因为推理速度较慢而影响机器人的响应及时性。
非 LLM 方案（如一些早期的基于经典 Transformer 结构的方案）虽然在指令理解能力上相对较弱，但在特定场景下，如对实时性要求较高的任务中，可能因其简单高效的特点而表现出色。例如，一些基于经典 Transformer 结构的模型在处理简单指令和实时性要求高的任务时，能够快速生成动作，保证机器人的高效运行。
未来的发展可能需要在两者之间寻求平衡，或者探索新的方法来充分发挥它们的优势，克服各自的局限性。例如将 LLM 与非 LLM 模型进行协同工作，利用 LLM 进行高层任务规划和指令解析，非 LLM 模型负责底层动作执行和实时控制，实现更强大、高效和智能的 VLA 系统。

（四）RT 系列模型的发展与影响

RT - 1 作为开创性的 “Robotic Transformer” 模型，激发了一系列后续工作。其后续模型如 RT - 2、RTX 等在数据集规模、模型架构和性能上不断改进。

RT - 1 模型特点与贡献：RT - 1 是首个用于机器人的 Transformer 模型，其输入包括头部视角历史长度 T = 6 的 300x300 的图像以及语言指令。它采用了 FiLM conditioned EfficientNet - B3 作为图像 Encoder，直接融合视觉和语言信息（VL），将每张图经过处理得到 9x9x512 的 VL 融合后的 token，再通过 tokenlearner 将每张图的 81 个 token 变为 8 个 token，最终得到 8*6 = 48 个 token。Language Encoder 使用 Universal Sentence Encoder 得到 512 维向量。Decoder/Policy Head 采用 decoder - only Transformer，包含 8 个自注意力层，模型参数达 19M，输出为 11D 的离散动作空间，涵盖手臂、基座的扭矩、夹爪位置、旋转等信息。
RT - 2 的改进与创新：RT - 2 基于 ViT 和 LLM，引入了共同微调的训练方式，使其能适应互联网规模的视觉问答数据和机器人数据。它在 RT - 1 的基础上，进一步提升了模型的泛化能力和涌现能力，为机器人在更复杂任务中的执行提供了支持。
RTX 的优化与提升：RTX 模型重新使用了 RT - 1 和 RT - 2 模型，并利用新引入的开源大型数据集 Open X - Embodiment（OXE）进行训练。OXE 数据集包含 160,266 个任务、527 个技能和 22 个实施例，规模比以前的数据集大得多。因此，RTX 模型（包括 RT - 1 - X 和 RT - 2 - X）在性能上超越了其原始版本，展现了数据集规模对模型性能提升的重要性。

结论共识是，随着数据集的扩大和模型架构的优化，RT 系列模型在实际应用中的性能逐步提升，展示了基于 Transformer 架构在领域的潜力。同时，也为其他 VLA 模型的发展提供了重要的参考和借鉴。例如，其他模型可以借鉴 RT 系列模型在数据利用、架构设计等方面的经验，不断改进自身性能，推动 VLA 技术的发展。

三、未来方向（一）数据稀缺问题

目前，获取足够的真实世界机器人数据仍然是一个重大挑战，收集过程耗时且资源密集。例如，在实际环境中收集机器人操作数据需要大量的人力、物力和时间投入，而且不同环境和任务下的数据多样性难以保证。
未来的方向包括开发更高效的数据收集方法，如利用自动化数据收集技术（如 RoboGen、AutoRT 等），以及通过模拟环境生成更多样化的数据来缓解数据稀缺问题。RoboGen 可以通过生成式模拟范式提出有趣的技能，模拟相应环境并选择最优学习方法来训练策略获取数据；AutoRT 则能作为机器人编排器，由 LLMs 驱动生成任务，筛选后利用自主策略或人工远程操作收集和评估数据。同时，改进数据标注技术和提高数据质量也是关键，例如采用更先进的标注工具和算法，确保数据的准确性和一致性，从而为模型训练提供更优质的数据。

（二）运动规划能力提升

当前运动规划模块在处理复杂环境中的任务时，往往缺乏足够的灵活性和精确性，限制了机器人与工具交互、在复杂环境中导航和执行高精度操作的能力。例如，在复杂的操作任务中，机器人可能难以精确地抓取和放置物体，或者在狭窄空间中导航时容易出现碰撞等问题。
未来需要开发更强大的运动规划算法，结合深度学习和传统规划方法的优势，提高机器人在复杂环境中的运动规划能力。例如，通过强化学习优化运动轨迹生成，使机器人能够根据环境反馈不断调整动作，找到最优的运动路径；引入基于模型的预测控制方法，提高动作的准确性和稳定性，确保机器人在执行任务时能够精确控制动作的力度、方向和速度等参数。

（三）实时响应性增强

许多机器人应用对实时决策和动作执行有严格要求，但现有 VLA 模型在处理复杂任务时可能面临延迟问题。例如，在一些需要快速响应的场景中，如工业生产线上的机器人操作或自动驾驶中的决策，模型的推理延迟可能导致生产效率降低或安全风险增加。
未来研究需优化模型架构与算法提升计算效率、缩减推理时间，确保机器人在实时性场景快速响应。比如探索高效架构、减少计算层与参数，或用并行计算技术加速。硬件层面优化计算资源分配利用也重要，研发专用加速器，优化软硬件协同，使资源高效服务模型推理，让机器人在实时性要求高的场景稳定准确运行，像智能仓储物流中快速分拣运输货物，救援场景中迅速决策行动。

（四）多模态信息融合优化

虽然在多模态信息融合方面已经取得了一定进展，但实现视觉、语言和动作信息的最优融合仍然是一个挑战。目前的模型在融合不同模态信息时，可能存在信息丢失、模态间对齐不准确等问题。例如，在处理包含复杂场景和模糊指令的任务时，模型可能无法准确地将视觉信息与语言指令进行匹配，从而导致动作执行的不准确。
未来需要进一步研究多模态表示学习、融合技术和任务特定适应方法，以提高模型对多模态信息的理解和处理能力。例如，探索更有效的跨模态注意力机制，使模型能够更加关注不同模态信息之间的关联部分，从而更好地整合信息；开发新的多模态特征融合方法，将视觉、语言和动作的特征进行更有效的融合，提高特征的表达能力；针对不同任务的特点，设计专门的适应方法，使模型能够根据任务需求灵活调整信息融合策略，从而做出更准确的决策。

（五）泛化能力提升

一个真正通用的机器人系统应能够在不同的、未见过的场景中理解和执行自然语言指令，但目前模型在面对新场景、新任务和新对象时的泛化能力仍有待提高。例如，在一个新的家庭环境中，机器人可能无法理解与之前训练场景稍有不同的指令，或者在处理新类型的任务时表现不佳。
未来的研究方向包括开发更具适应性和可扩展性的 VLA 架构，通过元学习、域适应等技术提高模型在不同场景下的泛化能力。元学习可以让模型学习如何快速适应新任务，从少量的样本中获取有效的学习策略；域适应技术则有助于模型在不同领域或场景之间迁移知识，减少对大量特定场景数据的依赖。使机器人能够快速适应新环境和任务需求，实现更广泛的应用，例如在不同的工业场景、家庭环境或户外环境中都能准确执行任务。

（六）长时域任务执行改进

对于像 “清洁房间” 这样的长时域任务，当前的高层任务规划器虽然取得了一定进展，但在处理复杂任务序列和应对环境变化时仍存在不足。例如，在执行清洁房间任务时，可能会遇到意外情况，如物品位置变动或新物品出现，当前规划器可能难以实时调整任务计划。
未来需要设计更高效的规划器，赋予机器人更强的感知能力和更丰富的常识知识，以更好地规划和执行长时域任务。例如，结合强化学习和基于搜索的规划方法，强化学习可以让机器人在执行任务过程中根据环境反馈不断优化动作选择，基于搜索的规划方法则能在遇到复杂情况时快速探索不同的解决方案；引入语义理解和知识图谱技术，使机器人能够理解任务的语义信息，利用知识图谱中的常识知识更好地应对各种情况，从而更好地完成复杂的长时域任务。

（七）基础模型探索与优化

目前对于 VLA 在机器人任务中的基础模型探索仍处于初级阶段，面临着不同机器人形态、环境和任务的多样性挑战，以及孤立数据集和评估设置的问题。不同类型的机器人在结构、运动方式和感知能力上存在差异，现有的基础模型难以直接适应各种情况。同时，数据集的多样性和评估标准的不统一也限制了模型的发展。
未来需要利用互联网规模的具身数据集和先进的多模态模型，构建更强大、通用的基础 VLA 模型。互联网上丰富的多模态数据可以为模型提供更广泛的知识和信息，有助于提高模型的泛化能力。同时，建立统一的评估标准和基准，促进模型的比较和改进，使研究者能够更准确地评估模型的性能，推动 VLA 技术在机器人领域的广泛应用。

（八）多智能体系统协作发展

在大规模机器人部署场景中，多智能体协作面临着通信、任务分配和异构性等挑战，尽管多智能体系统具有潜在优势，但目前尚未充分发挥。例如，在多机器人协同执行任务时，机器人之间可能存在通信延迟或信息不一致的问题，导致任务执行效率低下；不同类型的机器人在能力和功能上存在差异，如何合理分配任务是一个难题。
未来的研究需要聚焦于开发有效的多智能体协作算法和通信协议，提高智能体之间的协同效率和任务分配的合理性。同时，研究如何处理异构智能体之间的差异，实现更高效的分布式感知、协作故障恢复和自主舰队维护，以充分发挥多智能体系统在复杂任务中的优势。

（九）安全与伦理考量

随着机器人在现实世界中的应用越来越广泛，安全问题至关重要，确保机器人系统的安全性需要在开发和部署过程中综合考虑多种因素。在机器人与人类共同工作或生活的场景中，如工厂、医院、家庭等，机器人的任何错误动作都可能对人类造成伤害。例如，在工业生产中，机器人可能因故障或错误指令而发生碰撞，对操作人员造成身体伤害；在家庭环境中，服务机器人可能因误解指令而损坏物品或对家庭成员造成意外。
未来需要将现实世界的常识和复杂推理融入机器人系统，建立强大的安全机制、风险评估框架和人机交互协议，以保障机器人在各种场景下的安全运行。例如，通过知识图谱等技术为机器人注入常识知识，使其能够理解行为的后果并避免危险操作；建立实时风险评估系统，对机器人的动作进行风险预测，及时采取措施避免事故发生。同时，随着机器人决策过程的日益复杂，提高模型决策的可解释性和透明度，对于增强机器人的安全性和可信度至关重要。此外，还需要关注机器人应用带来的伦理和社会影响，制定相应的规范和准则，确保机器人技术的合理、负责任发展。例如，在就业方面，机器人的广泛应用可能导致部分工作岗位被替代，需要制定相关政策来应对这一变化；在隐私保护方面，机器人在收集和处理数据过程中需要遵循严格的隐私法规，保障用户的个人信息安全。

四、总结

本文详细总结了中 VLA 的主流方案，包括基于经典 Transformer 结构、预训练 LLM/VLM、扩散模型、LLM + 扩散模型、视频生成 + 逆运动学以及不同类型的端到端方案。通过对各方案的开源项目和核心思想的介绍，对比了它们在模型架构、动作类型、训练目标等方面的特点，得出了相应的结论共识。同时，探讨了 VLA 面临的数据稀缺、运动规划、实时响应、多模态融合、泛化能力、长时域任务执行、基础模型、多智能体协作以及安全伦理等挑战，并展望了未来的发展方向。随着技术的不断进步，相信 VLA 将在领域取得更大的突破，为机器人的智能化发展提供更强大的支持，推动其在众多领域的广泛应用，如制造业中的自动化生产、医疗领域中的手术辅助、家庭服务中的日常任务协助等，从而极大地提高生产效率、改善生活质量并拓展人类的活动范围。但在发展过程中，也需要充分考虑各种潜在问题，确保技术的健康、可持续发展。

#Ultra-AV

新基准！威斯康星大学开源：统一自动驾驶纵向轨迹数据集

自动驾驶车辆在交通运输领域展现出巨大潜力，而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足，从而限制了有效的性能度量分析和模型开发。

本研究针对这些挑战，构建了一个（Ultra-AV），用于分析自动驾驶汽车的微观纵向驾驶行为。该数据集整合了来自14 个的数据，涵盖多种自动驾驶汽车类型、测试场景和实验环境。我们提出了一种数据处理框架，以获得高质量的纵向轨迹数据和跟驰轨迹数据。最后，本研究通过对安全性、通行效率、稳定性和可持续性等多个性能维度的评估，以及对跟驰模型变量之间关系的分析，验证了数据的有效性。我们的工作不仅为研究人员提供了标准化的数据和指标，用于分析自动驾驶汽车的纵向行为，还为数据采集和模型开发提供了指导方法**。

介绍

理解自动驾驶汽车的纵向驾驶行为对于确保其安全性和优化交通流至关重要。然而，现有的开源自动驾驶汽车轨迹数据集缺乏精细的数据清理和标准化，导致：

数据质量不均，影响模型开发和性能评估。
缺乏完整性和可靠性，难以进行跨数据集研究。
分析效率低，影响AV安全测试和仿真研究。

本研究提出了一种统一的自动驾驶汽车纵向轨迹数据集（Ultra-AV），有以下特点：

大规模数据集： 数据总量 2.6GB，涵盖 14 个不同的自动驾驶数据源，涉及 30 多种测试和实验场景，包含 超过 1000 万个数据点，相当于 280 小时以上的行驶数据。
标准化数据格式： 统一不同数据源的数据格式，使其适用于跨数据集研究。
数据处理框架： 提供一种高效的数据处理方法，提高数据的可用性，支持自动驾驶仿真测试和行为建模。

方法

如图所示，我们的统一数据集涵盖了14个不同来源的数据集。这些数据集收集自美国和欧洲的多个城市，确保了所选城市的多样性和代表性，使研究具备更广泛的适用性。

此外，大多数被整合的数据集都包含自动驾驶汽车的长时间轨迹，这些数据广泛应用于自动驾驶行为分析。然而，一些特定数据集，如 Waymo Open Dataset中的 Waymo Motion Dataset 和Argoverse 2 Motion Forecasting Dataset，其轨迹时间较短，分别为9.1 秒和11 秒（采样频率为 10Hz）。这些数据集主要用于Motion Forecasting领域的研究，尽管轨迹较短，但其采集地点通常位于复杂交通环境中的市区，能够提供在复杂场景下分析自动驾驶行为的机会。因此，本研究特别包含了对这两个数据集的分析，以确保数据集的全面性和适用性。

本研究提出了一种数据处理框架，用于标准化并清理自动驾驶汽车轨迹数据。该框架包含以下三步。

Step 1: 轨迹数据提取
从多个AV数据集中提取统一格式的纵向轨迹数据，包括汽车位置、速度、车头时距等关键变量。关键变量如下：

变量	描述
Trajectory ID	轨迹数据的唯一标识
Time Index	轨迹数据时间索引
LV Position	领航车（LV）位置
LV Speed	领航车速度
FAV Position	跟驰车（FAV）位置
FAV Speed	跟驰车速度
Space Headway	车头间距
Speed Difference	车速差

针对处理过后的数据，我们通过三个方面对数据进行验证分析。

Step 2: 通用数据清理
为了提高数据的可靠性，采用以下清理策略：

移除异常值： 删除超过均值 ± 标准差的数据点。
缺失值填补： 删除时间戳不连续的数据点，并采用线性插值补全缺失数据。
轨迹数据重构： 重新整理数据结构，确保数据的可解释性。

Step 3: 数据特定清理
针对车队跟驰场景，设定阈值去除异常数据，以提高分析准确性。下图展示了处理后的数据分布。其中分别代表车头间距，车速，车速差，和加速度。

数据采集

结合作者所在课题组的数据方案和文献，我们认为目前自动驾驶汽车的数据采集通常来自多种高精度传感器的数据整合，包括LiDAR（激光雷达），*GPS（全球定位系统），DSRC（车载通信单元），高清摄像头等。图中显示了作者课题组基于Lincoln MKZ的自动驾驶汽车测试平台。

关键性能指标

为评估自动驾驶汽车的性能，我们采用以下性能指标：

安全性指标： Time-to-Collision （）。
稳定性指标： 加速度变化率（）。
可持续性指标： 燃油消耗（）。
通行效率指标： 车头时距（）。

分析结果如图所示。

跟驰模型开发

最后，为了分析自动驾驶汽车的纵向行为，本研究探讨了加速度与输入变量（车头间距、车速和车速差）之间的关系。下图绘制了这些变量之间的散点图，其中y轴是加速度，绿/黄/橙色图片的横轴分别代表车头间距，车速，以及车速差。可以看出，车头间距和车速差对加速度的影响显著，而加速度与车速之间无明显线性关系。其中，加速度与车头间距呈非线性正相关，与车速差呈线性负相关。

结论

本研究回顾了多个自动驾驶轨迹数据集，并开发了统一自动驾驶纵向轨迹数据集，主要贡献包括：

标准化纵向轨迹数据集 - 统一并清理不同数据源的数据，提高数据可用性。
高质量的跟驰数据集 - 通过去噪和数据清理，保证数据分析的准确性。
跟驰行为分析 - 研究加速度与输入变量之间的非线性关系。

本文的连接和相关代码、数据可以在以下链接里找到：

Ultra-AV 数据集论文 - Scientific Data
GitHub 代码仓库 - Ultra-AV Dataset

#Doracamom

实现首个LV多模态融合的统一多任务感知算法框架~

自动驾驶技术是现代交通革命的前沿，备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件，以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础，主要侧重于 3D目标检测和语义占用预测任务。3D 目标检测使用 3D 边界框来定位场景中的前景目标并预测类别和速度等属性，属于稀疏场景表示。

相比之下，语义占用使用细粒度体素表示来捕捉场景的几何和语义特征，这是一种密集场景表示形式。为了完成这些任务，通常使用摄像头、激光雷达和毫米波雷达等传感器来收集环境数据作为输入。在这些传感器中，LiDAR 采用飞行时间 (TOF) 原理，发射和接收激光束以生成密集点云，提供环境的高精度几何表示。然而，LiDAR 易受恶劣天气影响，且成本高昂。相比之下，摄像头和毫米波雷达更具成本效益，适合大规模部署。摄像头可以高分辨率捕捉丰富的颜色和纹理信息，但缺乏深度信息，容易受到天气干扰。

另一方面，毫米波雷达发射电磁波来探测目标距离、多普勒和散射信息，从而能够抵御天气条件。4D 成像雷达是传统毫米波雷达的一项进步，它不仅包含额外的高度信息，而且还提供比传统 2 + 1D雷达更高分辨率的点云。最近的研究表明，它在各种下游任务中具有相当大的前景。然而，与激光雷达相比，它的点云仍然稀疏且嘈杂。因此，跨模态融合对于有效弥补这些缺点至关重要，强调了整合来自摄像头和4D雷达的信息的必要性。

近年来，尤其是随着4D雷达数据集的出现，4D 雷达和摄像机融合研究在感知领域显示出巨大的潜力。目前，大多数主流融合技术都采用BEV架构，将原始传感器输入转换为 BEV 特征进行融合。对于占用预测任务，大多数研究集中在以视觉为中心或视觉和 LiDAR 融合上，因为占用预测任务需要细粒度的体素表示和语义信息。传统雷达缺乏高度信息，不适合 3D 占用预测。相比之下，4D 雷达通过访问高度信息和更高分辨率的点云提供了新的可能性。此外，将3D目标检测和占用预测作为两个关键感知任务集成在统一的多任务框架内，可以优化计算资源和效率，带来实质性的效益。

因此，在本文中我们提出了首个将多视角相机和4D雷达点云融合的统一框架Doracamom，同时处理3D目标检测和语义占用预测任务。在OmniHDScenes、View-of-Delft (VoD) 和 TJ4DRadSet 数据集上进行的大量实验表明，Doracamom在两个任务中都取得了最先进的性能，为多模态 3D 感知建立了新的基准。

文章链接：https://arxiv.org/abs/2501.15394；

网络模型结构&技术细节

在详细介绍了本文提出的算法模型技术细节之前，下图展示了我们提出的Doracamom算法模型的整体网络结构，如下图所示。

整体而言，多视角图像和 4D 雷达点云被输入到摄像头和 4D 雷达编码器中，分别提取图像 2D 特征和 4D 雷达 BEV 特征。然后将这些特征传递给粗糙体素query生成器，该生成器结合图像和雷达特征来生成几何语义感知的粗粒度体素query。体素query编码器使用交叉视图注意力通过堆叠的transformer block迭代增强细粒度体素特征。

Camera & 4D Radar Encoders

在特征提取阶段，我们采用解耦架构，从两个输入模态中独立提取高维特征。相机编码器处理多视角图像，使用共享的ResNet-50 主干网络和特征金字塔网络作为Neck结构进行特征提取，从而获得多尺度特征。为了解决 4D 雷达点云的稀疏性问题并通过消除自车运动效应来获取其速度，我们实施了结合多帧雷达点云累积和速度补偿的预处理流程。该算法使用相应的自车车辆速度来处理每次雷达扫描，并通过雷达到自车的旋转矩阵将其转换到雷达坐标系中。为了补偿相对径向速度，根据每个点的方位角和仰角，将速度矢量分解为径向方向。然后使用旋转矩阵将补偿的速度变换到当前自车坐标系。对于每个点的位置，使用雷达到自车的变换矩阵实现变换。请注意，在累积操作期间会忽略由周围动态物体的运动引起的点的运动，因为这种运动很少会引入较大的误差。

4D Radar编码器处理输入的点云数据。我们采用RadarPillarNet来编码输入的4D毫米波雷达点云数据，进而通过分层特征提取生成伪图像。编码后的特征随后由 SECOND 和SECONDFPN 处理，以生成精细的4D雷达BEV特征。

Coarse Voxel Queries Generator

为了减少计算开销，我们设置了体素网格的BEV平面分辨率。虽然现有方法通常使用随机初始化来生成体素查询，但这种方法可能会给模型训练过程带来额外的复杂性。为了解决这一限制并提高视图变换的保真度，我们引入了一种新颖的初始化方法，该方法将从 4D 雷达数据中得出的几何先验与从图像中提取的语义特征相结合。这种集成使得能够生成具有几何和语义先验的粗粒度体素query，为后续细化程序奠定了更坚实的基础。

在雷达特征处理阶段，我们首先通过双线性插值将雷达 BEV 特征转换为与体素网格对齐，随后，我们使用 Conv-BN-ReLU进一步优化特征通道。通过应用简单的unsqueeze操作沿高度维度扩展 2D BEV 特征，我们获得了雷达 3D 体素特征，可以用数学形式表示为如下的形式

对于图像特征处理，我们首先根据3D体素query的形状在自车坐标系内定义 3D 参考点。同时，我们将体素特征初始化为零。然后使用相机的固有矩阵计算从自车坐标系到图像像素坐标的变换矩阵。

我们将参考点投影到每个图像平面上，以获得它们在特征图上的对应坐标。有效点由两个标准确定：必须位于特征图边界内并且一定是正数。特征采样过程采用最近邻插值，并采用“last-update”策略解决重叠的多视图区域。最终的粗粒度体素查询是通过元素相加获得的：

Voxel Queries Encoder

为了增强和细化体素查询，我们采用基于L层Transformer 的架构进行特征编码。我们采用可变形注意力进行跨视图特征聚合，这不仅可以缓解遮挡和歧义问题，还可以通过减少训练时间来提高效率。在跨视图注意模块中，输入包括体素查询、相应的 3D 参考点和图像特征。使用相机参数将 3D 参考点投影到2D 视图中，并从命中视图中采样和加权图像特征。输出特征可以表示为如下的形式：

Dual-branch Temporal Encoder

时序信息在感知系统中起着至关重要的作用。现有的相关方法已经证明，利用时序特征可以有效解决遮挡问题，增强场景理解，并提高运动状态估计的准确性。然而，这些方法仅限于在单个特征空间中进行时间建模，因此很难捕获全面的时空表示。为了解决这一限制，我们提出了一种新颖的双分支时序编码器模块，该模块在 BEV 和体素空间中并行处理多模态时间特征，其网络结构如下图所示。

具体而言，雷达 BEV 分支擅长捕获全局几何特征，而图像体素分支则专注于保留细粒度的语义信息。这种互补的双分支设计不仅在特征表达和时序建模方面提供了多样化的表示能力，而且还实现了计算成本和特征表达能力之间的优化平衡。此外，特征冗余机制显著增强了感知系统的鲁棒性。

在时序特征融合中，一个关键挑战是自车运动和动态物体运动导致的特征错位。为了解决自车运动引起的特征位移，我们提出了一种基于位姿变换的特征对齐策略，该策略可将历史特征与当前帧精确对齐。此外，为了进一步减轻动态物体造成的特征错位问题，我们采用可变形注意来自适应地融合当前帧和历史帧之间的特征。在体素时序分支当中，我们通过连接对齐的历史特征并通过简单的Res3D块对其进行处理，以实现高效的特征集成过程。

在 BEV 时序分支当中，我们也应用了类似的处理过程。历史 BEV 特征被concat到一起并通过 Res2D 块进行处理

Cross-Modal BEV-Voxel Fusion Module

为了有效利用体素和 BEV 空间的时序增强特征，我们提出了一个跨模态 BEV-体素融合模块，该模块为下游多任务解码生成几何和语义丰富的多模态表示。其整体网络结构如下图所示，该模块通过注意力加权机制自适应地融合异构特征，同时采用辅助任务进一步提高生成特征的质量。

具体来说，该模块首先通过 3D 反卷积块对低分辨率体素特征进行上采样，以获得高分辨率特征，以便随后进行融合。对于体素特征增强，首先通过 2D 中的 Conv-BN-ReLU 块处理雷达 BEV 特征以重塑特征通道，然后进行解压缩操作，沿高度维度扩展 2D BEV 特征。然后将扩展的特征与体素特征连接起来，并通过卷积块进行处理以降低通道维度。最后，采用具有注意机制的残差结构来获得融合的特征。

实验结果&评价指标

下表展示了不同方法在 OmniHD-Scenes 测试集上针对 3D 检测任务的性能比较。与其他基于 4D 雷达、摄像头或它们融合的方法相比，我们提出的 Doracamom 实现了卓越的整体性能（39.12 mAP 和 46.22 ODS）。具体来说，它比 BEVFusion 好 5.17 mAP 和 3.22 ODS，同时比 RCFusion 好 4.24 mAP 和 4.69 ODS。即使在没有 DTE 模块的单帧设置中，我们的模型在 mAP 方面也优于所有其他方法。此外，Doracamom 显著缩小了与基于 LiDAR 的 PointPillars（46.22 ODS vs. 55.54 ODS）的性能差距，这证明了我们提出的架构的有效性以及低成本传感器配置在自动驾驶感知系统中的巨大潜力。在 TP 指标方面，我们的方法在 mAOE 和 mAVE 中都取得了最佳性能，分别达到 0.3545 和 0.6151。

下图所示的可视化结果表明，Doracamom 可以在白天和夜晚场景中提供可靠的性能。它在拥挤和复杂的场景中实现了较高的检测精度，只有偶尔漏检远处被遮挡的物体。

此外，下图展示了不同方法的 BEV 特征图。可以观察到，Doracamom 的特征图显示出清晰的物体边界和高度可区分的特征，并且没有物体严重拉伸或扭曲等重大问题。

下表展示了不同方法在 OmniHDScenes 验证集上针对占用预测任务的性能比较。与其他方法相比，我们提出的 Doracamom 实现了卓越的整体性能（33.96 SC IoU 和 21.81 mIoU）。当 BEVFormer 使用更大的主干网络（R101-DCN）和更高分辨率的图像输入时，其性能超越了结合摄像头和 4D 雷达数据的多传感器融合方法，如 M-CONet。尽管如此，凭借我们精心设计的架构，即使是Doracamom-S 也比BEVFormer-T 的性能高出 +1.72 SC IoU 和 +2.00 mIoU。

此外，下表展示了不同模型在不利条件下的表现，其中 Doracamom算法模型取得了更好的结果，mAP 为 41.86，ODS 为 48.74，持续优于其他方法，并表现出更强的稳健性。

下表展示了不同模型在资源消耗和效率方面的比较。与现有方法相比，我们的 Doracamom 系列模型在性能和效率之间表现出色。在资源消耗方面，Doracamom-S 仅需要 4.71G 内存和 49.63M 参数，比 BEVFusion（约 8G 内存和 57M 参数）和 PanoOcc（5.03G 内存和 51.94M 参数）更轻量。即使包含 2 个帧，Doracamom-2frames 也能保持相对较低的资源使用率（4.72G 内存，52.67M 参数）。在推理效率方面，Doracamom-S 和 Doracamom-2frames 分别达到 4.8FPS 和 4.4FPS，明显优于 BEVFusion 系列（3.2-3.6FPS）。虽然比 PanoOcc (5.5FPS) 稍慢，但我们的模型表现出了显著的性能优势：Doracamom-2frames 在所有评估指标中都实现了最佳性能，大大超越了其他方法。