多模态融合
- 早期融合(Early Fusion)
- 晚期融合(Late Fusion)
- 深度融合(Deep Fusion)
- BEVFusion - MIT
- BEVFusion - 阿里&北大
- UniTR
感知技术中相机和雷达数据融合方法的概述,这些方法分别是早期融合(Early Fusion)、晚期融合(Late Fusion)和深度融合(Deep Fusion)。
早期融合(Early Fusion)
早期融合指的是在感知层面将来自相机和雷达的原始数据进行融合。
优点:
- 互补性利用:能够充分利用相机(提供丰富的视觉信息和颜色细节)和雷达(提供准确的距离和速度信息)的互补优势。
- 提高鲁棒性和可靠性:通过综合不同源的信息,可以增强感知系统对各种环境条件的适应能力和可靠性。
缺点:
- 数据异构性问题:相机和雷达数据在形式、尺度和精度上存在差异,需要复杂的预处理和校准过程。
- 计算效率要求高:融合原始数据通常需要高计算负担,对算力有较高要求。
晚期融合(Late Fusion)
晚期融合是指在决策层面将来自相机和雷达的感知结果进行融合。
优点:
- 计算复杂度低:因为融合发生在较高层面,通常处理的数据量小,减轻了计算负担。
- 灵活性高:便于集成多种感知策略和算法,提高系统的灵活性。
缺点:
- 互补性利用不足:在决策层融合可能无法充分发挥相机和雷达数据的互补优势。
- 可能降低鲁棒性和可靠性:由于较晚利用融合信息,可能无法有效应对某些复杂或未预见的情况。
深度融合(Deep Fusion)
深度融合是在特征层或决策层将相机和雷达数据或其特征进行融合。
优点:
- 充分利用互补性:结合了早期和晚期融合的优点,能够更充分地利用相机和雷达的互补优势。
- 鲁棒性和可靠性提高:通过在更深层面综合信息,能够提高系统对各种环境条件的适应能力。
- 计算效率的平衡:既能利用深度学习等方法提取有效特征,也能控制计算复杂度。
缺点:
- 数据异构性问题:同早期融合,需要解决不同数据源之间的差异问题。
- 融合算法的鲁棒性要求:需要开发能够适应多种情况和异常的高鲁棒性融合算法。
方案 | 融合阶段 | 优点 | 缺点 |
---|---|---|---|
Early Fusion | 感知层 | 充分利用互补优势,提高鲁棒性 | 数据异构,计算复杂度高 |
Late Fusion | 决策层 | 降低计算复杂度,提高灵活性 | 无法充分利用互补优势,降低鲁棒性 |
Deep Fusion | 特征层或决策层 | 充分利用互补优势,提高鲁棒性,降低计算复杂度 | 数据异构,鲁棒性待提高 |
BEVFusion - MIT
论文解读:
https://zhuanlan.zhihu.com/p/521821929
论文复现:
https://blog.csdn.net/h904798869/article/details/132210022
BEVFusion - 阿里&北大
UniTR
在简单的话来说,UniTR是一个先进的技术,它通过使用一种特别的方法来处理来自多种传感器的信息,这对于自动驾驶系统来说非常重要。通常情况下,自动驾驶系统需要处理来自不同传感器(如摄像头、雷达和激光雷达等)的信息来理解周围环境。但是,每种传感器捕获的信息类型不同,处理这些不同类型的信息通常需要大量的计算资源,并且很难实现传感器之间的有效合作。
UniTR改变了这种方式,它使用一种统一的方法来处理所有不同的传感器信息,这意味着它可以同时学习和理解不同传感器提供的数据,而不需要对每种数据进行单独的处理。这是通过一种叫做“Transformer 编码器”的智能算法实现的,它可以处理不同的数据类型并找出它们之间的关系。
此外,UniTR还提出了一种新的方式来整合这些不同的传感器数据,这种方式不仅考虑了2D图像中的细节,也利用了3D数据中的空间信息。这样做可以让系统更好地理解周围的世界,例如,更准确地检测和识别物体和障碍物。
代码复习:
https://zhuanlan.zhihu.com/p/672153815