不良条件视觉感知专栏（一）任务前言

news2025/4/5 14:42:56

前言随着深度学习的流行，CNN的强大特征学习能力给计算机视觉领域带来了巨大的提升。2D/3D目标检测、语义分割是常见的视觉感知任务，本专栏我们将围绕着它们展开阐述。

本教程禁止转载。同时，本教程来自知识星球【CV技术指南】更多技术教程，可加入星球学习。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

（一）任务介绍

检测和分割是场景理解的关键部分，在机器人、无人驾驶、安防等领域有着广泛的应用。现有的大部分方法主要在正常的成像条件下进行，虽然在性能表现上较好，但是并没有考虑到不良条件（恶劣天气、低光照等）下的场景。现实中的场景是复杂多变的，包含着很多不良的条件给视觉算法带来不利的影响。下面我汇总了常见的不良感知场景，大概可以分为天气和光照两部分：

雾天（Foggy）
雨天（Rainy）
雪天（Snowy）
黄昏（Dusk）
夜晚（Night）
黑夜（Dark Night）比普通的夜晚更黑，只包含极少的光照
强曝光（Strong exposure）**强曝光是指在环境中光线的突然增强**
阴暗（Overcast）

下图为不良感知场景的示例：

强曝光和黑夜

雾天和雨天

一个不能处理巨大场景变化的模型，如果应用在无人驾驶等领域上可能会危及周围的人。在一些基准数据集表现很好的模型，在现实中往往鲁棒性很差。这是因为它们通过正常条件数据集训练得到的，这些模型往往不适用于恶劣的天气条件和夜间出现的低照明。在不良条件下进行稳健鲁棒的视觉感知，是算法落地并融入实际应用的重要先决条件。

（二）研究现状

现阶段针对不良条件的视觉感知，研究的方法分为很多种：

域自适应
多模态融合（LiDAR 点云和深度图）
图像前处理（可微滤波器、GAN）

感觉这个方向热度并没有纯视觉感知（3D目标检测、语义分割等）热度高，可能是因为针对不良条件的视觉感知场景泛化偏向于应用。正因如此，这个方向现在可以填的坑是很多的，有很多的可做性和意义。

域自适应

域自适应的定义：在经典的机器学习中，当源域和 目标域 数据分布不同，但是两者的任务相同时，这种特殊的迁移学习就是域自适应（Domain Adaptation）。

我们一般假设训练集和测试集分布一致，但是在实际中训练集和测试集其实分布会有很大的差异。这时候训练的模型在测试集上效果却不理想迁移学习需要解决的问题。简单举例来说：

我们使用白天场景的数据集进行语义分割模型的训练，但是测试集确实夜晚的。这时虽然我们这个模型要解决的任务和标签都是一样的，但是模型缺缺少鲁棒。

域自适应的方法：

样本自适应：对源数据的样本进行加权，学习一组权重使分布差异最小化，从而逼近目标域的分布。
特征自适应：将源域和目标域投影到公共特征子空间，这样两者的分布相匹配，通过学习公共的特征表示，这样在公共特征空间，源域和目标域的分布就会相同。

多模态（传感器）融合

Camera和LiDAR是现如今主要的传感器，被广泛地用在无人驾驶和机器人等领域。Camera和LiDAR的特征我通过以下表格进行对比：

传感器	提供信息	优点	缺点
Camera（相机）	纹理信息	包含着丰富的纹理，网络学习更容易。	相机的图片非常容易受光照和天气影响，无法提供深度信息。
LiDAR（激光雷达）	深度信息	提供3D点云，受光照和天气影响较小。	无法捕捉详细纹理，LiDAR的点云是稀疏无序的，利用起来较难。

我们通过上表可以发现Camera和LiDAR是几乎互补的，如果结合起来会产生不错的效果。多模态传感器融合意味着信息互补、稳定和安全，长期以来都是自动驾驶感知的重要一环。然而信息利用的不充分、原始数据的噪声及各个传感器间的错位（如时间戳不同步），这些因素都导致融合性能一直受限。