目标检测-击穿黑夜的PE-YOLO

news2025/1/10 18:30:32

前言

当前的目标检测模型在许多基准数据集上取得了良好的结果,但在暗光条件下检测目标仍然是一个巨大的挑战。为了解决这个问题,作者提出了金字塔增强网络(PENet)并将其与YOLOv3结合,构建了一个名为PE-YOLO的暗光目标检测框架。
首先,PENet使用拉普拉斯金字塔将图像分解为4个具有不同分辨率的组件。具体来说,作者提出了一个细节处理模块(DPM)来增强图像的细节,其中包括上下文分支和边缘分支。此外,作者提出了一个低频增强滤波器(LEF)来捕获低频语义并防止高频噪声。

在这里插入图片描述

1、简介

近年来,卷积神经网络(CNN)的出现推动了目标检测领域的发展。大量的检测器被提出,针对基准数据集的性能也取得了令人满意的结果。然而,大多数现有的检测器都是在高质量图像和正常条件下进行研究的。而在实际环境中,往往存在许多恶劣的光照条件,如夜晚、暗光和曝光不足,导致图像质量下降,从而影响了检测器的性能。视觉感知模型使得自动系统能够理解环境并为后续任务(如轨迹规划)奠定基础,这需要一个稳健的目标检测或语义分割模型。
在这里插入图片描述
图1是一个暗光目标检测的示例。可以发现,如果能够适当地增强图像,并根据环境条件恢复原始模糊目标的更多潜在信息,那么目标检测模型就能够适应不同的暗光条件,这也是模型在实际应用中面临的重大挑战。

目前,已经提出了许多方法来解决暗场景中的鲁棒性问题。许多暗光增强模型被提出来恢复图像细节,减少恶劣光照条件的影响。然而,暗光增强模型的结构较为复杂,这不利于图像增强后检测器的实时性能。这些方法大多数不能与检测器进行端到端的训练,需要有配对的暗光图像和正常图像进行监督学习。

在暗光条件下的目标检测也可以看作是域自适应问题。一些研究者采用对抗学习将模型从正常光到暗光进行转换。但是他们关注的是数据分布的匹配,忽略了暗光图像中所包含的潜在信息。近几年,一些研究者提出了使用可微分图像处理(DIP)模块来增强图像,并以端到端的方式训练检测器。然而,DIP是传统的方法,如白平衡,对图像的增强效果有限。

为了解决以上问题,本文作者提出了一种金字塔增强网络(PENet),用于增强暗光图像并捕获有关目标的潜在信息。作者将PENet与YOLOv3结合,构建了一个名为PE-YOLO的端到端的暗目标检测框架。在PENet中,作者首先使用拉普拉斯金字塔将图像分解为多个不同分辨率的组成部分。在金字塔的每个尺度上,作者提出了细节处理模块(DPM)和低频增强滤波器(LEF)来增强这些组成部分。

DPM由上下文分支和边缘分支组成,上下文分支通过捕获远距离依赖关系全局增强组成部分,而边缘分支增强组成部分的纹理。LEF使用动态低通滤波器来获取低频语义信息,防止高频噪声以丰富特征信息。作者在模型训练过程中只使用正常的检测损失来简化训练过程,无需对图像进行清晰的标注。

作者在暗光目标检测数据集ExDark上验证了作者方法的有效性,结果显示与其他暗目标检测器和暗光增强模型相比,PE-YOLO取得了先进的结果,分别达到78.0%的mAP和53.6的FPS,适用于暗场景中的目标检测。

作者的贡献可以总结如下:

  • 作者构建了一个金字塔增强网络(PENet),用于增强不同的暗光图像。作者提出了详细处理模块(DPM)和低频增强滤波器(LEF)来增强图像组成部分。
  • 通过将PENet与YOLOv3结合,作者提出了一个端到端训练的暗目标检测框架PE-YOLO,以适应暗光条件。在训练过程中,作者只使用正常的检测损失。
  • 与其他暗目标检测器和暗光增强模型相比,作者的PE-YOLO在ExDark数据集上取得了先进的结果,实现了令人满意的准确性和速度。

2、相关方法

2.1 目标检测

目标检测模型可以分为3类:

  • 一阶段模型、
  • 两阶段模型
  • 基于Anchor-Free的模型。

Faster RCNN 不再通过选择性搜索获得区域建议,而是通过区域提议网络(RPN)来实现。它使得候选区域提议、特征提取、分类和回归在同一个网络中端到端地进行训练。Cai等人提出了Cascade RCNN,它将多个检测头级联起来,当前级别将对前一级别的回归和分类结果进行改进。YOLOv3 提出了新的特征提取网络DarkNet-53。借鉴了特征金字塔网络(FPN)的思想,YOLOv3采用了多尺度特征融合。此外,最近出现了基于Anchor-Free的检测器,它们放弃了Anchor,并将其改变为基于关键点的检测。

2.2 暗光增强

暗光增强任务的目标是通过恢复图像细节和校正颜色失真来改善人类的视觉感知,并为目标检测等高级视觉任务提供高质量的图像。Zhang等人提出了Kind,它可以通过不同亮度级别的成对图像进行训练,而无需真实的GT。Guo等人提出了Zero DCE,它将暗光增强任务转化为图像特定曲线估计问题。Lv等人提出了多分支暗光增强网络MBLLEN,它在不同级别提取特征,并通过多分支融合生成输出图像。Cui等人提出了自适应照明Transformer(IAT),通过动态查询学习构建端到端的Transformer。暗光增强模型恢复图像细节后,会提高检测器的效果。然而,大多数暗光增强模型较为复杂,对检测器的实时性能有很大影响。

2.3 恶劣条件下的目标检测

在恶劣条件下的目标检测对于机器人的鲁棒感知至关重要,因此出现了一些针对恶劣条件的鲁棒目标检测模型。有些研究人员通过无监督领域自适应将检测器从源域迁移到目标域,以适应恶劣环境。刘等人提出了IA-YOLO,它通过自适应地增强每个图像来提高检测性能。他们使用了一个可微分图像处理(DIP)模块来适应恶劣天气,并使用一个小型卷积神经网络(CNN-PP)来调整DIP的参数。在IA-YOLO的基础上,Kalwar等人提出了GDIP-YOLO。GDIP提出了一个门控机制,允许多个DIP并行操作。Qin等人提出了检测驱动的增强网络(DENet),用于恶劣天气条件下的目标检测。Cui等人提出了用于暗光条件下的多任务自动编码转换(MAET),探索了光照转换背后的潜在空间。

3、本文方法

在这里插入图片描述
暗图像由于暗光干扰导致能见度较差,这影响了检测器的性能。为了解决这个问题,作者提出了金字塔增强网络(PENet)并联合YOLOv3构建了一个暗物体检测框架PE-YOLO。PE-YOLO框架的概览如图2所示。

3.1 PE-YOLO概述

PENet通过拉普拉斯金字塔将图像分解成不同分辨率的组件。在PENet中,作者通过提出的细节处理模块(DPM)和低频增强滤波器(LEF)来增强每个尺度的组件。

假设图像 I ∈ R h × w × 3 I\in R^{h\times w\times3} IRh×w×3作为输入,作者使用高斯金字塔获取不同分辨率的子图像。 G ( x ) = D o w n ( G a u s s i a n ( x ) ) G(x)=Down(Gaussian(x)) G(x)=Down(Gaussian(x))其中Down表示下采样,Gaussian表示高斯滤波器,高斯核的大小为5×5。在每个高斯金字塔操作后,图像的宽度和高度减半,这意味着分辨率是原始图像的1/4。显然,高斯金字塔的下采样操作是不可逆的。为了在上采样后恢复原始的高分辨率图像,需要恢复丢失的信息,这些丢失的信息构成了拉普拉斯金字塔的组件。拉普拉斯金字塔的定义如下: L i = G i − U p ( G i + 1 ) L_{i}=G_{i}-Up(G_{i+1}) Li=GiUp(Gi+1)其中 L i L_{i} Li,表示拉普拉斯金字塔的第i层, G i G_{i} Gi表示高斯金字塔的第i层,Up表示双线性上采样操作。在重建图像时,作者只需要执行公式(2)的逆操作,即可恢复高分辨率图像。
在这里插入图片描述
作者通过拉普拉斯金字塔获得了不同尺度的4个组件,如图3所示。作者发现拉普拉斯金字塔从底部到顶部更关注全局信息,而从顶部到底部更关注局部细节。它们都是在图像下采样过程中丢失的信息,也是作者PENet增强的目标。作者通过细节处理模块(DPM)和低频增强滤波器(LEF)来增强这些组件,DPM和LEF的操作是并行的。

作者将在下一节中介绍DPM和LEF。通过分解和重建拉普拉斯金字塔,PENet可以变得轻量且有效,这有助于提高PE-YOLO的性能。

3.2 细节信息增强

作者提出了一个细节处理模块(DPM)来增强拉普拉斯金字塔中的组件,它由上下文分支和边缘分支组成。
在这里插入图片描述
DPM的详细信息如图4所示。上下文分支通过捕捉远程依赖性来获取上下文信息,并全局增强组件。边缘分支使用两个不同方向的Sobel算子来计算图像梯度,获取边缘并增强组件的纹理。

3.2.1 上下文分支

作者使用残差块来在获取远程依赖性之前和之后处理特征,并且残差学习允许丰富的低频信息通过跳过连接进行传递。第一个残差块将特征的通道从3变为32,第二个残差块将特征的通道从32变为3。捕捉场景中的全局信息已被证明对于低级别的视觉任务(如暗光增强)是有益的。

上下文分支的结构如图4所示,其定义如下: C B ( x ) = x + γ ( F 1 ( x ^ ) ) CB(x)=x+\gamma(F_1(\hat{x})) CB(x)=x+γ(F1(x^))在上述公式中, x ^ \hat{x} x^表示上下文分支的输出, F F F是带有3×3卷积核的卷积层,γ是Leaky ReLU激活函数,σ是Softmax函数。

3.2.2 Edge branch

S o b e l Sobel Sobel算子是一种离散算子,它同时使用了高斯滤波和差分求导。它通过计算梯度近似来找到边缘。作者在水平和垂直方向上都使用 S o b e l Sobel Sobel算子来通过卷积滤波器重新提取边缘信息,并使用残差来增强信息的流动。该过程表示为: E B ( x ) = F 3 ( S o b e l h ( x ) + S o b e l w ( x ) ) + x EB(x)=F_3(Sobel_h(x)+Sobel_w(x))+x EB(x)=F3(Sobelh(x)+Sobelw(x))+x在上述公式中, S o b e l h ( x ) Sobel_h(x) Sobelh(x) S o b e l w ( x ) Sobel_w(x) Sobelw(x)分别代表垂直和水平方向上的 S o b e l Sobel Sobel操作。这两个操作分别应用于输入特征,以计算垂直和水平方向上的梯度近似,从而提取图像中的边缘信息。在DPM中,作者使用这两个Sobel操作来获取边缘信息,并将其与原始输入特征相加,以增强特征表示。

3.3 低频增强滤波器

在每个尺度的分量中,低频分量包含了图像中的大部分语义信息,它们是检测器预测的关键信息。为了丰富重建图像的语义信息,作者提出了低频增强滤波器(LEF)来捕捉组成部分中的低频信息。LEF的细节如图5所示。
在这里插入图片描述
假设组成部分 f ∈ R h × w × 3 f\in R^{h\times w\times3} fRh×w×3,作者首先通过一个卷积层将其转换为 f ∈ R h × w × 3 f\in R^{h\times w\times3} fRh×w×3。作者使用动态低通滤波器来捕捉低频信息,并且使用平均池化进行特征滤波,只允许低于截止频率的信息通过。

不同语义的低频阈值是不同的。考虑到Inception的多尺度结构,作者使用大小为 1 × 1 1×1 1×1 2 × 2 2×2 2×2 3 × 3 3×3 3×3 6 × 6 6×6 6×6的自适应平均池化,并在每个尺度末尾使用上采样来恢复特征的原始大小。不同卷积核大小的平均池化形成了低通滤波器。作者通过通道分离将f划分为4个部分,即 { f 1 , f 2 , f 3 , f 4 } \{f_{1},f_{2},f_{3},f_{4}\} {f1,f2,f3,f4}。每个部分使用不同大小的池化进行处理,具体描述如下: F i l t e r ( f i ) = U p ( β s ( f i ) ) Filter(f_i)=Up(\beta_s(f_i)) Filter(fi)=Up(βs(fi))其中 f i f_i fi f f f在通道上划分的部分, U p Up Up是双线性插值采样, β s \beta_s βs是不同大小 s × s s×s s×s的自适应平均池化。最后,在张量拼接每个 { f i , i = 1 , 2 , 3 , 4 } \{f_{i},i=1,2,3,4\} {fi,i=1,2,3,4}后,作者将它们恢复为 f ∈ R h × w × 3 f\in R^{h\times w\times3} fRh×w×3

4、实验

4.1 实验结果

为了验证PE-YOLO的有效性,作者在ExDark数据集上进行了许多实验。首先,作者将PE-YOLO与其他暗光增强模型进行比较。由于暗光增强模型缺乏检测能力,作者将使用与PE-YOLO相同的检测器对所有增强后的图像进行实验。

作者将mAP的IoU阈值设置为0.5,并且性能比较结果如表1所示。作者发现直接在YOLOv3之前使用暗光增强模型并没有显著提高检测性能。作者的PE-YOLO在mAP上比MBLLEN和Zero-DCE分别高出1.2%和1.1%,取得了最佳结果。
在这里插入图片描述

作者将不同暗光增强模型的检测结果进行了可视化,如图6所示。作者发现虽然MBLLEN和Zero DCE可以显著提高图像的亮度,但它们也会放大图像中的噪声。PE-YOLO主要捕捉暗光图像中目标的潜在信息,同时抑制高频组件中的噪声,因此PE-YOLO具有更好的检测性能。
在这里插入图片描述

作者将PE-YOLO与其他暗光检测器进行了性能比较,如表2所示。此外,作者还可视化了暗光检测器和PE-YOLO的检测结果,如图7所示,清楚地展示了PE-YOLO在目标检测方面更准确。与使用LOL数据集进行预训练的DENet和IAT-YOLO相比,PE-YOLO在mAP上高出0.7%和0.2%,而且作者的PE-YOLO在FPS上几乎是最高的。以上数据表明,PE-YOLO更适用于在暗光条件下检测物体。
在这里插入图片描述
在这里插入图片描述

4.2 消融实验

在这里插入图片描述
为了分析PE-YOLO中每个组件的有效性,作者进行了消融研究,结果如表3所示。在采用上下文分支后,PE-YOLO的mAP从76.4%增加到77.0%,表明捕捉远程依赖关系对于增强有效。在采用边缘分支后,mAP从77.0%增加到77.6%,表明边缘分支可以增强组件的纹理,并增强增强图像的细节。在采用LEF后,mAP从77.6%增加到78.0%,表明捕捉低频分量有助于获得图像中的潜在信息。

最后,作者的模型在mAP上从76.4%提高到78.0%,仅降低了0.4个FPS。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801776.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无涯教程-jQuery - ajaxSuccess( callback )方法函数

ajaxSuccess(回调)方法附加一个函数,只要AJAX请求成功完成,该函数便会执行。这是一个Ajax事件。 ajaxSuccess( callback ) - 语法 $(document).ajaxSuccess( callback ) 这是此方法使用的所有参数的描述- callback - 要执行的功能。事件对象&…

IMPDP和EXPDP的介绍和使用方法

数据泵的介绍 如何调用数据泵(1/2) 如何调用数据泵(1/2) Directory 操作模式 EXPDP的流程: 创建逻辑目录: * mkdir /home/oracle/app/oracle/oradata/mydata -p * CREATE DIRECTORY MYDATA AS "/home/oracle/app/oracle/oradata/mydata"ps: ORACLE 不会自动创建物理…

途乐证券:股利支付率高好还是低好?

股利付出率是指公司将赢利分配给股东的份额。在许多出资者眼中,高的股利付出率或许意味着公司具有安稳的现金流和盈余才能。但是,也有人以为低的股利付出率能够为公司供给更多的自在现金流,用于增加研发、扩张或并购等方面的出资。所以到底是…

MySQL~DQL查询语句

一、DQL:查询语句 1、排序查询 语法: order by 子句 ​ order by 排序字段1 排序方式1 ,排序字段2 排序方2... 排序方式: ASC:升序[默认] DESC:降序 在SQL语句中永远排序最后 注: 如果有多个排序条…

Angular —— Ng Serve Proxy让Ng Serve和你的服务器共存

ng serve是angular-cli的一个命令,用于在本地开发中启动一个测试服务器,自动编译和重新加载你的项目,并且在编译过程中,它会检查你代码中的一些错误,在控制台中提示你。 但是在实际项目,各个项目几乎必然会…

14 Linux实操篇-进程管理(重点)

14 Linux实操篇-进程管理(重点) 文章目录 14 Linux实操篇-进程管理(重点)14.1 进程的基本操作14.1.1 进程和程序14.1.2 父进程和子进程14.1.3 常见的Linux进程14.1.4 显示系统执行的进程-ps14.1.5 终止进程-kill/killall14.1.6 查…

应用在工业车间环境温湿度数据看板中的温度传感芯片

现在的制造生产行业不断的实现可视化生产,特别是一些特殊的生产行业需要对一些重点的场合或者生产环境进行环境监控,但是要是想要实时查看室内环境完全依靠人工来巡查是费时又费力的,要想解决这一难题还得引进现在的硬件环境数据监控看板,它是针对于现在制造业的一些特殊环境而…

EIGRP路由协议(红茶三杯CCNA)

EIGRP(Enhanced Interior Gateway Routing Protocol)增强型内部网关协议-Cisco独有 前身对比 特点: 1. 快速收敛-路由条目不过期,拥有备份路由 2. 高级距离矢量协议-具有距离矢量性和链路状态协议特征 3. 无类路由协议-可划分子…

P1118 [USACO06FEB] Backward Digit Sums G/S(dfs+思维杨辉三角)

1:题目分析 那么我只需要枚举1~n位置上的数,看哪个符合要求。 2:补充: 一个数只能用一次,因为结果是1~n的排列(最后组成肯定是1~n的每个数都出现过)。 3: ACcode(加注释)&#xff…

网格梯度离散化 gradient

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 参考自polygon mesh proccessing这本书 重心坐标定理 定理证明点击前往 已经三角形三点上的函数值分别为gi,gj,gk。 可以利用插值得到g处的函数值。 g α g i β …

Redis优惠券秒杀超卖问题

Redis秒杀超卖问题 前言一、出现秒杀超卖的原因二、超卖解决方案使用乐观锁解决超卖问题程序中进行解决 前言 这是我认为b站上最好的redis教程,各方面讲解透彻,知识点覆盖比较全。 黑马redis视频链接:B站黑马redis教学视频 本文参考黑马redi…

多点测试激光焊缝透光率检测仪

聚丙烯(PP)是日常生活生产中常见的一种塑料,具有较高的耐冲击性,机械强度以及良好的抗腐蚀性,如能耐多种有机溶剂和酸碱腐蚀性液体,被广泛应用于家用电器的绝缘外壳、培养瓶、食品袋、饮料包装瓶等产品中。…

volley 学习笔记1--发送请求

一、概览 Volley 具有以下优势: 自动网络请求调度。 多个并发网络连接。 透明磁盘和具有标准 HTTP 缓存一致性的内存响应缓存。 支持请求优先级。 取消请求 API。您可以取消单个请求,也可以设置要取消的请求的时间段或范围。 可轻松自定义&#xff…

Docker学习笔记,包含docker安装、常用命令、dockerfile、docker-compose等等

😀😀😀创作不易,各位看官点赞收藏. 文章目录 Docker 学习笔记1、容器2、Docker 安装3、Docker 常用命令4、Docker 镜像5、自定义镜像5.1、镜像推送到阿里云5.2、镜像私有库 6、数据卷7、Docker 软件安装8、Docker File8.1、常见保…

如何为WordPress博客网站配置免费域名HTTPS证书

文章目录 如何为WordPress博客网站配置免费域名HTTPS证书前置条件:步骤1 申请免费的域名HTTPS证书步骤2 将HTTP证书配置到cpolar的配置文件中2.1 创建证书文件夹2.2 修改cpolar配置文件2.3 重启cpolar服务2.4 查看后台Wordpress隧道是否在线正常2.5 用浏览器打开站点…

php适合做erp吗?

首先我们来了解一下什么是ERP? ERP——Enterprise Resource Planning 企业资源计划系统,是指在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台。 ERP系统集中信息技术与先进的管理思想于一身…

HCIP——OSPF优化、拓展配置及选路规则

OSPF优化以及拓展配置 一、OSPF的优化1、汇总域间路由汇总域外路由汇总 2、特殊区域末梢区域完全末梢区域 NSSA非完全末梢区域Totally NSSA(完全的非完全末梢区域) 二、OSPF的拓展配置1、手工认证2、加快收敛3、沉默接口缺省路由 4、路由过滤5、路由控制5.1 修改优先级5.2 修改…

「2024」预备研究生mem-带绝对值的方程高次方程替代降次法

一、带绝对值的方程 二、高次方程替代降次法

Mybatis学习笔记,包含mybatis基本使用、关系映射、动态SQL、分页插件等等

😀😀😀创作不易,各位看官点赞收藏. 文章目录 MyBatis 学习笔记1、Mybatis Demo 程序2、Mybatis 核心配置文件3、Mybatis Mapper 传参映射4、Mybatis 查询结果5、Mybatis 关系映射处理5.1、多对一关系映射处理5.2、一对多关系映射处…

前后端分离开发流程

1、介绍 在前后端分离开发中,前端负责用户界面和交互逻辑的实现,后端则处理业务逻辑和数据持久化。这种开发模式的优势在于前后端可以独立进行开发,提高了开发效率,并且使得前后端可以采用不同的技术栈来实现各自的功能。 2、开…