论文阅读<CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....>

news2025/2/6 7:47:48

论文链接:https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152.pdf

代码链接:https://github.com/DiffPrompter/diff-prompter

目前没有完整代码放出。

        恶劣天气下的目标检测主要有以下三种解决方案:1)使用预处理(pre-processing),例如image desnowing/deraining/dehazing,尽管已经有大量的方法去完成这个工作,但是会丢失图像细节。2)使用双分支网络联合学习图像恢复和目标检测,这两个网络共享特征提取层,但是在训练中很难平衡这两项任务。3)使用无监督域适应(Domain Adaptation)来对齐干净图像和恶劣天气下拍摄的特征,但是这样有利于检测的潜在信息可能被忽略。

Abstract 

       

Motivation

        是否能够通过建立真实的雪天OD数据集和开发特征聚合模块(feature aggeregation module)来学习潜在信息的协同作用,增强尖端Object Detection网络在雪天条件下的能力。

Real-World Snowy Object Detection Dataset

A Dataset Introduction

        建立了用于雪中目标检测的真实世界的数据集RSOD(real-world snow object detection dataset),包含2100张不同场景的图像,主要是雪中城市和交通场景,实例分布如下图所示。把雪天分为四个难度等级:easy, normal, difficult, particularly difficult。通过计算SCR值和人工观测进行等级划分,1~600为easy,601~1600为normal,1601~2000为difficult,2001~2100为particularly difficult。

B Unsupervised Training for SCR Calculation

        SCR(snow coverage rate)用来衡量雪覆盖的面积,用下边的公式进行计算。A_{snow}A_{bbox}分别表示雪和bounding box的面积。直接对图片标注可以计算出SCR值,但是这样非常耗费时间。这里采用无监督的训练策略来训练一个响应雪像素并抑制不是雪的像素的CNN。主要通过下边三个策略来实现。

SCR=A_{snow}/A_{bbox}

1、用大雪覆盖大部分图像区域的图像训练CNN模型。对应的ground truth是输入大小相同且几乎所有像素都等于1的map。该步骤将引导模型映射为每个值都等于1的map,模型中的卷积核将通过反向传播对积雪特征进行编码。

2、设计了一个激活函数Peak Act抑制非雪元素。如图2 ( d )所示,我们称激活函数为P eak Act。由于我们用于训练的图像中积雪覆盖面积最大,卷积核自然会对积雪像素做出响应,而对非积雪像素进行抑制。Peak Act表达式如下,设计时遵循以下三个原则:1)是一个峰值函数,其中峰值为( 1 , 1)。因为我们的基本真值是一个所有元素都等于1的矩阵,所以训练过程会引导输出结果趋向于1。并且峰值将有效面积限制在很小的带宽内,如图2 ( d )所示。2)零映射为零。如果一个零映射到一个非零值,就会有一些懒惰的卷积核,所有的权重都等于0,将所有的像素平滑到一个非零值。因此,后面层的特征很容易被等同于真实值,从而导致训练的失败。3)为凹函数,确保特征值在经过激活函数后不会趋近于1。特征只有通过优化才能趋近于1。

f(x)= \left\{\begin{matrix} 0.2x& x<0\\ x^{2}& 0\leq x<1\\ (x-2)^{2}&1\leq x <2 \\ -0.2(x-2)&x\geqslant 2 \end{matrix}\right.

3、CNN的最后一层是Max-out function。它将通道维度中每个像素的最大特征值输出,形成单通道特征图O和Ground Truth去计算损失。由于Peak Act的上限为1,网络的输出将始终小于或等于1。Max - out层将鼓励不同的通道响应不同的特征,从而导致高度特定的内核优化。P是网络参数,α设置为1,β设置为0.0001。损失函数的第一项是引导优化方向,第二项是L1正则化,用于得到稀疏特征。

Loss = \alpha\frac{1}{W*H}\sum_{i}\sum_{j}(GT_{ij}-O_{ij})+\beta||P||_{1}

        CNN模型如图3所示。在训练和测试(即,计算SCR)的过程中,我们使用了不同的头。该模型将输入图像分解为32个通道,并对不同通道的特征图进行二值化和可视化。如图2 ( b )和图2 ( c )所示,Feature Map - 31对积雪的响应非常特异,而Feature Map - 11对边缘的响应非常特异。响应积雪的特征图可以通过统计二值化图中的光照像素来计算SCR。我们还对不同通道的3D表面进行了可视化,如图2 ( e )和图2 ( f )所示,它清楚地显示了通道- 31对积雪区域的响应和对非积雪区域的抑制。CNN和Peak Act的设计,使得能够计算SCR,从而对雪天图像进行分级。

Method

        在MSCOCO训练和的模型,在RSOD上进行检测,由于域偏移(domain shift)的问题,性能严重退化。除此之外,我们还发现一些大物体在雪天中更容易被遗漏,这可能违背常识,因为许多研究表明在大模型上性能很好。基于这一观察,对yolov5s做了小的调整,。通过设置检测置信度阈值为0.01,我们惊讶地发现YOLOv5s已经检测出了雪天图像(类似的现象也存在于许多其他的雪天图像中)中的那些大目标,但是置信度过低,无法通过非极大值抑制( NMS ),导致预测错误,如图10 ( b )。原因是大雪会改变物体的轮廓、纹理和表面,使低层视觉信息缺失和扭曲

        YOLOv5s使用的是Feature Pyramid 和Path Aggregation Network(FPN+PANet)作为特征融合模块,特征在进入检测头之前经过了top-down和bottom-up。而在雪天图像中,低层视觉信息被遗漏或者失真,这种无意义的信息会随着网络进行传播。在深度网络中,深层网络的感受野比较大,因此,更深层的网络可能会考虑到更多的无意义特征。可能会稀释有意义的特征,干扰网络从被雪覆盖的物体中提取有意义的特征,降低预测的置信度。

A Cross Fusion

        为了解决上边提出的问题,这篇论文提出了一个新的交叉融合模块(cross fusion,CF)能够直接集成来自不同层次的特征。该模块的目的是缩短传播路径,而不是使模型变得更复杂或更深入。如图4所示,把不同尺度的输入特征同时送入CF层,促使最后一个阶段直接到达低层特征。CF层还允许不同的输入输出分支,这使得CF成为一个即插即用的模块,以适应不同的模型。

        和FPN+PANet相比,CF可以在低层特征和高层特征之间提供更短的路径,CF的特征融合可以表示为。f_{CSP}是CSP模块,\bigoplus是逐像素相加,O_{1}是CF的结果。CF的特征融合发生在后处理组件之前,而" FPN + PANet "的特征融合只能按照自顶向下和自底向上的顺序依次进行

O_{1}=f_{CSP}(Conv_{11}(X_{1})\bigoplus Conv_{12}(X_{2}) ) \bigoplus Conv_{13}(Resize(X_{3}))

B CF-YOLO

        把YOLOV5的neck部分替换为如图5所示的结构,此外,CF - YOLO的结构非常灵活。通过改变CF ( n )的个数、出入阶段数( In和Out)和g Oct Conv ( K )的核大小,可以很容易地对其进行修改。在这项工作中,我们的CF - YOLO堆叠了两层CF ( n = 2 )。CF-YOLO ( K = 1 )、CF - YOLO ( K = 3 )分别表示CF的核尺寸等于1和3

Experiment

A Comparison of different activation functions

         为了验证提出的Peak Act的有效性,我们将一般的激活函数Sigmoid,ReLU [ 34 ]和Leaky Relu激活函数[ 35 ]与Peak Act进行了比较。并选取最佳的特征图可视化结果进行对比。可以看到只有Peak Act能够保存模型把积雪特征从非积雪特征中分离出来。

B Performance of Detectors on RSOD

        CF - YOLO是在PyTorch中实现的。所有训练设置与YOLOv5s (批大小= 32 ,动量为0.937 ,权重衰减为0.0005的SGD优化器,学习率= 0.01)相同。我们将CF - YOLO与不同的SOTA方法进行了比较,包括YOLOv5s,SSD300 [ 20 ],EfficientDet D0和D1。此外,将RSOD分为训练集、验证集和测试集,分别包含1701、189和210张图像。为了平衡每个子集的难度,图像被随机分配到各个子集。为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。

        为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。为了公平比较,所有检测器仅使用MSCOCO进行训练,结果在表1中显示。与YOLOv5s相比,CF - YOLO具有更高的检测结果置信度,能够减少漏检和误检。原因在于提出的CF块使得不同层次的特征能够直接交互,从而可以恢复稀释在高层特征中的有意义的信息。

        为了比较不同方法在RSOD数据集上训练后的性能,使用MSCOCO预训练的权重在RSOD上训练了20个epoch。  我们只训练了20个历元的网络,这就足够了,因为RSOD比MSCOCO小得多。如表2所示,在验证集和测试集上,CF - YOLO仍然优于SOTAs,这证实了CF - YOLO在降雪天气中的优势。

C Performance of Detectors on MSCOCO

        为了进一步考察CFYOLO的泛化能力,我们在MSCOCO上对CF - YOLO的两个版本( K = 1或3)从头训练300历元。表3展示了CF - YOLO和SOTAs在MSCOCO上的比较。可以看到,核大小为K = 1或K = 3的CF - YOLO取得了与YOLOv5s相近的结果。这意味着我们的CF - YOLO在降雪天气下表现良好,而在正常天气下仍然具有竞争力。

Conclusion

        不利的天气往往会给为自动化系统供电的传感器造成能见度问题。尽管前沿的目标检测器在正常天气下捕获的数据集上取得了令人鼓舞的结果,但从恶劣天气(例如,降雪天气)中捕获的低质量图像中检测目标仍然非平凡的。它们往往忽略了对检测有益的潜在信息。通过开发一个采用无监督的训练策略,我们建立了一个高质量的用于目标检测的真实世界雪花数据集( RSOD )。考虑到基于CNN的检测器在RSOD上的退化,我们提出了交叉融合YOLO ( CF-YOLO ):一种轻量但有效的目标检测器。结果表明,我们的CF - YOLO不仅在RSOD上取得了优异的性能,而且是一个有竞争力的轻量级通用检测器,这将为户外视觉系统提供便利。                

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1336794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WIZnet Ethernet HAT评估版介绍

文章目录 1 简介2 硬件资源2.1 硬件规格2.2 引脚定义 3 参考资料3.1 Datasheet3.2 原理图3.3 尺寸图&#xff08;尺寸&#xff1a;mm&#xff09;3.4 参考例程 4 硬件协议栈优势 1 简介 WIZnet Ethernet HAT是一款可直接硬件附在树莓派RP2040Pico开发板上的兼容版&#xff0c;利…

格密码基础:垂直子空间与子格,q-ary垂直格

目录 一.写在前面 二.子空间垂直 2.1 理论解释 2.2 举例分析 三. 零空间 3.1 零空间与q-ary垂直格 3.2 零空间与行/列空间 四. 格密码相关 一.写在前面 格密码中的很多基础原语都来自于线性代数的基本概念&#xff0c;比如举几个例子&#xff1a; 格密码中的非满秩格…

差速器壳体形位误差测量系统圆柱度同轴度自动测量-CASAIM全自动尺寸测量仪

差速器壳体是汽车、拖拉机驱动系统的重要零件&#xff0c;其加工精度直接影响汽车、拖拉机等行走机构的使用寿命和行驶的安全性&#xff0c;因此&#xff0c;不仅对安装孔本身的尺寸精度要求高&#xff0c;而且对孔与孔的同轴度、孔与外圆的同轴度以及孔与端面的垂直度等位置公…

C#MVC项目---登录

目录 1、创建登录类 2、添加控制器-视图 3、修改View视图 4、添加action登录方法 1、创建登录类 public class LoginModel { [Required, StringLength(maximumLength: 20, ErrorMessage "请输入2-20个字符", MinimumLength 2)] public s…

脱壳后多dex文件合并进apk反编译

我们遇到加固后的apk&#xff0c;在脱壳后有很多dex文件&#xff0c;有时候我们只反编译有关键代码的dex会存在一些上下文代码找不到的情况&#xff0c;这时候我们需要多dex一起反编译&#xff0c;并且需要同步看看资源文件怎么办&#xff1f;&#xff1a; 我们可以把多dex塞回…

Vue3使用的Compostion Api和Vue2使用的Options Api有什么不同?

我们介绍Compostion Api和Options Api的区别之前&#xff0c;先来说一下为什么会推出来Composition Api&#xff0c;解决了什么问题&#xff1f; Vue2开发项目使用Options Api存在的问题 代码的可读性和维护性随着组件的变大业务的增多而变得差代码的共享和重用性存在缺点不支…

Halcon颜色提取,基于MLP自动颜色提取功能

1.前言 在实际的图像处理中&#xff0c;经常会遇到彩色图像&#xff0c;使用彩色图像往往跟颜色识别有关系。但是使用RGB进行调参时又很难达到所需要的效果&#xff08;异常区域过多不好处理&#xff09;。 在Halcon中&#xff0c;halcon对颜色提取采用MLP&#xff08;多层感知…

swagger1.2 apiPost工具测试接口没有问题,换成swagger 接口调测时报错 Required request body is missing

把 请求方法由get换成post GetMapping换成 PostMapping 原因apiPost自动把请求json参数封装到请求体里了&#xff0c; 但swagger没有封装&#xff0c;通过networker可以看到载荷里并没有任何东西

nginx记录配置文件

查询当前域名配置所在的nginx文件路径 1&#xff1a;nginx -t 2&#xff1a;cd /usr/local/nginx/conf (如果没看到conf文件&#xff0c;那就根据不同公司定制的规则&#xff0c;这里是才conf下的vhost/) 3:cat xxx.conf 能看到 包应该要放的位置 4&#xff1a;把包解压到…

W6100-EVB-Pico评估版介绍

文章目录 1 简介2 硬件资源2.1 硬件规格2.2 引脚定义2.3 工作条件 3 参考资料3.1 Datasheet3.2 原理图3.3 尺寸图&#xff08;尺寸&#xff1a;mm&#xff09;3.4 参考例程 4 硬件协议栈优势 1 简介 W6100-EVB-Pico是一款基于树莓派RP2040和全硬件TCP/IP协议栈以太网芯片W6100的…

Android studio 多界面的跳转和返回

一、新建一个Empty Activity项目&#xff1a; 二、修改activity_main.xml布局文件&#xff1a; <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout xmlns:android"http://schemas.android.com/a…

c# OpenCvSharp透视矫正六步实现透视矫正(八)

透视矫正,引用文档拍照扫描&#xff0c;相片矫正这块。 读取图像Cv2.ImRead();预处理&#xff08;灰度化&#xff0c;高斯滤波、边缘检测&#xff09;轮廓检测&#xff08;获取到最大轮廓&#xff09;获取最大面积轮廓的四个顶点标识最小矩形坐标透视矫正显示 完整代码 // 1、…

【数据库优化汇总】使用这8招后,数据库查询从191s优化到30ms!

为什么数据库会慢&#xff1f; 慢的本质 查找的时间复杂度 查找算法 存储数据结构 存储数据结构 数据总量 数据拆分 高负载 CPU、磁盘繁忙 无论是关系型数据库还是NoSQL&#xff0c;任何存储系统决定于其查询性能的主要有三种&#xff1a; 查找的时间复杂度数据…

越南语翻译中文有什么特点,怎样翻译比较好?

近年来&#xff0c;随着中越经济贸易的日益频繁&#xff0c;语言交流已无法避免&#xff0c;越南语翻译的需求也持续增加。那么&#xff0c;越南语有何独特之处&#xff1f;越南语翻译成中文时&#xff0c;又该如何处理呢&#xff1f; 专业人士指出&#xff0c;在进行越南语翻译…

cefsharp120.1.110(cef120.1.10,Chromium120.0.6099.129)升级测试及其他H264版本

一、版本变化 v120.1.80–>v120.1.110 相对于120.1.80 更新了一个安全更新,针对Google 获悉存在针对 CVE-2023-7024 的漏洞。 说明:本版本暂时不支持264,其他H264版本参考119,116,115,114,111,110,109,107,100等版本 v109是支持win7/8/8.1最后一个版本(推荐v100版本) v…

鸿蒙4升级进展:共137款产品加入升级,Mate 20也能升级了

从华为官方发布的鸿蒙升级进展来看&#xff0c;2018年发布的Mate 20系列机型也开始了鸿蒙4系统升级的测试招募。 5年之期已到&#xff0c;再战5年不是梦想&#xff1f; 另外&#xff0c;从明年一季度的升级预告来看&#xff0c;春节前后升级的主要为穿戴手表产品。 目前&…

spring security oauth2搭建认证服务器

如图&#xff08;上面图片的代码在业务项目中&#xff09;&#xff0c;第一步在独立的业务项目中&#xff0c;先获取授权码&#xff08;也叫jsessionId&#xff09;、获取授权码的路径就是 /oauth2/authorize&#xff0c;这个路径是oauth2的框架中被OAuth2AuthorizationEndpoin…

YOLOv7训练数据报错

YOLOv7训练数据报错 错误提示1解决方案问题2解决方案成功运行 错误提示1 fatal: not a git repository (or any of the parent directories): .git Traceback (most recent call last):File "/home/ubuntu/code/yolov7-main/utils/google_utils.py", line 26, in att…

为什么说依赖抽象就变得更加灵活呢?举例

说依赖抽象变得更加灵活的主要原因在于它提供了更大的替换和扩展的空间。让我们通过一个简单的例子来说明&#xff1a; 考虑一个电商系统&#xff0c;其中有一个OrderProcessor类负责处理订单&#xff0c;它依赖于一个PaymentGateway用于处理支付。最初的设计可能如下所示&…

前端,build后index报错,noscript

解决方法&#xff1a; npx update-browserslist-dblatest