HIC-YOLOv5:改进的YOLOv5用于小对象检测

news2024/11/15 8:06:35

HIC-YOLOv5: Improved YOLOv5 For Small Object Detection

摘要

        小目标检测是物体检测领域的一大难点。已有的一些工作对这一任务提出了改进,例如增加若干个注意块或改变特征融合网络的整体结构。然而,这些模型的计算开销很大,使得部署实时目标检测系统不可行,同时留下了改进的空间。为此,提出了一种改进的YOLOv5模型:HICYOLOv 5来解决上述问题。首先,添加专用于小对象的附加预测头,以提供更高分辨率的特征图,从而实现更好的预测。其次,在脊柱和颈部之间采用对合块来增加特征图的通道信息;此外,该算法在骨干网末端引入了CBAM注意机制,不仅降低了计算开销,而且在信道域和空域都能突出重要信息.

创新点

        ·额外的预测头是专为小物体设计的。它可以在更高分辨率的特征图中检测物体,这些特征图包含更多关于微小物体的信息。

        ·增加对合块作为骨干和颈部之间的桥梁,以增加特征图的通道信息。

        · CBAM应用于骨干网的末端,从而提取更多的基本信道和空间信息,而忽略冗余信息。

方法

        HIC-YOLOv 5的结构如图3所示。原始YOLOv 5由3个部分组成:用于特征提取的主干、用于特征融合的颈部和3个预测头部。在原有模型的基础上,本文提出了3点改进:1)增加一个预测头,用于检测具有高分辨率特征图的层,特别是针对小目标和微小目标; 2)在网络颈部的起始处引入一个卷积块,以提高PANet的性能; 3)在骨干网中加入卷积块注意模块(CBAM)。

A.卷积块注意模块(CBAM)

        以前的工作是在生成特征金字塔时将CBAM添加到颈部块中。但是,由于CBAM连接的特征地图尺寸较大,增加了参数和计算成本。此外,该模型参数量大,训练难度大。因此,在主干网络中采用CBAM,目的是在提取主干中的特征时突出重要特征,而不是在颈部生成特征金字塔。此外,CBAM的输入特征图大小仅为20 × 20,是640 × 640全图的1/32,因此计算量不大。

        CBAM是一种基于注意机制的有效模型,可以方便地集成到CNN体系结构中。它由两个模块组成:通道注意模块和空间注意模块,如图4所示。这两个模块分别生成通道和空间注意力图,然后将其与输入特征图相乘以便于自适应特征细化。因此,沿通道和空间轴沿着有意义的特征被强调,而冗余的特征被抑制。通道注意力模块对不同通道上的特征图执行全局最大池化和平均池化,然后执行逐元素求和和S激活。空间注意力模块对不同特征图上相同位置的像素值执行全局最大池和平均池,然后连接两个特征图,接着是Conv2d操作和S激活。

B.卷积信道特征融合(CFFI)

        YOLOv5的颈部采用了PANet,在FPN的基础上引入了自底向上的路径增强结构。YOLOv5中FPN和自底向上路径增强是融合了高、低层特征,获得了高分辨率、强语义的特征,具有很强的检测微小目标的能力。但是,原YOLOv5中采用了1 × 1卷积来减少颈部起始处的信道数,在计算效率显著提高的同时,信道信息也有所减少,导致PANet性能较差。在脊椎和颈部之间添加了一个Involution块。信道信息被改善和共享,导致在FPN的初始阶段期间减少信息丢失。因此,这种改进有助于增强FPN的性能,特别是有利于检测具有较小尺寸的目标。此外,还强调了卷积算法在不同的空间位置上对各种视觉模式具有更好的适应性。

        Involution的结构如图5所示。表示为H的Involution核被设计为包含在空间域和通道域中表现出逆属性的变换,其中H和W表示特征图的高度和宽度,K是核大小,G表示组的数量,其中每个组共享相同的Involution核。最后,如下获得InvolutionYijk的输出特征图:

        因此,包含在单个像素的通道维度中的信息被隐含地分散到其空间附近,这对于获得丰富的感受野信息是有用的。

C.预测头

        YOLOv5中3个预测头的不同分辨率(80 × 80、40 × 40、20 × 20),在各种应用场景下为探测能力做出了巨大贡献,但也给微小物体的探测带来了困难。YOLOv5在微小目标检测上的表现不佳的原因是,仅包含少量像素的微小目标的特征很可能被忽略。虽然卷积块在从特征图中提取特征方面发挥了重要作用,但当网络深度增加时,它们也会降低特征图的分辨率,从而难以提取微小对象的特征。为了解决这个问题,提出了一个额外的预测头--小对象检测头(SODH),旨在检测更大分辨率(160 × 160)的特征图。从微小物体中提取特征变得越来越容易。

        每个预测头以提取的特征作为输入,通过骨架和颈部的融合,最终输出一个由回归包围盒(坐标和大小)、目标边界置信度和目标类别组成的向量。在生成最终边界框之前,生成锚点以形成候选边界框。这些锚点是根据数据集通过k均值生成的,并且针对3个预测头以3种不同的尺度定义,分别适应于小、中和大对象。附加预测头的锚点也通过k-均值生成。

D.损失函数

        HIC-YOLOv 5的损失函数由三个部分组成:客观性、包围盒和类概率,可以表示如下:

        使用二进制交叉熵损失来计算客观性和类概率,并使用CIoU损失[20]来计算边界框回归。

E.数据扩充

        数据扩充是增强模型稳健性的重要技术。在YOLOv5中,它包括马赛克、复制粘贴、随机仿射、混合、HSV增强和剪切。除此之外,发现很多小人物和小汽车都在一张Visdrone2019的图片的中心。因此,将额外的中心裁剪添加到上述数据增强技术中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2094235.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode面试经典150题-136.只出现一次的数字

解法都在代码里,不懂就留言或者私信 这个题不知道为啥会考,过于简单了,我解题写注释用了两分钟不到,5行代码。。。 class Solution {public int singleNumber(int[] nums) {/**这个题目确实时间的题,根据位运算法则我…

公安监所智慧监管解决方案

1. 项目背景与政策解读 《智慧监管行业背景》部分强调了国家关于推进智慧监管建设的指导意见,以及特定省份发布的“智慧新监管”建设规范,旨在实现监所管理的规范化、标准化和信息化。 2. 监所建设目标 根据政策要求,监所建设内容涵盖数字…

无人机之云台的作用

无人机云台在无人机技术中扮演着至关重要的角色,其作用主要体现在以下几个方面: 一、 确保拍摄稳定性 防抖动:无人机在飞行过程中,尤其是在复杂环境下,如遇到风力干扰或进行高速飞行时,机身容易产生震动和…

MySQL数据库---JDBC编程

1.目录 目录 1. 数据库编程的必备条件 2. Java的数据库编程:JDBC 3.安装工作JDBC: 1)使用经典版找到对应版本下载 2)点击Files栏目的jar 3)用文件夹打开 4)一直点进去会得到此界面 4.环境配置 1)下载 jar 2)把jar导入到自己的项目中. a)先在项…

算法训练营——day1数组二分查找

数组是存放在连续空间上的相同数据类型的集合。 注意:下标从0开始;内存空间连续。 正因为数组的内存地址空间连续,所以在删除、添加元素的时候需要移动其他元素。 数组的元素不能删除,只能覆盖! 二维数组特殊 在C中&…

多目标应用:基于NSGA3的移动机器人路径规划研究(提供MATLAB代码)

一、机器人路径规划介绍 移动机器人(Mobile robot,MR)的路径规划是 移动机器人研究的重要分支之,是对其进行控制的基础。根据环境信息的已知程度不同,路径规划分为基于环境信息已知的全局路径规划和基于环境信息未知或…

Python函数(11自定义模块第三方模块内置模块)

Python基础语法文章导航: Python基础(01初识数据类型&变量)Python基础(02条件&循环语句)Python基础(03字符串格式化&运算符&进制&编码)Python基础(04 基础练习…

定时器方案:时间表盘

目录 一:前言 二:手搓时间表盘 1、任务结点,层级,表盘的结构体 2、表盘的初始化 3、添加定时任务 4、删除定时任务 5、检查任务是否超时 6、清空任务 一:前言 我之前有两篇文章是写定时器方案的,大家…

智菜谱推|基于SprinBoot+vue的智能菜谱推荐系统(源码+数据库+文档)

智能菜谱推荐系统 基于SprinBootvue的智能菜谱推荐系统 一、前言 二、系统设计 三、系统功能设计 系统功能实现 管理员功能模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂…

【开源免费】基于SpringBoot+Vue.JS渔具租赁系统(JAVA毕业设计)

本文项目编号 T 005 ,文末自助获取源码 \color{red}{T005,文末自助获取源码} T005,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 渔…

低空经济概念火爆:无人机飞手人才培养先行

随着科技的飞速发展,低空经济作为新兴的经济形态,正以前所未有的速度崛起,成为推动产业升级和经济发展的新引擎。无人机作为低空经济的重要组成部分,其应用领域已从最初的军事侦察、航拍扩展到农业植保、物流配送、环境监测、应急…

使用corrplot绘制行、列不同,且带有p值显著性标注的相关系数图

导读: 相关系数衡量两个变量之间的线性关系,通常以N*N的矩阵形式展示。例如样品vs样品,或者基因vs基因的相关性。本文介绍了使用corrplot R包绘制M*N的相关系数矩阵,例如M个基因表达与N个代谢物信号间的相关性,同时带…

国产芯片+国产操作系统打造办公系统

在《使用国产操作系统作为开发系统》一文中,我介绍了将开发系统从 Ubuntu 替换为 Deepin 系统的过程。经过一个多月的使用,Deepin 系统已然成为我的主力开发平台,其顺手程度让我对国产操作系统的信心大增。于是,我开始将目光瞄向公…

顶级开源许可证详解

目录 软件许可证类型:版权左派和宽容型 顶级开源许可证详解 GNU 通用公共许可证 (GPL) Apache 许可证 Microsoft 公共许可证 (Ms-PL) 伯克利软件发行版 (BSD) 通用开发和分发许可证 (CDDL) Eclipse 公共许可证 (EPL) MIT 许可证 了解你的开源许可证&#…

java编辑器——IntelliJ IDEA

java编辑器有两种选择——IntelliJ IDEA和VsCode。其中IntelliJ IDEA现在是企业用的比较多的,是专门为java设计的,而VsCode则是通过插件来实现Java编辑的。 1.IntelliJ IDEA 官网下载链接:https://www.jetbrains.com/idea/ 注意选择社区版…

AWS-亚马逊网络服务(基础服务)-AWS 定价计算器-概述与动手部署:

让我们来概述并亲身实践如何使用 AWS 定价计算器来计算 概述: AWS 定价计算器是 Amazon Web Services (AWS) 提供的基于 Web 的工具,可帮助用户估算其特定用例的 AWS 服务成本。欢迎来到雲闪世界。 它允许客户建模他们的基础设施并根据他们打算使用的…

【AI 绘画】更快?更省显存?支持 FLUX?使用绘世启动器安装 SD WebUI Forge

使用绘世启动器安装 SD WebUI Forge 下载绘世启动器 绘世启动器下载地址1:https://gitee.com/licyk/term-sd/releases/download/archive/hanamizuki.exe 绘世启动器下载地址2:https://www.bilibili.com/video/BV1ne4y1V7QU 新建一个文件夹取名sd-webui-…

中仕公考怎么样?公务员考试什么时候补录?

公务员考试补录的时间和方法通常因地区和职位的不同有所区别,一般来说,这一过程会在面试、体检和考核环节完成后启动。 如果在招录过程中出现职位空缺或者并未全部招满的情况,就会进行补录。用人单位会通过其官方或公告形式公布相关信息&…

指针5.回调函数与qsort

今天来学习回调函数与qsort 目录 1.回调函数实现模拟计算器代码的简化原代码运行结果简化代码运行结果 qsort函数排序整型数据代码运行结果 qsort排序结构数据代码 qsort函数的模拟实现代码运行结果 总结 1.回调函数 回调函数就是⼀个通过函数指针调用的函数。 如果你把函数的…

JavaEE第22节 TCP段(报文)结构剖析

目录(关于字段有不理解的,哪里不会点哪里😘) 逻辑结构字段解析一、源端口&目的端口二、序号&确认序号三、头部长度四、保留位五、特殊标志位六、窗口大小七、校验和八、紧急指针九、可选选项十、数据 逻辑结构 如图&…