深度学习(一):Pytorch之YOLOv8目标检测

news2025/1/13 3:37:39

1.YOLOv8

2.模型详解

2.1模型结构设计

  • 和YOLOv5对比:

 

 

主要的模块: 

  • Conv
  • SPPF
  • Bottleneck
  • Concat
  • Upsample
  • C2f 

Backbone ----->Neck------>head

  • Backdone 

1.第一个卷积层的 kernel 从 6x6 变成了 3x3
2. 所有的 C3 模块换成 C2f,可以发现多了更多的跳层连接和额外的 Split 操作 

3.Backbone 中 C2f 的 block 数从 3-6-9-3 改成了 3-6-6-3

  • Neck 

1.去掉了 Neck 模块中的 2 个卷积连接层 

  • head 

1.不再有之前的 objectness 分支,只有解耦的分类和回归分支,并且其回归分支使用了 Distribution Focal Loss 中提出的积分形式表示法。 

  • Objectness:Objectness本质上是物体存在于感兴趣区域内的概率的度量。如果我们Objectness很高,这意味着图像窗口可能包含一个物体
  • Distribution Focal Loss:针对的是目标框坐标不够灵活的问题,尤其在边界不够清晰明确的情况下(如遮挡等)。
  • Distribution Focal Loss论文:https://arxiv.org/pdf/2006.04388.pdf

2.2Loss 计算

2.2.1正负样本分配策略

YOLOv8 算法中直接引用了 TOOD 的 TaskAlignedAssigner

TOOD 的 TaskAlignedAssigner:https://arxiv.org/pdf/2108.07755.pdf

总结:TaskAligned使用分类得分和IoU的高阶组合来衡量Task-Alignment的程度

t=s^{\alpha}\times_{}u_{}^{\beta}

2.2.2分类损失(VFL)

样本不均衡,正样本极少,负样本极多,需要降低负样本对 loss 的整体贡献了,于是用了focal loss。VFL当然具备focal loss拥有的所有特性。

VFL独有的:

(1)学习 IACS 得分( localization-aware 或 IoU-aware 的 classification score)

(2)如果正样本的 gt_IoU 很高时,则对 loss 的贡献更大一些,可以让网络聚焦于那些高质量的样本上,也就是说训练高质量的正例对AP的提升比低质量的更大一些。
 

\mathrm{VFL(p,q)=\begin{cases}-q(qlog(p)+(1-q)log(1-p))&q>0\\-\alpha p^\gamma log(1-p)&q=0,\\\end{cases}}

 2.2.3目标识别损失1(DFL)

将框的位置建模成一个 general distribution,让网络快速的聚焦于和目标位置距离近的位置的分布。

2.2.4目标识别损失2(CIOU Loss) 

\begin{aligned}\mathrm{CIoU}&=\mathrm{IoU}-\frac{\mathrm{D}_2^2}{\mathrm{D}_C^2}-\alpha\mathrm{v}\\\\\alpha&=\frac{\mathrm{v}}{(1-\mathrm{IoU})+\mathrm{v}}\\\\\mathrm{v}&=\frac{4}{\pi^2}(\arctan\frac{\mathrm{w}^{\mathrm{gt}}}{\mathrm{h}^{\mathrm{gt}}}-\arctan\frac{\mathrm{w}}{\mathrm{h}})^2\end{aligned}

2.2.5样本匹配


(1)抛弃了Anchor-Base方法,转而使用Anchor-Free方法

(2)找到了一个替代边长比例的匹配方法——TaskAligned

Anchor-Based是什么?——Anchor-Based是指的利用anchor匹配正负样本,从而缩小搜索空间,更准确、简单地进行梯度回传,训练网络。

Anchor-Based方法的劣势是什么?——但是因为下列这些劣势,我们抛弃掉了anchor 这一多余的步骤。

anchor也会对网络的性能带来影响:

(1)如巡训练匹配时较高的开销

(2)有许多超参数需要人为尝试调节等

Anchor-free的优势是什么?——Anchor-free模型则摒弃或是绕开了锚的概念,用更加精简的方式来确定正负样本,同时达到甚至超越了两阶段anchor-based的模型精度,并拥有更快的速度。

为与NMS(non maximum suppression非最大抑制)搭配,训练样例的Anchor分配需要满足以下两个规则:——

正常对齐的Anchor应当可以预测高分类得分,同时具有精确定位;

不对齐的Anchor应当具有低分类得分,并在NMS阶段被抑制。

基于上述两个目标,TaskAligned设计了一个新的Anchor alignment metric 来在Anchor level 衡量Task-Alignment的水平。并且,Alignment metric 被集成在了 sample 分配和 loss function里来动态的优化每个 Anchor 的预测。

3.代码实践

3.1目标检测 

from ultralytics import YOLO
from PIL import Image
# 加载模型
model = YOLO('yolov8x.pt')  # 加载官方模型

# 使用模型进行预测
results = model("E:\BaiduNetdiskDownload\people.jpg")  # 对图像进行预测
# 展示结果
for r in results:
    im_array = r.plot(font_size=0.01,conf=False)  # 绘制包含预测结果的BGR numpy数组
    im = Image.fromarray(im_array[..., ::-1])  # RGB PIL图像
    im.show()  # 显示图像
    im.save('results.jpg')  # 保存图像

3.2目标分割

from ultralytics import YOLO
from PIL import Image
# 载入一个模型
model = YOLO('yolov8x-seg.pt')    # 载入官方模型


# 使用模型进行预测
results = model("E:\BaiduNetdiskDownload\people.jpg")  # 对一张图像进行预测
for r in results:
    im_array = r.plot(font_size=0.01,conf=False,labels=False)  # 绘制包含预测结果的BGR numpy数组
    im = Image.fromarray(im_array[..., ::-1])  # RGB PIL图像
    im.show()  # 显示图像
    im.save('results.jpg')  # 保存图像

3.3目标分类

from ultralytics import YOLO
from PIL import Image
# 加载模型
model = YOLO('yolov8n-cls.pt')  # 加载官方模型


# 使用模型进行预测
results = model('E:\BaiduNetdiskDownload\people.jpg')  # 对图像进行预测
for r in results:
    im_array = r.plot(font_size=0.01,conf=False,labels=False)  # 绘制包含预测结果的BGR numpy数组
    im = Image.fromarray(im_array[..., ::-1])  # RGB PIL图像
    im.show()  # 显示图像
    im.save('results.jpg')  # 保存图像

3.4目标姿态

from ultralytics import YOLO
from PIL import Image
# 加载模型
model = YOLO('yolov8n-pose.pt')  # 加载官方模型


# 使用模型进行预测
results = model('E:\BaiduNetdiskDownload\people.jpg')  # 对图像进行预测
for r in results:
    im_array = r.plot(font_size=0.01,conf=False,labels=False)  # 绘制包含预测结果的BGR numpy数组
    im = Image.fromarray(im_array[..., ::-1])  # RGB PIL图像
    im.show()  # 显示图像
    im.save('results.jpg')  # 保存图像

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1274514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AIGC实战——生成对抗网络(Generative Adversarial Network)

AIGC实战——生成对抗网络 0. 前言1. 生成对抗网络1.1 生成对抗网络核心思想1.2 深度卷积生成对抗网络 2. 数据集分析3. 构建深度卷积生成对抗网络3.1 判别器3.2 生成器3.3 DCGAN 模型训练 4. GAN 训练技巧4.1 判别器强于生成器4.2 生成器强于判别器4.3 信息量不足4.4 超参数 小…

机器人AGV小车避障传感器测距

一、A22超声波传感器 该模块是基于机器人自动控制应用而设计的超声波避障传感器,针对目前市场上对于超声波传感器模组盲区大、测量角度大、响应时间长、安装适配性差等问题而着重设计。 具备了盲区小、测量角度小、响应时间短、过滤同频干扰、体积小、安装适配性高…

邀请函 | 合作发展,赋能增效--新架构下汽车电子软件研发技术研讨会

会议介绍 随着汽车智能化、网联化快速演进,“软件定义汽车、架构定义软件”愈发形成行业共识。汽车上的软件应用在提升用户体验、推动行业技术创新方面发挥着至关重要的作用。 在此背景下,如何有效地提升软件开发效率、更好地管理软件质量、满足行业安全…

iOS Swift 代码格式化工具

如果你的代码写得很乱,想一键盘整理代码,像大家推荐一款工具 (PS:Xcode本身并没有代码格式化工具,这款工具为第三方开发的) 这款工具名为:SwiftFormat 1:在GitHub上搜索“SwiftFo…

YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)

一、本文介绍 本文给大家带来的改进内容是SCConv,即空间和通道重构卷积,是一种发布于2023.9月份的一个新的改进机制。它的核心创新在于能够同时处理图像的空间(形状、结构)和通道(色彩、深度)信息&#xf…

中国毫米波雷达产业分析5——毫米波雷达应用案例介绍

一、上海某区康养标杆工程 项目甲方:上海某康养中心 项目地点:上海徐汇区 项目时间:2023年8月 供应商:南京苗米科技有限公司 (一)项目需求 该康养社区集中收治了区内75岁以上老龄化人群和部分阿尔茨海默…

RubyMine 2023 年下载、安装、使用教程,详细图解

大家好,今天为大家带来的是RubyMine 2023 年下载、安装、使用教程,详细图解。 文章目录 1 RubyMine 简介2 RubyMine 下载、安装教程RubyMine 下载RubyMine 安装 3 RubyMine 汉化4. 常用快捷键一级必会二级进阶 1 RubyMine 简介 RubyMine 是一个为 Ruby …

CRM系统:让企业商机管理变得轻松愉快

传统企业的经常出现团队分工不合理、实施过程不可见、进度难以把控等情况。这样不仅会让项目实施周期变长,还会导致客户满意度降低,给企业的发展带来了不好的影响。因此,进行商机管理至关重要。那么,CRM系统如何进行企业的商机阶段…

做热衷的事情,看向往的风景,遇见更多美好,早安

①‍ ʍօʀռɨռɢ ☼ (˘͈ᵕ ˘͈❀) ♡ ༘⋆ 岁月覆盖成长,而你愈发完满; 做热衷的事情,看向往的风景。 每天醒来将微笑别在衣襟, 就会遇见更多的美好事物。早安🌤️ ②生活就是这样,边失去边补偿&…

Redis7--基础篇5(管道、发布订阅)

管道是什么 管道(pipeline)可以一次性发送多条命令给服务端,服务端依次处理完完毕后,通过一条响应一次性将结果返回,通过减少客户端与redis的通信次数来实现降低往返延时时间。pipeline实现的原理是队列,先进先出特性就保证数据的…

【数据结构】—AVL树(C++实现)

🎬慕斯主页:修仙—别有洞天 💜本文前置知识: 搜索二叉树 ♈️今日夜电波:Letter Song—ヲタみん 1:36━━━━━━️💟──────── 5:35 …

TikTok美食狂潮:短视频如何塑造食物文化新趋势

短视频不仅成为分享美食的平台,更是塑造了一种全新的食物文化趋势。本文将深入探讨TikTok如何通过短视频影响食物文化,并推动美食体验的创新。 创意美食视频的崛起 传统的美食呈现方式通常通过图片或文字,而短视频带来了全新的美食呈现方式。…

ESP32-Web-Server编程- 使用表格(Table)实时显示设备信息

ESP32-Web-Server编程- 使用表格(Table)实时显示设备信息 概述 上节讲述了通过 Server-Sent Events(以下简称 SSE) 实现在网页实时更新 ESP32 Web 服务器的传感器数据。 本节书接上会,继续使用 SSE 机制在网页实时显…

(2)(2.2) Lightware SF45/B(350度)

文章目录 前言 1 安装SF45/B 2 连接自动驾驶仪 3 通过地面站进行配置 4 参数说明 前言 Lightware SF45/B 激光雷达(Lightware SF45/B lidar)是一种小型扫描激光雷达(重约 50g),扫描度可达 350 度,扫描范围 50m。 1 安装SF45…

CRM系统:实现精细化的客户管理,提升客户满意度

近年来,CRM系统在国内企业的普及度逐渐提高,越来越多的企业选择使用CRM系统来管理客户关系,优化业务流程。那么,CRM系统到底有什么魔力,让众多企业青睐呢?下面我们来说说,为什么建议使用CRM系统…

同一个公众号下的同一个用户,openid不一致?

背景 公众号授权页面,前端采用的snsapi_userinfo,在用户尚未点击“获取完整性服务”的时候,服务端通过前端的code拿到了一个openid。在用户点击了“获取完整性服务”之后,服务端通过前端的code拿到了另一个openid。同一个用户在同…

计算机网络之Socket编程

文章目录 前言一、Socket编程二、TCP套接字编程三、UDP套字编程总结 前言 TCP、UDP套接字编程 一、Socket编程 应用进程使用传输层提供的服务才能够交换报文,实现应用协议,实现应用 TCP/IP:应用进程使用Socket API访问传输服务地点&#xff…

11-30 SpringBoot

内嵌的tomcat tomcat的依赖 对于tomcat其实还是一个jar包 spring是一个IOC容器 tomcat的核心对象交给Spring容器 调用核心对象方法 启动Tomcat 1.添加依赖 tomcat-embed-core,叫做tomcat内嵌核心。就是这个东西把tomcat功能引入到了我们的程序中的 排除tomcat&a…

改造python3中的http.server为简单的文件下载服务

改造 修改python3中的http.server.SimpleHTTPRequestHandler,实现简单的文件上传下载服务 simple_http_file_server.py: # !/usr/bin/env python3import datetime import email import html import http.server import io import mimetypes import os …

游戏反Frida注入检测方案

在游戏安全对抗过程中,有不少外挂的实现基于对游戏内存模块进行修改,这类外挂通常会使用内存修改器,除此之外,还有一种门槛相对更高、也更难检测的「注入挂」。 据FairGuard游戏安全数据统计,在游戏面临的众多安全风险…