yolov3 详解

news2024/11/26 5:25:18

文章目录

  • 1、yolov3原理
  • 2、损失函数
  • 3、yolov3改进
  • 4、使用opencv实现yolov3
  • 5、卷积神经网络工作原理

1、yolov3原理

参考视频

darknet53:52个卷积层和1个全联接层
输入图像为416416
13
13 -》 下采样32倍
2626 -》 下采样16倍
52
52 -》 下采样8倍

在这里插入图片描述

由标注框中心点落在的grid cell中与9个anchors,IOU最大那个去预测,也称正样本,其他非最大的就不是正样本。

正样本:anchors和标记框的IOU最大,他就是正样本
不参与:anchors和标记框的IOU高于某一个阈值,但是不是最大的就忽略
负样本:一个anchors和标记框的IOU小于某一个阈值,负样本
正样本会在所有项中计算损失产生贡献(定位、置信度、分类)
负样本产生贡献(置信度)

在这里插入图片描述

2、损失函数

1、每个格子是一个grid cell
2、虚线的黑框是anchors
3、实线的蓝框是预测框是以anchors为基准偏移的(以旁边公式)
由tx、ty、th、tw反向推理出来最终结果,sigmoid函数的意义保证输出是0-1之间
cx、cy是归一化之后的长宽

在这里插入图片描述

(cx,cy):该点所在网格的左上角距离最左上角相差的格子数。
(pw,ph):先验框的边长
(tx,ty):目标中心点相对于该点所在网格左上角的偏移量
(tw,th):预测边框的宽和高
σ:激活函数,论文作者用的是sigmoid函数,[0,1]之间概率,之所以用sigmoid取代之前版本的softmax,原因是softmax会扩大最大类别概率值而抑制其他类别概率值 ,图解如下

在这里插入图片描述

评估指标:yolov3精准定位较差,所以在map@0.5:0.95上较差
map@0.5:IOU阈值为0.5的时候,各个类别PR曲线面积的均值
置信度、IOU阈值
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

3、yolov3改进

多尺度目标检测:
输入任意尺度,输出3中尺度的feature map,yolov3通过多尺度融合,
改进了小物体和密集物体的检测问题:
1、增加了grid cell的个数
2、预先设置anchor
3、多尺度预测,及发挥了深层网络特化语义特征,又整合了浅层网络细腻度像素结构信息
4、损失函数惩罚小框项
5、网络结构(骨干网络、跨层连接)

4、使用opencv实现yolov3

import cv2
import numpy as np

# 倒入python绘图函数
import matplotlib.pyplot as plt
# 使用ipython的魔术方法,将绘制出的图像直接嵌入在notebook单元格中
def look_img(img):
  # opencv读图片的是BGR、matplotlib是RGB
  img_RGB = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
  plt.imshow(img_RGB)
  plt.show()


# 1、导入预训练YOLOv3模型
net = cv2.dnn.readNet('yolov3.weights','yolov3.cfg')

# 2、导入coco数据集80个类别
with open('coco.names','r') as f:
  classes = f.read().splitlines()

# 3、导入图像
img = cv2.imread('bus.jpg')
look_img(img)

# 4、对图像预处理(将所有像素除以255,尺寸改成416,416,绿色通道和蓝色通道置换,不进行裁剪)
blob = cv2.dnn.blobFromImage(img,1/255,(416,416),(0,0,0),swapRB=True,crop=False)
blob.shape

# 5、输入到网络
net.setInput(blob)

# 获取网络所有层名字
net.getLayerNames()

# 获取三个尺寸输出层的索引号
net.getUnconnectedOutLayers()

#. 获取三个尺度输出层的名称
layerNames = net.getLayerNames()
output_layers_names = [layerNames[i - 1] for i in net.getUnconnectedOutLayers()]
output_layers_names

# 6、输入yolov3神经网络,前向推断预测
prediction = net.forward(output_layers_names)


# 7、获取yolov3三个尺度的输出结果
prediction[0].shape

# 8、从三个尺度输出结果中解析所有预测框信息
# 存放预测框坐标
boxes = []

# 存放置信度
objectness = []

# 存放类别概率
class_probs = []

# 存放预测框类别索引号
class_ids = []

# 存放预测框类别名称
class_names = []


for scale in prediction: # 遍历三种尺度
  for bbox in scale: # 遍历每个预测框
    obj = bbox[4] # 获取该预测框的confidence)(objectness)
    class_scores = bbox[5:] # 获取该预测框coco数据集80个类别的概率
    class_id = np.argmax(class_scores) # 获取概率最高类别的索引号
    class_name = classes[class_id] # 获取概率最高类别名称
    class_prob = class_scores[class_id] # 获取概率最高类别的概率

    # 获取预测框中心点坐标,预测框宽高
    if np.isnan(bbox[0]):
      bbox[0] = 0
    if np.isnan(bbox[1]):
      bbox[1] = 0
    if np.isnan(bbox[2]):
      bbox[2] = 0
    if np.isnan(bbox[3]):
      bbox[3] = 0
    center_x = int(bbox[0] * width)
    center_y = int(bbox[1] * height)
    w = int(bbox[2]*width)
    h = int(bbox[3]*height)

    # 计算预测框左上角坐标
    x = int(center_x - w/2)
    y = int(center_y - h/2)

    # 将每个预测框的结果存放至上面的列表中
    boxes.append([x,y,w,h])
    objectness.append(float(obj))
    class_ids.append(class_id)
    class_names.append(class_name)
    class_probs.append(class_prob)

len(boxes)

# 将预测框置信度objectness与各类别置信度class_pred相乘,获得最终该预测框的置信度confidence
confidences = np.array(class_probs) * np.array(objectness)
len(confidences)

# objectness、class_pred、confidence三者的关系
plt.plot(objectness,label='objectness')
plt.plot(class_probs,label='class_probs')
plt.plot(confidences,label='confidences')
plt.legend()
plt.show()


# 置信度过滤、非极大值抑制NMS
CONF_THRES = 0.1 # 制定置信度阈值、阈值越大、置信度过滤越强(小于这个阈值的所有框剔除掉)
NMS_THRES = 0.4 # 指定NMS阈值,阈值越小,NMS越强(IOU大于这个阈值的框,其中较小的剔除掉,减少重复预测)

indexes = cv2.dnn.NMSBoxes(boxes,confidences,CONF_THRES,NMS_THRES)

# 过滤完剩下的框
len(indexes.flatten())

# 随机给每个预测框生成一种颜色
colors = [[255,0,255],[0,0,255],[0,255,0],[255,0,0]]

# 遍历留下的每一个预测框,可视化
for i in indexes.flatten():
  # 获取坐标
  x,y,w,h = boxes[i]
  # 获取置信度
  confidence = str(round(confidence[i],2))
  # 获取颜色,画框
  color = colors[i%len(colors)]
  cv2.rectangle(img,(x,y),(x+w,y+h),color,8)

  # 写类别名称置信度
  # 图片、添加的文字、左上角坐标、字体、字体大小、颜色、字体粗细
  string = '{} {}'.format(class_names[i],confidence)
  cv2.putText(img,string,(x,y+20),cv2.FONT_HERSHEY_PLAIN,3,(255,255,255),5)

5、卷积神经网络工作原理

卷积核(是一种特征)对原图进行卷积,是把原图中包含这种特征提取出来
1、卷积计算(通过卷积核在图像上滑动计算,相乘、求和、取平均)结果等于1表示滤框中的值和卷积核的值完全一样

计算padding填充多少?
h2是卷积之后的高度,h1是原图像高度,f卷积核高度,p是填充多少,s是卷积核步长
h2 = (h1 - F + 2p)/s + 1

计算一下
// 在不进行填充的情况下,5*5的图像,在经过3*3卷积之后的结果就变成3*3了5-3+0/1 + 1 = 3

// 如果想保证原图像不变就需要进行padding操作
5 = (5-3+2p)/1 + 1
p = 1
// 所以需要在原图像周围补充一圈,具体补充什么值可以通过borderType进行设置

在这里插入图片描述

对原图整个做一遍扫描就得到这个图feature map
原图中包含卷积核的特征提取到这个feature map中来

在这里插入图片描述

在这里插入图片描述

池化
我们对原图提取出来的feature map进行池化(选取区域内最大值作为这个卷积核的值)
在这里插入图片描述

ReLUs将图中负数磨成0(激活函数)

在这里插入图片描述

经过卷积->磨0->池化之后就是这个样子了
在这里插入图片描述

在这里插入图片描述

全连接层
将feature map进行排序,将每一个乘上不同权重最终得到结果在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

通过大量图片去训练这个模型,通过反向传播的方法,神经网络的到一个结果,将其和真实的结果进行比较误差计算(损失函数),我们的目标就是将损失函数降到最低,通过修改卷积核的参数和全连接每一层的权重来进行微调,使得损失函数最小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1816858.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

离职原因这么回答,off就妥妥的

现在大环境不好,到处都在裁员,好不容易有一次面试机会,结果因为面试回答问题没有回答好,而错失机会,甚至觉得面试表现很好,结果也没拿到offer。 这其中原因除了当前环境下竞争比较激烈外,有些关…

Buffer

Buffer 概念 在Node.js中,Buffer是一个非常重要的内置全局对象,Node.js是基于Chrome V8引擎构建的,V8引擎本身不支持处理二进制数据,因此Node.js引入Buffer来弥补这一不足,Buffer中文译为【缓冲区】,是一…

量产导入 | Tessent Scan 和 ATPG

目标 Upon completion of this module, you should be able to: Use Tessent Scan to insert full scan. Write a scan-inserted netlist file. Write ATPG setup files. lnsert test logic. Create, configure, and balance scan chains. Edit a scan chain order file and …

CentOS停服倒计时不到一个月喊话:“国产操作系统准备好了吗?”安排!

01 CentOS停服倒计时 再过不到20天,CentOS历史将正式终结!Redhat公司此前面向全球宣布,将于2024年6月30日停止维护CentOS 7,届时CentOS全系列版本将停止维护,这意味着CentOS时代将彻底终结,而部署在CentOS…

[NCTF 2018]flask真香

打开题目后没有提示框,尝试扫描后也没有什么结果,猜想是ssti。所以尝试寻找ssti的注入点并判断模版。 模版判断方式: 在url地址中输入{7*7} 后发现不能识别执行。 尝试{{7*7}} ,执行成功,继续往下走注入{{7*7}},如果执…

Linux - 信号阻塞 信号捕捉

Linux - 信号阻塞 & 信号捕捉 信号阻塞信号集操作信号集sigporcmasksigpendingsigaction 信号捕捉用户态与内核态信号捕捉的时机 在博客[Linux - 信号概念 & 信号产生]中,我讲解了信号的基本概念,以及信号是如何产生的,本博客将继续讲…

2024年6月12日 (周三) 叶子游戏新闻

万能嗅探: 实测 网页打开 某视频号、某音、某红薯、某站,可以做到无水印的视频和封面下载功能哦,具体玩法大家自行发挥吧。 WPS免登录一键修改器: 去除烦人的登录且能正常使用 杨奇试戴《黑神话:悟空》豪华版金箍 效果还不错!最近…

大型语言模型(LLMs)的后门攻击和防御技术

大型语言模型(LLMs)通过训练在大量文本语料库上,展示了在多种自然语言处理(NLP)应用中取得最先进性能的能力。与基础语言模型相比,LLMs在少样本学习和零样本学习场景中取得了显著的性能提升,这得…

西门子PLC位逻辑指令学习(SCL语言)

R_TRIG 参数 功能 当CLK信号出现一个低电平到高电平的跳变时,输出Q导通一个周期。 实例 定义以下类型变量 "R_TRIG_DB"(CLK:"data".source,Q>"data".result); //当source输入出现低电平到高电平跳变,result信号…

File、IO流

File、IO流(一) 存储数据的方案 以上都是内存中的数据容器(记住程序正在处理的数据,能快速运算),它们记住的数据,在断电,或者程序终止时会丢失 程序在内存中处理后的数据想长久的保…

Maven增强插件助你开发快人一步

因为之前的工作中一直用的Maven进行jar包管理,每次新加依赖都要去中央仓库上搜索下坐标,这里为了方便以SerchEveryWhere为入口,增加了一个Maven的搜索tab,输入你想要找的包名即可在idea中直接显示最新版对应的坐标以及cve数&#…

镜舟科技与千丁数科开展战略洽谈,探索智慧空间与数据的深度融合

数据作为当下最重要的生产要素之一,数据分析与智慧空间科技的结合正成为推动企业发展的新引擎 。 5 月 15 日,镜舟科技与千丁数科在北京开展战略合作洽谈。本次会议旨在探索双方在智慧空间科技和数据分析领域的合作潜力,共同推进数字经济的新…

LVS+Keepalived NGINX+Keepalived 高可用群集实战部署

Keepalived及其工作原理 Keepalived 是一个基于VRRP协议来实现的LVS服务高可用方案,可以解决静态路由出现的单点故障问题。 VRRP协议(虚拟路由冗余协议) 是针对路由器的一种备份解决方案由多台路由器组成一个热备组,通过共用的…

WEB基础--TOMCAT服务器

服务器概述 什么是服务器 服务器:就是一个提供为人民服务的机器,这里的服务器主要指计算机服务器,分为两种:服务器软件和硬件服务器; 服务器分类 1、硬件服务器:安装了服务器软件的主机。就相当于高配的…

dijkstra 算法为什么高效?

最短路径算法中,dijkstra(i,j,k 颇有遍历意味) 算法时间效能很好,而 floyd,bellman-ford 算法则优在处理负权重。但这是为什么? 从算法过程看,dijkstra 算法确定了某点最短路径后,它…

单目标应用:基于红嘴蓝鹊优化器RBMO的微电网优化(MATLAB代码)

一、微电网模型介绍 微电网多目标优化调度模型简介_vmgpqv-CSDN博客 参考文献: [1]李兴莘,张靖,何宇,等.基于改进粒子群算法的微电网多目标优化调度[J].电力科学与工程, 2021, 37(3):7 二、红嘴蓝鹊优化器求解微电网 2.1算法简介 红嘴蓝鹊优化器(R…

Sharding-JDBC 使用 Nacos 作为配置中心 【下 代码实战】

Sharding-JDBC 使用 Nacos 作为配置中心 【下 代码实战】 1. 实现 ShardingSphereDriverURLProvider 由上一篇博文我们已经知道了 Sharding-JDBC 是基于 Java SPI 机制去加载 并实例化 ShardingSphereDriverURLProvider 的实现类 public interface ShardingSphereDriverURLP…

3个月搞定计算机二级C语言!高效刷题系列进行中

文章目录 前言备考计算机二级C语言为什么考二级C语言?刷题总结后发布系列文章后记免责声明 前言 大家好,我是梁国庆。 计算机二级应该是每一位大学生的必修课,相信很多同学的大学flag中都会有它的身影。 我在大学里也不止一次的想要考计算…

如何下载iSlide软件及详细安装步骤

iSlide插件是一款能够支持PPT和WPS的ppt插件,旨在让每一个人都能够轻松制作出精美的ppt,能够在职场收到更多的关注,而该软件的口号正是「让 PPT 设计简单起来」,该插件是由原来NT插件升级改良过来的,在功能上面进行了全…

代码随想录算法训练营第51天:股票2

代码随想录算法训练营第51天:股票2 ‍ 123.买卖股票的最佳时机III 力扣题目链接(opens new window) 给定一个数组,它的第 i 个元素是一支给定的股票在第 i 天的价格。 设计一个算法来计算你所能获取的最大利润。你最多可以完成 两笔 交易。 注意&a…