图解目标检测的现代历史

news2025/1/22 8:01:10

在这里插入图片描述

在这里插入图片描述

任务分类

图像分类

在这里插入图片描述
根据图像的主要对象对图像进行分类。

目标定位

预测包含主要对象的图像区域。然后,可以使用图像分类来识别该区域内的物体

在这里插入图片描述

目标检测

在这里插入图片描述
定位和分类出现在图像中的所有对象。这个任务通常包括:确定区域,然后对其中的对象进行分类。

语义分割

在这里插入图片描述

用图像所属的对象类来标记图像的每个像素,如示例中的人、羊和草。

实例分割

在这里插入图片描述

根据图像所属的对象类和对象实例来标记图像的每个像素

关键点检测

在这里插入图片描述

检测对象的一组预定义关键点的位置,例如人体或人脸中的关键点。

目标检测的关键核心概念

提取边界框

在这里插入图片描述
输入图像的一个矩形区域,其中可能包含一个对象。这些建议可以通过一些启发式搜索生成:客观性、选择性搜索,或通过区域建议网络(RPN)。

边界框可以表示为4元素向量,可以存储它的两个角坐标(x0、y0、x1、y1),也可以(更常见)存储它的中心位置及其宽度和高度(x、y、w、h)。边界框通常伴随着一个关于边界框包含对象的可能性的置信度分数。

两个边界框之间的差值通常用它们的向量表示的l2距离来衡量。W和h可以在距离计算之前进行对数变换。

IoU交并比

在这里插入图片描述

一个度量两个边界框之间的相似性在它们的联合区域上的重叠区域。

非极大值抑制

在这里插入图片描述
一种合并重叠边界框(建议或检测)的常用算法。任何与一个更高置信度的边界框显著重叠的边界框(IoU > IoU_threshold)都将被抑制(删除)。

边界框回归(边界框细化)

在这里插入图片描述

通过查看一个输入区域,我们可以推断出更适合于内部对象的边界框,即使该对象只是部分可见的。右边的例子说明了仅通过观察一个物体的一部分来推断地面真实框的可能性。因此,可以训练一个回归器来查看一个输入区域,并预测输入区域框和地面真实框之间的偏移量∆(x,y,w,h)。如果我们为每个对象类有一个回归变量,它被称为类特定的回归,否则,它被称为类不可知的(所有类的一个回归变量)。边界框回归器通常伴随着边界框分类器(置信度评分)来估计框中对象存在的置信度。分类器也可以是特定于类的或不依赖于类的。如果不定义先验框,输入区域框将扮演先验框的角色。

先验框

在这里插入图片描述
我们可以使用输入区域作为唯一的先验框,我们可以训练多个边界框回归器,每个查看相同的输入区域,但有不同的先验框,并学习预测自己的先验框和地面真实框之间的偏移量。通过这种方式,具有不同先验框的回归变量可以学习预测具有不同属性(高宽比、比例、位置)的边界框。先验框可以相对于输入区域进行预定义,也可以通过聚类进行学习。一个适当的边界框匹配策略是使训练收敛的关键。

边界框匹配策略

在这里插入图片描述

我们不能期望一个边界框回归器能够预测一个对象的边界框,因为它离其输入区域或其之前的边界框(更常见的是)有太远的距离。因此,我们需要一个边界框匹配策略来决定哪个先验框与真实目标匹配。每一场匹配都是一个回归的训练示例。可能的策略:(多边界框)将每个真实目标与一个IoU最高的先验框进行匹配(SSD,Faster RCNN)与任何IoU大于0.5的先验框进行匹配。

困难样本挖掘

在这里插入图片描述

对于每个先验框,都有一个边界框分类器来估计内部有一个对象的可能性。在框匹配后,所有匹配的先验框都是分类器的正例子。所有其他之前的边界框都是负样本。如果我们使用所有这些负样本,在正样本和负样本之间会有显著的不平衡。可能的解决方案:随机选择负的例子(Faster RCNN),或者选择分类器犯的错误最严重的例子(SSD),这样负和正之间的比例大约为3:1。

CNN的关键核心概念

特征

在这里插入图片描述

感受野

在这里插入图片描述
输入图像中影响特征激活的区域。换句话说,这是该特征所关注的区域。一般来说,更高层次的特征有更大的感受野,这允许它学习捕捉更复杂/抽象的模式。卷积神经网络体系结构决定了感受野如何逐层变化。

特征图

在这里插入图片描述

通过以滑动窗口的方式在输入映射的不同位置应用相同的特征检测器(即卷积)而创建的一组特征。同一特征图中的特征具有相同的接受大小,寻找相同的模式,但在不同的位置。这就创建了卷积神经网络的空间不变性属性。

Feature Volume

在这里插入图片描述
一组特征映射,每个映射在输入图上的一组固定位置上搜索特定的特征。所有的特征都有相同的感受野大小。

全连接层

在这里插入图片描述
具有k个隐藏节点的全连接层(fc层-通常连接到卷积神经网络的末端进行分类)可以看作是一个1x1xk的特征volume。这个特征volume在每个特征图中都有一个特征,其感受野覆盖了整个图像。fc层中的权值矩阵W可以转换为卷积核。将内核w x h x k卷积到CNN特性volume w x h x d将创建一个1x1xk特征volume(=具有k个节点的FC层)。将1x1xk滤波器内核卷积到1x1xd特性volume将创建一个1x1xk特征volume。用卷积层替换完全连接层,我们可以应用到任意大小的图像。

转置卷积

在这里插入图片描述
反向传播卷积运算的梯度的运算。换句话说,它是一个卷积层的向后传递。一个转置的卷积可以实现为一个在输入特征之间插入零的法向卷积。与滤波器大小k、步幅s和零填充p的卷积具有与滤波器大小k‘=k、步幅s’=1、零填充p‘=k-p-1和s-1零相关的转置卷积。

端到端目标检测流水线

在这里插入图片描述

一个目标识别管道,所有阶段(预处理、区域建议生成、候选框分类、后处理)都可以通过优化单个目标函数来训练,该目标函数是所有阶段变量的可微函数。这种端到端管道与传统的目标识别管道相反,后者以不可区分的方式连接阶段。在这些系统中,我们不知道改变一个阶段的变量如何影响整体性能,因此每个阶段必须独立或交替地训练,或者启发式地编程。

候选框或者滑窗

在这里插入图片描述

RCNN和OverFeat代表了两种早期进行目标识别的竞争方法:要么对另一种方法提出的区域进行分类(RCNN,Fast RCNN,SPPNet),要么对一组固定的均匀间隔的正方形窗口(OverFeat)进行分类。第一种方法有比其他类似网格的候选窗口更适合对象的区域建议,但要慢两个数量级。第二种方法利用卷积操作,以滑动窗口的方式对对象进行快速回归和分类

Multibox通过引入先验框和候选框网络RPN的想法,结束了这场竞争。从那时起,所有最先进的方法现在都有一组先验框(基于一组滑动窗口或通过聚类地面真实框生成),从中训练边界框回归器,以提出更好地适合内部对象的区域。新的竞争是在直接分类(YOLO,SSD)和细化分类方法(Faster RCNN,MaskRCNN)之间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1495697.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物联网技术在低压安全用电云平台的应用

前言:低压安全用电系统是保障用电质量的重要依托,也是增强用电安全性的根本依据。而在其中应用物联网技术,可进一步提升监测效率。在此之上,文章简要分析了低压安全用电系统的设计基准与监测内容,并通过科学制定系统建…

波奇学Linux:信号的发送和保存

信号的发送的对象是pcb task_struct{ int signal; //0000 0000 .... 0001 进程pcb中存在int型的signal来保存信号,用位图的方式,比特位的0,1表示是否收到信号 比特位位置表示信号的编号。 发信号的本质就是修改task_struct的信号位图对应的…

App Inventor 2 Personal Image Classifier (PIC) 拓展:自行训练AI图像识别模型,开发图像识别分类App

这里仅仅介绍一下AI图像识别App的实现原理,AI的基础技术细节不在本文讨论范围。通过拓展即可开发出一款完全自行训练AI模型,用于特定识别场景的App了。 我们都知道,人工智能AI的基本原理是事先准备好样本数据(这里指的是图片&…

结构体(C语言进阶)(一)

目录 前言 1、结构体声明 1.1 结构体基本概念 1.2 结构体声明 1.3 特殊的结构体声明 1.3.1 匿名结构体声明 1.4 结构体自引用 1.5 结构体变量的定义和初始化 1.6 结构体内存对齐 1.7 修改默认对齐数 1.8 结构体传参 总结 前言 C语言除了有其内置类型,还有…

MySQL基础-----SQL语句之DCL数据控制语句

目录 前言 一、管理用户 1.查询用户 2.创建用户 3.修改用户密码 4.删除用户 案例 二、权限控制 1.查询权限 2.授予权限 3.撤销权限 案例 前言 本期我们学习SQL语句的最后一部分内容,也就是数据控制语句DCL。DCL英文全称是Data Control Language(数据控制语…

Rust错误处理和Result枚举类异常错误传递

Rust 有一套独特的处理异常情况的机制,它并不像其它语言中的 try 机制那样简单。 首先,程序中一般会出现两种错误:可恢复错误和不可恢复错误。 可恢复错误的典型案例是文件访问错误,如果访问一个文件失败,有可能是因…

初学C++

注释 变量 作用:给一段指定的内存空间起名,方便操作这段内容 数据类型 变量名 变量初始值; 常量 用于记录程序中不可更改的数据 宏常量: #define 宏常量 常量值 const修饰的变量: const 数据类型 常量名 常量值; 关键字 …

C#,回文分割问题(Palindrome Partitioning Problem)算法与源代码

1 回文串 “回文串”是一个正读和反读都一样的字符串,初始化标志flagtrue,比如“level”或者“noon”等等就是回文串。 2 回文分割问题 给定一个字符串,如果该字符串的每个子字符串都是回文的,那么该字符串的分区就是回文分区。…

【EI会议征稿通知】2024年计算机视觉、机器人与自动化工程国际学术会议(CRAE 2024)

2024年计算机视觉、机器人与自动化工程国际学术会议(CRAE 2024) 2024 International Conference on Computer Vision, Robotics and Automation Engineering(CRAE 2024) 2024年计算机视觉、机器人与自动化工程国际学术会议&…

华为配置智能升级功能升级设备示例

配置智能升级功能升级设备示例 组网图形 图1 配置智能升级功能组网图 背景信息组网需求配置思路前提条件操作步骤操作结果 背景信息 为了方便用户及时了解设备主流运行版本,快速完成升级修复,华为设备支持自动下载、自助升级功能。用户在设备Web网管…

精细调度:Apache DolphinScheduler脚本深度解析

在现代数据处理和工作流管理中,Apache DolphinScheduler以其灵活性和强大的调度能力受到开发者的广泛欢迎。 本文将逐步解析DolphinScheduler的关键脚本,希望能提供一个详尽的操作指南,帮助大家掌握安装、配置和操作的每一步。 建立在./bin/e…

基于机器学习的垃圾分类

1绪论 1.1问题背景 垃圾分类有减少环境污染、节省土地资源、再生资源的利用、提高民众价值观念等的好处,在倡导绿色生活,注重环境保护的今天,正确的垃圾分类和处理对我们的生态环境显得尤为重要。 在国外很多国家,经过了几十年…

解决WordPress更新插件或者更新版本报WordPress 需要访问您网页服务器的权限的问题

文章目录 前言一、原因二、解决步骤总结 前言 当对WordPress的插件或者版本进行更新时报错:要执行请求的操作,WordPress 需要访问您网页服务器的权限。 请输入您的 FTP 登录凭据以继续。 如果您忘记了您的登录凭据(如用户名、密码&#xff09…

JAVA 用二分法查找数组中是否存在某个值

二分法查找的概念 二分查找也称折半查找(Binary Search),它是一种效率较高的查找方法。首先,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成…

每日一题——LeetCode1588.所有奇数长度子数组的和

方法一 暴力循环 遍历数组的每一个元素,找寻该元素所有连续长度为奇数的可能,累加奇数长度区间内的所有元素。 比如对于[1,4,2,5,3] ,对于第一个元素1,有[1]、[1,4,2]、[1,4,2,5,3]这三种可能,对于第二个元素4&#x…

STP---生成树协议

STP的作用 a)Stp通过阻塞端口来消除环路,并能够实现链路备份目的 b)消除了广播风暴 c)物理链路冗余,网络变成了层次化结构的网络 STP操作 选举一个根桥每个非根交换机选举一个根端口每个网段选举一个指定端口阻塞非根,非指定端口 STP--生成树…

Java 数据结构之链表

public ListNode getIntersectionNode(ListNode headA, ListNode headB) {if (headA null || headB null) return null;ListNode pA headA, pB headB;while (pA ! pB) {pA pA null ? headB : pA.next;pB pB null ? headA : pB.next;}return pA;} public ListNode rev…

Linux cgrpup技术解析和验证测试

Linux cgrpup技术解析和验证测试 1. cgroup技术解析和分类1.1. 相关概念介绍1.2 cgroup子系统 2. cgroup子系统详解2.1 cpu子系统2.2 cpuacct子系统2.3 cpuset子系统2.4 memory子系统2.5 blkio子系统2.6 ns子系统 3. cgroup使用3.1 通用使用流程3.1.1 限制进程的cpu资源3.1.2 绑…

【开源项目】ollama:本地部署大模型

文章目录 1. 安装2. 使用体验2.1. 运行llama22.2. 运行llama2-chinese 项目地址:Github - ollama/ollama 注意:项目对硬盘容量、内存要求比较高。 1. 安装 从Github项目的最新release下载安装包,点击运行即可。 2. 使用体验 2.1. 运行ll…

中小企业如何降低网络攻击和数据泄露的风险?

德迅云安全收集了Bleeping Computer 网站消息, Arctic Wolf 表示 Akira 勒索软件组织的攻击目标瞄准了中小型企业,自 2023 年 3 月以来,该团伙成功入侵了多家组织,索要的赎金从 20 万美元到 400 多万美元不等,如果受害…