YOLOv5图像分割中的NMS处理

news2025/4/3 15:06:45

在上一篇文章YOLOv5图像分割--SegmentationModel类代码详解有讲到图像经过YOLOv5网络后得到的输出形式，主要是调用了BaseModel类下的forward得到的输出，输出的shape为【batch,25200,117】，这里的25200相当于总的anchors数量【以640*640的输入为例，共有anchors=80*80*3+40*40*3+20*20*3】，117为5[x,y,w,h,conf]+80个类+32【mask的数量】。

那么得到上面这张图的输出后又需要哪些处理呢？又是怎么处理的呢？本篇文章就是来刨析这个问题。

可以从下面的代码看到在进行model后会得到pred和proto。前者就是上面得到图的形式，后者的shape为【batch,32,160,160】，这里的32是mask的数量，160*160是针对80*80这个特征层的上采样得到的。然后是送入NMS进行处理得到新的pred输出。

        pred, proto = model(im, augment=augment, visualize=visualize)[:2]  # im[batch, 3, 640, 640]
        # pred:[batch,25200,117], proto:[batch,32,160,160]
        # NMS
        with dt[2]:
            pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det, nm=32)

目录

NMS中发生了什么？

通过conf_thres进行筛选

xywh2xyxy

取得对应anchor中conf最大的类

NMS处理

NMS中发生了什么？

那么来看一下NMS中发生了什么

可以看到代码中传入的参数为：pred:model的输出，conf_thres：置信度阈值，iou_thres：iou阈值，classes:需要过滤的类，nm为mask的数量。

然后进入内部，prediction的shepe为【batch,25200,117】，因此通过下面的代码得到：

bs:batch size 这里得到是1

nc:117-32-5=80【coco类的数量】

xc:由于prediction在117这个维度的第5维度【这里的4维度】是指conf，所以可以通过conf_thres得到大于阈值的目标mask xc，那么此时xc的shape为【1，25200】。通过这个步骤就可以将所有anchors中大于conf的目标筛选出来【形式为False or True】。

通过conf_thres进行筛选

    bs = prediction.shape[0]  # batch size
    nc = prediction.shape[2] - nm - 5  # number of classes 85-5
    xc = prediction[..., 4] > conf_thres  # candidates 85=5+80=(x,y,w,h,conf) 第4维度为conf

然后新建一个output全零的张量，最后一个通道的shape为6+32=38。6指的【x1,y1,x2,y1,conf,class】。

output = [torch.zeros((0, 6 + nm), device=prediction.device)] * bs

下面的xi是图像的index，对应该index的图像。

x = x[xc[xi]]：由于prediction当前batch为1 ，所以对应xi此时为0，xc是上面通过conf_thres得到shape为【1，25200】的mask，所以xc[xi]就是取出该batch中所有的anchors【这些anchors内已经内是经过conf筛选的目标】；x的shape为【25200，117】[忘记这个shape的含义可以看我最前面的图]，那么x[xc[ix]]就可以表示为通过xc中的25200个含有False or True 的anchors，筛选出conf大于阈值的目标【这个目标维度为117，含有box信息，conf,80个类，32个mask】

在我这里得到新的x的shape为：【52，117】。这就表示了在25200个anchors中有52个anchors内有目标，每个anchor又有117个维度来记录该anchor内目标的boxes信息，conf以及类信息等。

    for xi, x in enumerate(prediction):  # image index, image inference
        # Apply constraints
        # x[((x[..., 2:4] < min_wh) | (x[..., 2:4] > max_wh)).any(1), 4] = 0  # width-height
        x = x[xc[xi]]  # confidence xc是所有anchor内的置信度，shape[1,25200]。表示为：获取当前图像中所有anchor中有预测结果的[这个是通过conf筛选过的]

下面的这一行代码表示为计算conf，x[:,5:]

        # Compute conf
        x[:, 5:] *= x[:, 4:5]  # conf = obj_conf * cls_conf

xywh2xyxy

下面的代码中box是将上面x中的box信息由center_x,center_y,wh转为x1,y1,x2,y2的形式【为后面计算iou做准备】，这里的mi=85【表示mask start index】，因为此时的xshape为【52，117=5+85+32】所以从85开始提取所有的mask。

        # Box/Mask
        box = xywh2xyxy(x[:, :4])  # center_x, center_y, width, height) to (x1, y1, x2, y2)
        mask = x[:, mi:]  # zero columns if no masks

取得对应anchor中conf最大的类

在下面的代码中x[:,5:mi]=x[:,5:85]表示为取所有anchors中所有类的conf。【0~4是box，5:85是class】，然后取出所有anchors中预测的类中conf最大的conf以及索引j【x[:,5:85]的shape为[52,80]，利用max(1,keepdim=True)在80所在的这个维度上取max】，而这里得到最大index j就是每个anchors预测得到的类的index[这样不就知道预测的种类了嘛]。

可视化看一下，这里只展示一部分。前面的一个列是所有anchor得到的最大conf值，后面的一列是对应的类别，比如第行中0.24885表示当前这个anchor预测为类别0【也就是persion类，置信度为0.24885】：

最后再用cat函数进行拼接，即将box【xyxy】，conf[所有anchor得到最大的conf], j[最大conf对应的类，mask]

    conf, j = x[:, 5:mi].max(1, keepdim=True)
    x = torch.cat((box, conf, j.float(), mask), 1)[conf.view(-1) > conf_thres]

得到新的x如下图：

下面这行代码是对上面得到x在conf这个维度上进行排序

x = x[x[:, 4].argsort(descending=True)]  # sort by confidence

NMS处理

agnostic参数 True表示多个类一起计算nms，False表示按照不同的类分别进行计算nms。

这里的nms是调用的torchvision下的nms。需要传入boxes，这里的boxes是加了c的偏移量【为什么加这个偏移量这里我没明白，有知道的可以留言说一下】。这里的boxes为【x1,y1,x2,y2】形式。score是已经排序好的，iou_thres是iou阈值。

        # Batched NMS
        c = x[:, 5:6] * (0 if agnostic else max_wh)  # classes
        boxes, scores = x[:, :4] + c, x[:, 4]  # boxes (offset by class), scores
        i = torchvision.ops.nms(boxes, scores, iou_thres)  # NMS

此时得到的i为：tensor([ 0, 2, 6, 16, 30], device='cuda:0')

这里的x是shape为【49，38】，49表示为有目标的49个anchors，38就是前面含有boxes,conf,index,mask的信息。i就是筛选得到的anchors索引。索引得到最终5个anchors以及信息，shape为【5，38】.

output[xi] = x[i]

这个就是我们得到的经过NMS后的输出啦

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/73312.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

vuex原理和下载

vuex原理和下载

vuex：状态管理模式 vue全家桶：vue-cli（脚手架）、vue-router（路由管理器）、vuex（状态管理模式） 原理图示： 原理描述： vuex在vue组件外面进行组件状态的管理…

阅读更多...

引用的小细节内联函数

引用的小细节内联函数

1.引用的细节引用，简单来说就是“取别名”。既然是别名，那么引用就一定具有以下的特点引用在定义时必须初始化。就好比起别名起码得告诉别人是给谁起的别名吧一个变量可以有多个引用就好比一个人可以有多个别名。比如张某某，有两个外号…

阅读更多...

智慧农业创造新兴业态，推动农业产业现代化步伐

智慧农业创造新兴业态，推动农业产业现代化步伐

农业是国民经济的基础，在国家经济发展中起着不可替代的作用，随着物联网、人工智能、信息技术的快速发展，农业逐渐走向智能化、现代化和自动化，智慧农业已经深入到农业生产的各个环节，成为了现代农业发展新的方向。所谓…

阅读更多...

JAVA12_08学习总结(CSS)

JAVA12_08学习总结(CSS)

今日内容 1. frameset 框架集标签frameset框架集标签不能放在body中rows--划分页面为上下部分cols--划分页面为左右部分框架标签frame框架的名称name属性<frame src"#" name"#" />src后代表这个框架中打开的页面链接name后代表这个被打开页面的nam…

阅读更多...

JavaScript -- 11. BOM及常用对象介绍

JavaScript -- 11. BOM及常用对象介绍

文章目录BOM对象1 BOM2 navigator3 location3.1 常用方法3.2 url各部分名称4 historyBOM对象 1 BOM 浏览器对象模型 BOM为我们提供了一组对象，通过这组对象可以完成对浏览器的各种操作 BOM对象： Window —— 代表浏览器窗口（全局对象&…

阅读更多...

哥斯拉连webshell需要配置(哥斯拉连接Webshell实践)

哥斯拉连webshell需要配置(哥斯拉连接Webshell实践)

1. 哥斯拉连webshell需要配置环境 kali linux docker+vulhub nginx(1.19.6)+php(7.4.15) 2. 哥斯拉连webshell需要配置过程 2.1 vulhub镜像拉取 vulhub安装的话去官网上有安装教程 Vulhub - Docker-Compose file for vulnerability environment 安装好之后…

阅读更多...

VUE基本认知

VUE基本认知

1：vue介绍渐进式 JavaScript 框架（有2个库，核心库和插件库，如果能用核心库解决的就是用核心库，核心库解决不了的，就使用插件库） 渐：逐渐， 进：添加作者: 尤…

阅读更多...

原生数据湖体系

原生数据湖体系

背景： 随着数据量的爆发式增长，数字化转型称为了整个IT行业的热点，数据也开始需要更深度的价值挖掘，因此需要确保数据中保留的原始信息不丢失，从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐…

阅读更多...

nginx详细配置负载均衡全过程以及宕机情况处理

nginx详细配置负载均衡全过程以及宕机情况处理

一、准备 1.下载安装nginx服务器（win10/Linux同样适用） 2.两个以上服务的服务地址二、详细步骤以及宕机情况处理 （1）编辑 nginx.conf 配置文件，该文件在conf文件夹下面。轮询： upstream my_server …

阅读更多...

【物理应用】超声场可视化仿真模拟【含GUI Matlab源码 1494期】

【物理应用】超声场可视化仿真模拟【含GUI Matlab源码 1494期】

⛄一、简介（附论文） 通过对超声场理论的数学物理方法计算，分别对圆型和矩型换能器的声轴线上声压分布、轴方向横截面的声压的分布及声场的指向性的表达式作出推导和演算，并得出结论；以及研究脉冲波声场分布特性&#…

阅读更多...

计算机组成大题分析（五）

计算机组成大题分析（五）

常见x86汇编指令解释例题：已知 f(n)n! nX(n-1)XX2X1，计算 f(n)的 C 语言函数 f(n) 的源程序（圈住的地方）及其在 32 位计算机 M 上的部分机器级代码如下: 其中，机器级代码行包括行号、虚拟地址、机器指令和汇编指令&am…

阅读更多...

止损的意义是什么？我们为何要止损这个操作？

止损的意义是什么？我们为何要止损这个操作？

止损的意义是什么？我们为何要止损这个操作？我想很多人并没有深入思考这个问题，我猜测绝大数人都会说为了风险控制，无条件执行，割断亏损让利润奔跑，这类的话，其实不然。我觉得一个操作如果内心…

阅读更多...

什么是云计算中的多租户？

什么是云计算中的多租户？

在云计算中，多租户意味着一个云供应商的多个客户使用相同的计算资源。即使他们共享资源，云客户也不知道彼此，他们的数据是分开的。多租户是云计算的重要组成部分，没有它，云服务将远不实用。多租户的经典定义是为多个用…

阅读更多...

12月8日（第八天）

12月8日（第八天）

DOCKER 参考文章： 十分钟学会用docker部署微服务 Docker 让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，便可以实现虚拟化。（开始时觉得docker麻烦，我部署java应用&a…

阅读更多...

Python+Requests实现接口自动化

Python+Requests实现接口自动化

一般对于自动化的理解，有两种方式的自动化。第一，不需要写代码，完全由工具实现，这种方式的工具一般是公司自己研发的，方便黑盒测试人员使用。这种工具的特点是学习成本低，方便使用，但是通用性…

阅读更多...

JSP SSH共享单车租赁系统myeclipse开发oracle数据库MVC模式java编程计算机网页设计

JSP SSH共享单车租赁系统myeclipse开发oracle数据库MVC模式java编程计算机网页设计

一、源码特点 JSP SSH共享单车租赁系统是一套完善的web设计系统（系统采用ssh框架进行设计开发MVC模式），对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为TO…

阅读更多...

亚马逊云科技re:Invent：Serverless成技术新常态

亚马逊云科技re:Invent：Serverless成技术新常态

2019年底，亚马逊云科技发布了Amazon Lambda的“预置并发（Provisioned Concurrency）”功能，它允许亚马逊云科技无服务器计算用户使其函数保持“已初始化并准备好在两位数毫秒内响应”的状态，这意味着“冷启动”问题成为…

阅读更多...

xss-labs靶场练习部分记录

xss-labs靶场练习部分记录

目录靶场环境测试使用 evel3 evel5 evel6 evel7 evel8 evel9 evel10 evel11 evel12 evel13 evel14 靶场环境 browser：firefox；plugin:Hackbar,tools:burp 注：常见payload在评论区测试使用 " <> scRiPt oNeEro…

阅读更多...

MySQL 的日志（undo log、redo log、binlog）

MySQL 的日志（undo log、redo log、binlog）

我们在MYSQL执行过程文章中知道一条SQL语句执行流程是怎么样的，但SQL语句是怎么入库的呢？如下图： SQL语句入库过程在图中涉及三个日志： undo log（回滚日志）、redo log（重做日志） 、b…

阅读更多...

TI RM57 如何配置RTI作为定时器使用

TI RM57 如何配置RTI作为定时器使用

引言最近公司要对新项目的算法进行评估，这就需要拿到RM57浮点运算能力数据，测量运算速度就要用到高精度定时器，通过查看芯片手册发现RTI可以满足这个需求，本文对RTI的配置和使用做一个详细的记录，方便以后翻看。 ui…

阅读更多...

推荐文章

最新文章