YOLO后处理trick - 减少nms的计算次数、比较次数和空间消耗

news2024/9/19 9:36:10

目录

前言

1.问题分析

问题1:排序问题

问题2:极大值抑制问题

2.优化比较和计算次数

优化1:跳过reshape直接置信度筛选

优化2:减少用于nms的bbox数

3.举个荔枝

总结


前言

减少YOLO后处理nms的计算和比较次数。

YOLO-det输出的维度是(1, 4+cls_num, 8400),如果直接进行nms比较会进行大量无效的重复操作:排序中的比较、四则运算等。


1.问题分析

nms的python代码:

def nms(boxes, scores, iou_threshold):
    boxes = np.array(boxes)
    scores = np.array(scores)

    # Sort by score
    sorted_indices = np.argsort(scores)[::-1]

    keep_boxes = []
    while sorted_indices.size > 0:
        # Pick the last box
        box_id = sorted_indices[0]
        keep_boxes.append(box_id)

        # Compute IoU of the picked box with the rest
        ious = compute_iou(boxes[box_id, :], boxes[sorted_indices[1:], :])

        # Remove boxes with IoU over the threshold
        keep_indices = np.where(ious < iou_threshold)[0]

        # print(keep_indices.shape, sorted_indices.shape)
        sorted_indices = sorted_indices[keep_indices + 1]

    return keep_boxes

问题1:排序问题

        上述代码先对所有检测结果进行排序,然后再计算IoU,lg8400≈13,则实际排序中的比较次数nlgn约为8400×13≈110,000次

问题2:极大值抑制问题

        极大值抑制需要两两比较,时间复杂度为O(n^2),这个就更高了,不过由于已经使用置信度筛选了,一般也就计算个百来次。


2.优化比较和计算次数

C++的nms代码照着Python实现,不需要改变,修改传入前的bbox:

        int num_channels = 5;
        int num_detections = output_size / num_channels;

        // 定义置信度阈值
        float confidence_threshold = 0.5f; // 根据需要调整

        // 提取满足置信度阈值的检测框和置信度,同时进行xywh比较优化
        std::vector<std::vector<float>> filtered_boxes;
        std::vector<float> confidences;

        for (int i = 0; i < num_detections; ++i) {
            float cx = output_data[i];                        // 中心点x
            float cy = output_data[num_detections + i];       // 中心点y
            float w = output_data[2 * num_detections + i];    // 宽度
            float h = output_data[3 * num_detections + i];    // 高度
            float confidence = output_data[4 * num_detections + i]; // 置信度

            if (confidence > confidence_threshold) {
                if (!filtered_boxes.empty()) {
                    // 获取前一个满足条件的检测框
                    const std::vector<float>& last_box = filtered_boxes.back();

                    // 比较当前检测框与前一个检测框的xywh差值
                    if (std::fabs(cx - last_box[0]) < 1.0f &&
                        std::fabs(cy - last_box[1]) < 1.0f &&
                        std::fabs(w - last_box[2]) < 1.0f &&
                        std::fabs(h - last_box[3]) < 1.0f) {
                        
                        // 如果当前置信度大于上一个,则替换上一个检测框
                        if (confidence > confidences.back()) {
                            filtered_boxes.back() = {cx, cy, w, h};
                            confidences.back() = confidence;
                        }
                        continue; // 当前值被舍弃或替换,跳过后续步骤
                    }
                }
                
                // 如果没有相似的前一个检测框,或当前框不被舍弃,则保存当前检测框
                filtered_boxes.push_back({cx, cy, w, h});
                confidences.push_back(confidence);
            }
        }

        // 将xywh转换为xyxy
        std::vector<std::vector<float>> boxes;
        boxes.reserve(filtered_boxes.size());

        for (const auto& box : filtered_boxes) {
            float cx = box[0];
            float cy = box[1];
            float w = box[2];
            float h = box[3];
            float x1 = cx - w / 2.0f;
            float y1 = cy - h / 2.0f;
            float x2 = cx + w / 2.0f;
            float y2 = cy + h / 2.0f;
            boxes.push_back({x1, y1, x2, y2});
        }

        std::cout << "Boxes size before NMS: " << boxes.size() << std::endl;

优化1:跳过reshape直接置信度筛选

         原始Python会把推理输出的维度(1, 4+cls_num, 8400) reshape成(8400, 4+cls_num),再进行后续操作(所有操作是对原本所有预测结果进行的)。

        C++中多维数组本身就是一维数组,所以直接单循环遍历一次即可,在置信度满足时,将值保存到新的变量filtered_boxes中(如果为了省去开辟空间,可以将值保存到原vector的前面,并记录末尾索引):

// 提取满足置信度阈值的检测框和置信度,同时进行xywh比较优化
        std::vector<std::vector<float>> filtered_boxes;
        std::vector<float> confidences;

        for (int i = 0; i < num_detections; ++i) {
            float cx = output_data[i];                        // 中心点x
            float cy = output_data[num_detections + i];       // 中心点y
            float w = output_data[2 * num_detections + i];    // 宽度
            float h = output_data[3 * num_detections + i];    // 高度
            float confidence = output_data[4 * num_detections + i]; // 置信度

            if (confidence > confidence_threshold) {
                // 置信度时满足操作
                }

优化2:减少用于nms的bbox数

        经过优化1后,用于nms的bbox共91个,可以观察到,由于推理是“滑动窗口式”地进行的,会使得“重复”预测的值在“排列”上是相邻的,且重复预测的值在xywh上差值往往在“1.0”以内:        

157dc825194e4edf97a979fb575d9a7e.png

        因此,可以进行一次遍历,用当前值和最后一次满足条件的值对比,如果四个差值均在“1.0”以内,则保留较大置信度的值:

if (!filtered_boxes.empty()) {
    // 获取前一个满足条件的检测框
    const std::vector<float>& last_box = filtered_boxes.back();

    // 比较当前检测框与前一个检测框的xywh差值
    if (std::fabs(cx - last_box[0]) < 1.0f &&
        std::fabs(cy - last_box[1]) < 1.0f &&
        std::fabs(w - last_box[2]) < 1.0f &&
        std::fabs(h - last_box[3]) < 1.0f) {
                        
        // 如果当前置信度大于上一个,则替换上一个检测框
        if (confidence > confidences.back()) {
            filtered_boxes.back() = {cx, cy, w, h};
            confidences.back() = confidence;
        }
            continue; // 当前值被舍弃或替换,跳过后续步骤
     }
}

上述处理后,用于nms的bbox由91降至34:

        原始IoU比较次数:91×91÷2=4140次;

        修改后IoU比较次数:34×34÷2=578次+91次xywh比较。减少了86%的IoU比较次数。(xywh比较仅涉及4次减法,运算量远远小于IoU比较)。

        算法有些误差(原始nms计算会给无效的值打上mask,计算量会减少不少),但也能直观反应比较次数的减少。


3.举个荔枝

        修改前,一个目标有10个bbox,进行了10次IoU比较:

132849bcd87843a4b0de462840f4d414.png

        修改后,一个目标仅有1个bbox,IoU比较一次都没进行:
cc91b716fba248319fd18bb0c3c7b8c1.png


总结

优化1:将110,000次的比较优化到9,000次(Python实现和C++实现的对比,网上找的代码,如果是官方一点的,应该也有类似优化)。

优化2:将O(NlgN) 的计算复杂度(排序比较+IoU比较)降到接近O(N)(实际效果可能更好,当然不排除特别极端情况下,也会变差,不过这是基于YOLO特性设计的,几乎不可能出现)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2080296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一 初识爬虫

一 爬虫和python 二 爬虫的合法性 三 爬虫的介绍 通过程序去访问网站&#xff0c;网站肯定希望用户来访问网站&#xff0c;而不是程序来访问&#xff0c;可以使用一些技术手段。设置障碍。 越过障碍。 四 爬虫示例 需求:用程序模拟浏览器。输入一个网址。从该网址中获取到资源或…

从短视频到AIGC,快手字节重开一局

作者 | 辰纹 来源 | 洞见新研社 从短视频到剪辑工具&#xff0c;从电商到外卖&#xff0c;再到如今的AIGC大模型&#xff0c;快手和字节的竞争从来就没有停止过。 通用大模型方面&#xff0c;快手有快意&#xff0c;字节有豆包&#xff1b;AI图片创作快手有可图&#xff0c;…

docker续3:

一、使用Dockerfile创建应用镜像 在Docker file中定义所需要执⾏的指令&#xff0c;使⽤ docker build创建镜像&#xff0c;过程中会按照dockerfile所定义的内容进⾏打开临时性容器&#xff0c;把docker file中命令全部执⾏完成&#xff0c;就得到了⼀个容器应⽤镜像&#xff…

星河社区升级命令行工具,一站式完成大模型实训

飞桨PFCC社区成员卢畅贡献。卢畅&#xff0c;飞桨 PFCC 成员&#xff0c;飞桨开源之星&#xff0c;飞桨开发者专家&#xff08;PPDE&#xff09;&#xff0c;长期参加飞桨黑客松、护航计划等开源活动&#xff0c;参与过飞桨执行器预分析性能优化、静态图自动并行架构升级等任务…

SpringBoot项目整合智谱AI + SSE推送流式数据到前端展示 + RxJava得浅显理解

项目背景&#xff1a; 项目背景是一个这个AI答题应用平台&#xff0c;我引入AI得作用就是让AI根据我指定得这个题目的标题和描述来生成一些列的题目。&#xff08;主要功能是这个&#xff0c;但是还用了AI给我评分&#xff0c;不过这个功能比较简单&#xff0c;在本文就简单介…

python可视化-条形图

1、加载数据 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt# 导入数据 df pd.read_csv(E:/workspace/dataset/seaborn-data-master/tips.csv) df.head()2、基于seaborn的条形图 # 利用barplot函数快速绘制 sns.barplot(x"total_bill&quo…

Python从0到100(五十三):机器学习-决策树及决策树分类器

前言: 零基础学Python:Python从0到100最新最全教程。 想做这件事情很久了,这次我更新了自己所写过的所有博客,汇集成了Python从0到100,共一百节课,帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、 计算机视觉、机器学习、神经网络以及人工智能…

中微8S6990 EEPROM踩坑记录

中微8S6990 EEPROM内容丢失解决记录 问题描述: 问题程序如下: void temp_remember(uint16_t temperature,uint16_t address_H,uint16_t address_L) {uint8_t temp,temp1 0;temp temperature>>8;temp1 temperature;FLASH_UnLock();FLASH_Erase_DataArea(address_H);…

虹科方案 | 领航智能交通革新:虹科PEAK智行定位车控系统Demo版亮相

导读&#xff1a; 在智能汽车技术发展浪潮中&#xff0c;车辆控制系统的智能化、网络化已成为行业发展的必然趋势。虹科PEAK智行定位车控系统&#xff0c;集成了尖端科技&#xff0c;能够实现车辆全方位监控与控制的先进系统。从实时GPS定位到CAN/CANFD信号处理&#xff0c;虹科…

漏洞挖掘 | 记一次Spring横向渗透

0x1 前言 这篇文章给师傅们分享下&#xff0c;前段时间的一个渗透测试的一个项目&#xff0c;开始也是先通过各种的手段和手法利用一些工具啊包括空间引擎等站点对该目标公司进行一个渗透测试。前面找的突破口很少&#xff0c;不太好搞&#xff0c;但是后面找到了spring全家桶…

2024.8.27

130124202408271012 DATE #:20240827 ITEM #:DOC WEEK #:TUESDAY DAIL #:捌月廿肆 TAGS < BGM "Dragonflame--Kirara Magic" > < theme oi-contest > < theme oi-data structure Segment > < [空] > < [空] > 渊沉鳞潜&#xff0c…

搜维尔科技:Manus VR高精度手部动作捕捉数据手套为人形机器人、人工智能和人机交互赋能

Manus Quantum数据手套能够提供实时端到端的手部动作数据流与高精度数据集&#xff0c;助力人形机器人实现快速发展。 Quantum量子数据手套采用毫米级精度的磁性指尖跟踪传感器&#xff0c;融入尖端的EMF磁性定位追踪技术&#xff0c;无漂移&#xff0c;能提供高度准确且可靠的…

波导阵列天线学习笔记5 工作在K/Ka频带上的紧凑的共口径双频双圆极化波导天线阵列

摘要: 在本文中&#xff0c;一种紧凑的共口径双频双圆极化天线阵列被提出在K/Ka频段的全双工卫星通信中来实现高增益和宽带宽。所设计的天线阵列可以同时在20GHz频带实现右旋圆极化辐射同时在30GHz频带实现左旋圆极化辐射。此阵列包括圆极化波导天线单元和全公司馈网。脊频谱极…

CTFHub-SSRF过关攻略

第一题&#xff0c;内网访问 一&#xff0c;打开web/ssrf/内网访问 二&#xff0c;进入页面什么都没有查看一下上一步给的参数 三&#xff0c;输入http://127.0.0.1/flag.php回车显示flag 四&#xff0c;然后复制提交&#xff08;恭喜通关&#xff09; 第二题&#xff0c;伪协…

Glide生命周期监听原理以及简单应用利用空Fragment代理Activity

Glide关于生命周期监听的原理解析以及简单应用 文章目录 Glide关于生命周期监听的原理解析以及简单应用1.Glide生命周期监听原理1.1 从Glide初始化开始分析1.2 原理总结 2.简单应用2.1 应用场景1-主题切换之昼夜模式变化监听2.2 应用场景2--SDK打开特定应用或Activity 3.总结 相…

docker的部署及基本用法

目录​​​​​​​ 1 docker 介绍 1.1 什么是docker&#xff1f; 1.2 docker在企业中的应用场景 1.3 docker与虚拟化的对比 1.4 docker的优势 1.5 容器工作方式 2 部署docker 2.1 配置软件仓库 2.2 docker 安装 2.3 配置docker 镜像加速器 2.4 启动服务 2.5 激活内核网络选项…

ctfhub-web-SSRF通关攻略

一、内网访问 1.打开ctfhub给的环境地址 2.观察题目 发现让我们访问127.0.0.1下的flag.php 在地址栏后面有一个url参数 ?urlhttp://127.0.0.1/flag.php 提交即可 二、伪协议读取文件 1.打开ctfhub给的环境 2.观察题目 发现让我们读取flag.php文件 读取文件用到的协议是…

2024最值得购买的耳机?开放式耳机测评

在2024年&#xff0c;多款开放式耳机在市场上备受关注&#xff0c;它们各具特色&#xff0c;满足了不同消费者的需求。今天甜心根据当前市场情况和用户反馈&#xff0c;为大家推荐几款最值得购买的开放式耳机&#xff1a; 虹觅HOLME Fit2 虹觅HOLME Fit2是一款集颜值、舒适度、…

WireShark网络分析~环境搭建

一、虚拟网络设备搭建 &#xff08;一&#xff09;eNSP介绍 网络由网络设备和计算机构成&#xff0c;eNSP是模拟网络拓扑关系的软件。 &#xff08;二&#xff09;eNSP下载 华为官网&#xff1a;https://forum.huawei.com/enterprise/zh/thread/blog/580934378039689216 &am…

2k1000LA 调试4G

问题&#xff1a; 其实算不上 调试&#xff0c; 之前本来4G是好的&#xff0c;但是 我调试了触摸之后&#xff0c;发现4G用不了了。 其实主要是 pppd 这个命令找不到。 首先来看 为什么 找不到 pppd 这个命令。 再跟目录使用 find 命令&#xff0c;能够找到这个命令&#…