Python OpenCV精讲系列 - 目标检测与识别深入理解(二十)

news2024/11/24 1:37:18

在这里插入图片描述

💖💖⚡️⚡️专栏:Python OpenCV精讲⚡️⚡️💖💖
本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计,从基础概念入手,逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解,更有实战代码示例,助力读者快速将所学应用于实际项目中,提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进阶的开发者,都将在此收获满满的知识与实践经验。

引言

目标检测是计算机视觉领域的一个核心问题,它涉及识别图像或视频中的物体,并确定其位置和大小。OpenCV(Open Source Computer Vision Library)是一个功能强大的开源计算机视觉库,支持多种目标检测算法和技术。本文将详细介绍几种流行的目标检测方法,并提供具体的实现细节。

目标检测技术概览

目标检测通常涉及以下几个步骤:

  1. 特征提取:从图像中提取有用的特征。
  2. 候选区域生成:确定可能包含目标的图像区域。
  3. 分类:判断每个候选区域是否包含目标。
  4. 定位:确定目标在图像中的精确位置。

OpenCV提供了多种方法来完成这些任务,包括传统的方法(如Haar级联分类器)以及基于深度学习的方法(如YOLO、SSD等)。

传统目标检测方法

Haar特征与级联分类器

1. Haar特征简介

Haar特征是一种简单的图像特征,用于检测局部图像结构的变化。它由一组简单的黑色和白色矩形组成,用于计算图像中不同区域之间的平均像素强度差异。

2. Haar级联分类器的工作原理
  • 训练过程:使用大量的正样本(包含目标的图像)和负样本(不包含目标的图像),通过AdaBoost算法训练出一系列弱分类器,并组合成一个强分类器。
  • 检测过程:使用训练好的级联分类器来扫描图像中的每一个位置,以检测目标的存在与否。
3. 使用Haar级联分类器进行目标检测
import cv2

# 加载预先训练好的分类器
cascade_classifier = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')

# 读取图像
image = cv2.imread('path/to/your/image.jpg')

# 转换为灰度图
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 检测对象
objects = cascade_classifier.detectMultiScale(
    gray_image,
    scaleFactor=1.1,
    minNeighbors=5,
    minSize=(30, 30),
    flags=cv2.CASCADE_SCALE_IMAGE
)

# 绘制矩形框
for (x, y, w, h) in objects:
    cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2)

# 显示结果
cv2.imshow('Detected Objects', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

HOG特征与SVM分类器

1. HOG特征简介

HOG(Histogram of Oriented Gradients)特征是从图像中提取的一种特征向量,用于捕捉图像中局部像素强度变化的方向和幅度。

2. HOG+SVM的工作原理
  • 训练过程:使用HOG特征从训练图像中提取特征向量,然后使用SVM(Support Vector Machine)训练分类器。
  • 检测过程:对于新的图像,使用相同的HOG特征提取方法,然后使用训练好的SVM分类器来预测目标是否存在。
3. 使用HOG+SVM进行目标检测
import cv2
from skimage.feature import hog
from sklearn.svm import LinearSVC
from sklearn.externals import joblib

# 加载训练好的SVM模型
svm_model = joblib.load('hog_svm_model.pkl')

# 读取图像
image = cv2.imread('path/to/your/image.jpg')

# 转换为灰度图
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 提取HOG特征
features = hog(gray_image, orientations=9, pixels_per_cell=(8, 8), cells_per_block=(2, 2), visualize=False, multichannel=False)

# 预测
prediction = svm_model.predict(features.reshape(1, -1))

if prediction == 1:
    # 绘制矩形框
    cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2)

# 显示结果
cv2.imshow('Detected Objects', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

在这里插入图片描述

基于深度学习的目标检测方法

YOLO(You Only Look Once)

1. YOLO模型介绍

YOLO是一种实时目标检测系统,它通过单次图像通过神经网络来预测边界框及其类别概率。

2. YOLO的工作原理
  • 网络结构:YOLO采用卷积神经网络(CNN)架构,通过单个前向传递来同时预测边界框的位置和类别。
  • 损失函数:结合了边界框坐标回归损失和类别预测损失。
3. 使用YOLO进行目标检测
import cv2
import numpy as np

# 加载预训练的YOLO模型
net = cv2.dnn.readNetFromDarknet('yolov3.cfg', 'yolov3.weights')

# 加载类别标签
with open('coco.names', 'r') as f:
    classes = [line.strip() for line in f.readlines()]

# 读取图像
image = cv2.imread('path/to/your/image.jpg')

# 获取图像的尺寸
height, width = image.shape[:2]

# 创建blob
blob = cv2.dnn.blobFromImage(image, 1 / 255.0, (416, 416), swapRB=True, crop=False)

# 设置输入
net.setInput(blob)

# 获取模型的输出层名称
layer_names = net.getLayerNames()
output_layers = [layer_names[i[0] - 1] for i in net.getUnconnectedOutLayers()]

# 运行模型
outputs = net.forward(output_layers)

# 处理输出
class_ids = []
confidences = []
boxes = []

for output in outputs:
    for detection in output:
        scores = detection[5:]
        class_id = np.argmax(scores)
        confidence = scores[class_id]
        
        if confidence > 0.5:
            center_x, center_y, box_width, box_height = (detection[0:4] * np.array([width, height, width, height])).astype('int')
            x = int(center_x - (box_width / 2))
            y = int(center_y - (box_height / 2))
            
            boxes.append([x, y, box_width, box_height])
            confidences.append(float(confidence))
            class_ids.append(class_id)

# 应用非极大值抑制去除重复的检测框
indices = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4)

# 绘制矩形框
for i in indices:
    i = i[0]
    box = boxes[i]
    x, y, w, h = box
    
    # 绘制矩形框
    cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2)
    label = f"{classes[class_ids[i]]}: {confidences[i]:.2f}"
    cv2.putText(image, label, (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)

# 显示结果
cv2.imshow('Detected Objects', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

SSD(Single Shot MultiBox Detector)

1. SSD模型介绍

SSD是一种高效的目标检测模型,它在单次前向传递中就能完成多尺度的检测任务。

2. SSD的工作原理
  • 网络结构:SSD使用多个不同大小的特征图来检测不同尺度的目标。
  • 锚点框(Anchor Boxes):在每个特征图的不同位置上设置多个不同比例和尺寸的框,以覆盖各种大小的目标。
3. 使用SSD进行目标检测
import cv2

# 加载预训练的SSD模型
net = cv2.dnn.readNetFromCaffe('MobileNetSSD_deploy.prototxt.txt', 'MobileNetSSD_deploy.caffemodel')

# 读取图像
image = cv2.imread('path/to/your/image.jpg')

# 获取图像的尺寸
height, width = image.shape[:2]

# 创建blob
blob = cv2.dnn.blobFromImage(cv2.resize(image, (300, 300)), 0.007843, (300, 300), 127.5)

# 设置输入
net.setInput(blob)

# 运行模型
detections = net.forward()

# 处理输出
for i in range(detections.shape[2]):
    confidence = detections[0, 0, i, 2]
    
    if confidence > 0.5:
        idx = int(detections[0, 0, i, 1])
        box = detections[0, 0, i, 3:7] * np.array([width, height, width, height])
        (startX, startY, endX, endY) = box.astype("int")
        
        # 绘制矩形框
        cv2.rectangle(image, (startX, startY), (endX, endY), (0, 255, 0), 2)
        label = f"{CLASSES[idx]}: {confidence:.2f}"
        cv2.putText(image, label, (startX, startY - 15), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)

# 显示结果
cv2.imshow('Detected Objects', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

总结

本文详细介绍了使用OpenCV进行目标检测的方法,包括传统的Haar级联分类器和HOG+SVM方法,以及基于深度学习的YOLO和SSD方法。通过上述代码示例,您可以根据自己的需求选择合适的方法来实现目标检测。希望本文能为您提供有价值的信息,并帮助您更好地理解和应用OpenCV进行目标检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java ---- 关于接口的常见面试题

🚀 个人简介:某大型国企资深软件开发工程师,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码喽的自我修养&#x1f9…

前端学习-css的元素显示模式(十五)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 什么是元素显示模式 块元素 常见的块元素 块元素的特点 注意 行内元素 行内元素的特点 注意 行内块元素 行内块元素的特点 元素显示模式的转换 语法格…

决策智能与强化学习:重放比率(replay ratio)

知乎:DILab决策实验室(已授权)链接:https://zhuanlan.zhihu.com/p/898641863 0. 概览 近年来,深度强化学习(Deep Reinforcement Learning, DRL)在诸多领域取得了显著的成果。然而,随…

01电力电子技术介绍

电力电子技术介绍 介绍 讲到电力电子技术就要先说说一位老先生,他就是威廉纽厄尔(William Newell)。1972年,他在美国杜克大学首次提出了电力电子的概念。电力电子的概念可以表示为一个倒三角的关系。 首先,我们看到电…

C# WinForm实现画笔签名及解决MemoryBmp格式问题

目录 需求 实现效果 开发运行环境 设计实现 界面布局 初始化 画笔绘图 清空画布 导出位图数据 小结 需求 我的文章 《C# 结合JavaScript实现手写板签名并上传到服务器》主要介绍了 web 版的需求实现,本文应项目需求介绍如何通过 C# WinForm 通过画布画笔…

Gitxray:一款基于GitHub REST API的网络安全工具

关于Gitxray Gitxray是一款基于GitHub REST API的网络安全工具,支持利用公共 GitHub REST API 进行OSINT、信息安全取证和安全检测等任务。 Gitxray(Git X-Ray 的缩写)是一款多功能安全工具,专为 GitHub 存储库而设计。它可以用于…

NASA:ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。 它包含气溶胶光学深度和粒子类型,以及相关的大气数据

目录 简介 信息 代码 引用 网址推荐 知识星球 机器学习 MISR L2 FIRSTLOOK Aerosol Product subset for the ARCTAS region V001 简介 这是 ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。 它包含气溶胶光学深度和粒子类型,以及相关的大气数据,…

基于Segment Anything 模型的智能抠图开发的产品原型,基于官网案例升级改造

最近在研究图像处理的过程中,接触到了Mate开源的 Segment Anything模型,花点时间研究了一番,之前也写了一篇部署模型的教程,感兴趣的同学可以查看一下之前的文章 基于丹摩DAMODEL部署Segment Anything 模型,智能分割一…

多模态模型架构的演进

人工智能咨询培训老师叶梓 转载标明出处 多模态学习正成为连接不同类型数据(如图像、文本、音频等)的桥梁。随着深度学习技术的发展,多模态模型在理解和处理跨领域数据方面表现出了显著的效能。来自普渡大学、混沌工业公司、斯坦福大学和亚马…

ICM20948 DMP代码详解(80)

接前一篇文章:ICM20948 DMP代码详解(79) 本回继续对“上半场”即ICM20948传感器各寄存器初始化状态进行回顾复盘。 接下来是 icm20948_sensor_setup() ---> icm20948_set_fsr() ---> inv_icm20948_set_fsr() ---> inv_icm20948_set_accel…

ARM 之十九 详解 Semihosting、SWO 以及在 MDK-ARM、IAR、Eclipse、SEGGER-ES 的使用

在嵌入式系统开发中,我们通常会将标准输入输出作为一个控制台功能添加到我的嵌入式应用程序中。这样我就有了一个命令行接口,可以检查和修改目标系统。在 ARM 架构中,Semihosting 和 SWO 是经常会遇到的两个概念,在调试输出方面也…

python+appium+雷电模拟器安卓自动化及踩坑

一、环境安装 环境:window11 1.1 安装Android SDK AndroidDevTools - Android开发工具 Android SDK下载 Android Studio下载 Gradle下载 SDK Tools下载 这里面任选一个就可以,最终下载完主要要安装操作安卓的工具adb,安装这个步骤的前提是要…

MarsCode--字符串有多少种可能性【简单】

问题描述 给定一个数字,我们按照如下规则把它翻译为字符串:0 翻译成 “a” ,1 翻译成 “b”,……,11 翻译成 “l”,……,25 翻译成 “z”。一个数字可能有多个翻译。请编程实现一个函数&#x…

[翻译]MOSIP Blue Book

目录 Preface(前言) Executive summary(执行摘要) 1 Introduction(介绍/序言) 1.1 Principles on Identification(识别原则) 1.2 Need for a Foundational ID(需要基…

【Java进阶】Java进阶-手撕java agent

文章目录 Java Agent一、定义与工作原理二、主要特点三、应用场景四、使用注意事项 Java Agent相关接口1. Instrumentation接口2. ClassFileTransformer接口3. 其他相关类和接口 手写一个Java Agent1. 编写Java Agent代码2. 编写MANIFEST.MF文件3. 编译代码并打包成JAR文件4. 运…

JavaWeb——Maven(2/8):概述-介绍安装(步骤、具体操作、测试)

目录 介绍 安装 步驟 具体操作 测试 主要讲解两个方面:Maven的介绍以及Maven的安装。 先来介绍一下没问当中的一些概念和模型。 介绍 Apache Maven是一个项目管理和构建工具,它基于项目对象模型(POM:project object model…

Java | Leetcode Java题解之第477题汉明距离总和

题目&#xff1a; 题解&#xff1a; class Solution {public int totalHammingDistance(int[] nums) {int ans 0, n nums.length;for (int i 0; i < 30; i) {int c 0;for (int val : nums) {c (val >> i) & 1;}ans c * (n - c);}return ans;} }

基于Flink+Hologres搭建实时数仓

Apache Paimon是一种流批统一的数据湖存储格式&#xff0c;结合Flink及Spark构建流批处理的实时湖仓一体架构。Paimon创新地将湖格式与LSM技术结合起来&#xff0c;给数据湖带来了实时流更新以及完整的流处理能力。借助实时计算Flink版与Apache Paimon&#xff0c;可以快速地在…

多人播客的生成#使用OpenAI Swarm框架

使用Swarm来写多智能体的代码&#xff0c;非常简洁高效。 什么是Swarm&#xff1f; Swarm是由OpenAI开发的一个实验性多代理系统框架&#xff0c;旨在探索多代理系统的高效接口。该框架注重轻量级、可控性高且易于测试&#xff0c;主要用于展示代理之间的交接与例行操作模式。S…

多智能体协同太复杂?OpenAI Swarm让问题迎刃而解

OpenAI Solutions团队最新推出的实验性框架Swarm正在为AI领域带来新的可能性。这个专为构建、编排和部署多智能体系统而生的轻量级工具集&#xff0c;正在改变我们处理复杂任务的方式。 Swarm框架的核心理念是让多个AI代理&#xff08;Agent&#xff09;协同工作&#xff0c;每…