挑战杯 基于机器视觉的二维码识别检测 - opencv 二维码 识别检测 机器视觉

news2025/1/31 2:49:44

文章目录

  • 0 简介
  • 1 二维码检测
  • 2 算法实现流程
  • 3 特征提取
  • 4 特征分类
  • 5 后处理
  • 6 代码实现
  • 5 最后

0 简介

🔥 优质竞赛项目系列,今天要分享的是

基于机器学习的二维码识别检测 - opencv 二维码 识别检测 机器视觉

该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

1 二维码检测

物体检测就是对数字图像中一类特定的物体的位置进行自动检测。基本的检测框架有两种:

一种是以滑动窗口为单位对图像进行扫描,对扫描所得的每个子图像提取特征,并用学习到的分类器来分类该特征并且判断该子图像是否为所检测的特定物体。对象检测的一个问题是,对象在图片中的位置和尺度是未知的。算法被要求能够检测各种不同位置、不同大小的对象,这样的特性被称为位置无关性和尺度无关性。为了达到这样的特性,常见的方法是使用多尺度框架,即:通过缩放原始图像,产生一组大小不同的图像序列,然后在序列的每幅图像中都使用固定尺寸
W×H
的滑动窗口,检测算法将判断每次滑动窗口所截取的图像子窗口是否存在目标对象。滑动窗口解决了位置无关性;而图像序列中存在至少一幅图像,其包含的目标对象的尺度符合滑动窗口的尺度,这样一个图像金字塔序列解决了尺度无关性。

另一种则是在整幅图像上首先提取兴趣点,然后仅对提取出来的兴趣点分类。

因此学长把物体检测方法分为基于滑动窗口的物体检测和基于兴趣点的物体检测两类。

无论是哪种做法,整个过程都可以分为特征提取和特征分类这两个主要阶段。也就是说,物体检测的主要问题是使用什么样的特征和使用什么样的分类器。

物体检测的难点在于如何用有限的训练集来学习到鲁棒的、可以适用到各种情况下的分类器。这里所说的各种情况包括有:图像中物体的大小不同;光照条件的差异所引起的图像明暗的不同;物体在图像中可能存在的旋转和透视情况;同类物体间自身存在的差异。

这里学长以定位二维码 / 条形码为例,简述基于机器学习实现物体检测的大致算法流程。

2 算法实现流程

算法流程图如下图所示:

在这里插入图片描述

我们先把输入图像分成 25×25
的图像子块。把图像子块作为特征提取和特征分类这两个模块的基本处理对象,即对图像子块进行纹理特征提取,特征分类时判定当前处理的图像子块是否属于二维条形码的一部分

在这里插入图片描述

在特征提取模块中,我们使用纹理特征提取算法从原始输入图像中提取出多分辨率直方

在特征分类时,我们希望保留所有属于二维条形码的图像子块,同时去除所有属于背景的图像子块。在该模块中,我们使用了自适应 Spatialboost 算法。

下图为经过这步处理后的理想输出结果,图中被标记的小方块表示他们属于二维条形码的一部分。

在这里插入图片描述

3 特征提取

图像的纹理特征可以描述物体特有的属性,用以区别其他物体。纹理特征总体可分为空域和频域两大类。在本文算法中,我们采用的纹理特征均属于空域的纹理特征,也是局部特征,它们分别是多分辨率直方图特征、局部二值模式特征和边缘方向直方图特征。

多分辨率直方图特征具备旋转无关的特点。这种纹理特征保留了灰度直方图特征计算简单和保存方便的特点。同时它又可以描述纹理的局部信息,弥补了传统的灰度直方图特征的缺点。

局部二值模式特征是一种计算复杂度较低的局部特征,它具有明暗无关和旋转无关的特点。
边缘方向直方图特征与全局的光照变化是无关的,它可以提取出二维条形码纹理的几何特点。

4 特征分类

学长开发的算法所使用的分类器为自适应 Spatialboost 算法,这是对 Spatialboost
算法的一个改进。使用这个分类器是由二维条形码的特点以及我们算法框架的特点所决定的。由于我们把原始输入图像分为若干大小固定的图像子块,属于二维条形码的图像子块在空间上有很强的关联性,或者说这些属于二维条形码的图像子块都是紧密相邻的。同时由于图像子块的尺寸不大,它所包含的信息量相对较少,有的时候就很难把属于二维条形码的图像子块和属于背景的图像子块区分开(它们在特征空间上可能重叠)。如果我们可以利用子块在空间上的联系,把空间信息加入到分类器中,将有利于提高分类器的准确率。

适应 Spatialboost
算法可以同时利用纹理特征以及子块在空间上的联系,在训练过程中,将纹理特征和空间信息自适应的结合起来训练分类器。这样,当前处理的子块的分类结果不仅依赖于它自己的纹理特征,还和它周围子块的分类结果密切相关。当属于背景的图像子块的纹理特征很接近于属于二维条形码的图像子块时,我们还是可以依靠和它相邻的背景子块来对它做出正确的分类。

5 后处理

经过特征提取和特征分类两个模块后,我们得到了对图像子块的分类结果,但最后我们期望得到的是对二维条形码的包围盒。在我们的设置下,自适应Spatialboost
分类器对背景子块的分类相当严格,此时对属于二维条形码的图像子块会有部分漏检发生,

在这里插入图片描述

因此在后处理模块中,我们先使用一种自适应聚类算法,对分类后的结果进一步改进,来精确的覆盖整个二维条形码。特征分类后定位到的子块的大小为
25×25,我们把这些子块再划分为 10×10 的小方块。接着以得到的 10×10 的子块为种子,用子块灰度值的方差为衡量标准往外聚类,聚类时的阈值设定为:

在这里插入图片描述

其中 M 是聚类开始时作为种子的子块的个数,k 为调整系数,在本文算法中 k设置为 0.5,Var 和 Mean
分别表示子块灰度值的均值和方差。由公式(3-1)可知,每幅图像的聚类阈值是自适应的计算得来的。聚类开始时首先从种子子块出发,计算它们周围的子块的灰度值方差,如果大于聚类阈值就把它标识为属于二维条形码,重复这个过程直到周围再没有子块符合聚类条件。图
3-5
是聚类算法的部分结果,第一行的图像是特征分类后的结果,准确的定位到了一部分二维条形码,但是没有完全的覆盖整个二维条形码,不利于我们输出最后的定位包围盒。第二行为聚类后的结果,可以看到小块几乎完全覆盖了整个二维条形码,此时再把这些小块合并为一个平行四边形就很方便了。

在这里插入图片描述

聚类后定位出来的小块基本上覆盖了整个二维条形码,最后我们只需要把定位出的小包围盒合并为大包围盒,并输出最后的定位结果。整个后处理流程见图

在这里插入图片描述

6 代码实现

这里演示条形码的检测效果:
在这里插入图片描述

关键部分代码实现:


# import the necessary packages
import numpy as np
import argparse
import cv2

# construct the argument parse and parse the arguments
# ap = argparse.ArgumentParser()
# ap.add_argument("-i", "--image", required = True, help = "path to the image file")
# args = vars(ap.parse_args())

# load the image and convert it to grayscale
image = cv2.imread('./images/2.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# compute the Scharr gradient magnitude representation of the images
# in both the x and y direction
gradX = cv2.Sobel(gray, ddepth = cv2.CV_32F, dx = 1, dy = 0, ksize = -1)
gradY = cv2.Sobel(gray, ddepth = cv2.CV_32F, dx = 0, dy = 1, ksize = -1)

# subtract the y-gradient from the x-gradient
gradient = cv2.subtract(gradX, gradY)
gradient = cv2.convertScaleAbs(gradient)

# blur and threshold the image
blurred = cv2.blur(gradient, (9, 9))
(_, thresh) = cv2.threshold(blurred, 225, 255, cv2.THRESH_BINARY)

# construct a closing kernel and apply it to the thresholded image
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (21, 7))
closed = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel)

# perform a series of erosions and dilations
closed = cv2.erode(closed, None, iterations = 4)
closed = cv2.dilate(closed, None, iterations = 4)

# find the contours in the thresholded image, then sort the contours
# by their area, keeping only the largest one
(cnts, _) = cv2.findContours(closed.copy(), cv2.RETR_EXTERNAL,
	cv2.CHAIN_APPROX_SIMPLE)
c = sorted(cnts, key = cv2.contourArea, reverse = True)[0]

# compute the rotated bounding box of the largest contour
rect = cv2.minAreaRect(c)
box = np.int0(cv2.boxPoints(rect))

5 最后

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1474130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营第六十天|84.柱状图中最大的矩形

题目&#xff1a;84.柱状图中最大的矩形 文章链接&#xff1a;代码随想录 视频链接&#xff1a;LeetCode:84.柱状图中最大的矩形 题目链接&#xff1a;力扣题目链接 图释&#xff1a; class Solution { public:int largestRectangleArea(vector<int>& heights) {…

qtcreator-ros 安装记录

文章目录 ros_qtc_pluginros_qt_demo参考链接ros_qtc_plugin ROS Qt Creator 插件是专门为 ROS 开发的,通过简化任务和为 ROS 工具创建集中位置来提高开发人员的效率。由于它建立在Qt Creator平台之上,用户可以访问其所有现有功能,例如:语法高亮,代码索引,编辑器(C++,…

图像的压缩感知的MATLAB实现(第3种方案)

前面介绍了两种不同的压缩感知实现&#xff1a; 图像压缩感知的MATLAB实现&#xff08;OMP&#xff09; 压缩感知的图像仿真&#xff08;MATLAB源代码&#xff09; 上述两种方法还存在着“速度慢、精度低”等不足。 本篇介绍一种新的方法。 压缩感知&#xff08;Compressed S…

Spark集群搭建的三种方式详解

国科大学习生活&#xff08;期末复习资料、课程大作业解析、学习文档等&#xff09;: 文章专栏&#xff08;点击跳转&#xff09; 大数据开发学习文档&#xff08;分布式文件系统的实现&#xff0c;大数据生态圈学习文档等&#xff09;: 文章专栏&#xff08;点击跳转&#xff…

MCU独立按键单控LED实现

##江科大视频学习&#xff0c;并且对具体的一些小细节进行更详细的分析。 什么是独立按键&#xff1f; 轻触按键:相当于是一种电子开关&#xff0c;按下开头接通&#xff0c;松开时开头断开&#xff0c;实现原理是通过轻触按键内部的金属弹片受力弹动来实现接通和断开。 注意…

骨传导蓝牙耳机哪个牌子好?揭秘六大黄金法则与避坑技巧!

随着科技的发展&#xff0c;蓝牙耳机已经成为音乐爱好者的首选&#xff0c;尤其是传统的入耳式和头戴式耳机&#xff0c;它们在音质表现上有着出色的还原度。但这两种耳机在使用场景上存在一定的限制&#xff0c;特别是在运动场景下&#xff0c;它们的便捷性和舒适性有所欠缺。…

【pytorch】常用代码

文章目录 条件与概率torch.tensor()torch.rand()torch.randn()torch.randint()torch.multinominal() 逻辑运算torch.argmax()torch.max()torch.sum()torch.tanh()torch.pow() 功能性操作 torch.nn.functionalF.normalize()F.elu()F.relu()F.softmax() 张量计算torch.zeros()tor…

数据绘画:如何利用AI揭示大数据的美丽图景

目录 前言 数据艺术形式 数据理解 数据图像化争议 前言 大数据已经成为当今社会的一个关键词。大数据不仅仅是庞大的数字和统计数据的堆积&#xff0c;更是一个充满潜力的资源&#xff0c;可以揭示出丰富多彩的图景。在这个数字时代&#xff0c;人工智能&#xff08;AI&…

Dledger部署RocketMQ高可用集群(9节点集群)

文章目录 &#x1f50a;博主介绍&#x1f964;本文内容规划集群准备工作节点0配置&#xff08;ip地址为192.168.80.101的机器&#xff09;节点1配置&#xff08;ip地址为192.168.80.102的机器&#xff09;节点2配置&#xff08;ip地址为192.168.80.103的机器&#xff09;在所有…

Ethernet/IP转Modbus TCP网关

产品功能 1 YC-EIP-TCP工业级EtherNet/IP 网关 2 Modbus TCP 转 EtherNet/IP 3支持ModBus主从站 4 即插即用 无需编程 轻松组态 ,即实现数据交互 5导轨安装 支持提供EDS文件 6 EtherNET/IP与ModBus互转数据透明传输可接入PLC组态 支持CodeSys/支持欧姆龙PLC 支持罗克韦尔(AB) 典…

M.2接口 KEY A、B、E、M介绍

参考&#xff1a;M.2、mSATA、NGFF、miniPCI-e接口引脚定义_m.2接口定义-CSDN博客 https://www.mouser.com/datasheet/2/418/9/ENG_DS_1_1773702_1NGFFQRG_EN_0214_1_1773702_1NGFF_-3328389.pdf 抖动的声音&#xff1a;dilo_Abel 视频号&#xff1a;dilo_Abel的个人空间-di…

【MATLAB】小波 MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 小波MFE_SVM_LSTM神经网络时序预测算法是一种结合了小波变换、多尺度特征提取&#xff08;MFE&#xff09;、支持向量机&#xff08;SVM&#xff09;和长短期记忆神经网络&#xff08;LST…

Vue3前端实现一个本地消息队列(MQ), 让消息延迟消费或者做缓存

MQ功能实现的具体代码(TsMQ.ts)&#xff1a; import { v4 as uuidx } from uuid;import emitter from /utils/mitt// 消息类 class Message {// 过期时间&#xff0c;0表示马上就消费exp: number;// 消费标识&#xff0c;避免重复消费tag : string;// 消息体body : any;constr…

Stable Diffusion 绘画入门教程(webui)-ControlNet(Shuffle)

Shuffle(随机洗牌)&#xff0c;这个预处理器会把参考图的颜色打乱搅拌到一起&#xff0c;然后重新组合的方式重新生成一张图&#xff0c;可以想象出来这是一个整体风格控制的处理器。 那么问题来了&#xff0c;官方为啥会设计个这样的处理器呢&#xff0c;主要是给懒人用的&am…

谷歌发布世界模型,能生成可交互虚拟世界;华为发布全球首个 5.5G 智能核心网丨 RTE 开发者日报 Vol.152

开发者朋友们大家好&#xff1a; 这里是「RTE 开发者日报」&#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE &#xff08;Real Time Engagement&#xff09; 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

跨越人生的河流,重温读书的时光—社科院与杜兰大学金融管理硕士

我们都曾有过读书的时光&#xff0c;那些曾经的岁月&#xff0c;或许已经远去&#xff0c;但读书带给我们的影响却永远不会消失。它不仅让我们获取了知识&#xff0c;更让我们学会了思考、表达和沟通。这些能力在我们日后的工作和生活中发挥着巨大的作用&#xff0c;让我们更加…

【Android移动开发】Windows10平台安装Android Studio与人工智能算法模型部署案例

目录 一、Android Studio下载地址二、开发环境JDK三、开始安装Android Studio四、案例展示与搭建五、人工智能算法模型移动端部署案例参考 一、Android Studio下载地址 https://developer.android.google.cn/studio/install.html 电脑配置要求&#xff1a; 下载保存在指定文…

【Python笔记-设计模式】命令模式

一、说明 命令模式是一种行为设计模式&#xff0c;旨在对命令的封装&#xff0c;根据不同的请求将方法参数化、延迟请求执行或将其放入队列中&#xff0c;且能实现可撤销操作。 (一) 解决问题 将请求发送者和接受者解耦&#xff0c;请求发送者只需知道如何发送请求&#xff…

P1450 [HAOI2008] 硬币购物 dp 容斥 —— s - c[i]*(d[i]+1)怎么理解

[HAOI2008] 硬币购物 - 洛谷 看了洛谷许多题解&#xff0c;一开始理解不了为什么是 s - c[i]*(d[i]1)&#xff0c;为什么要1呢&#xff1f; 其实是dp理解的不好。 这里的意思就是该枚硬币先超过限制&#xff0c;接下来剩下的背包也要填满&#xff0c;4种硬币随便组合的情况数…

Open CASCADE学习|视图

目录 Mainwin.h Mainwin.cpp Mainwin.h ​#pragma once#include <QtWidgets/QMainWindow>#include "Displaywin.h"#include "OCC.h"class Mainwin : public QMainWindow{ Q_OBJECTpublic: Mainwin(QWidget* parent nullptr); ~Mainwin();​pri…