【Halcon】例程讲解:基于形状匹配与OCR的多图像处理(附图像、程序下载链接)

news2025/2/7 14:42:49
1. 开发需求
  • 在参考图像中定义感兴趣区域(ROI),用于形状匹配和文本识别。
  • 通过形状匹配找到图像中的目标对象位置。
  • 对齐多幅输入图像,使其与参考图像保持一致。
  • 在对齐后的图像上进行OCR识别,提取文本和数字信息。
  • 以循环方式批量处理多张图像。

2. 程序逻辑与流程
(1)程序思路流程

程序整体流程分为以下几个主要步骤:

  1. 初始化模块

    • 关闭窗口自动刷新、加载参考图像、初始化显示环境。
    • 显示交互式提示信息。
  2. 定义ROI模块

    • 定义两个感兴趣区域:
      • 模型ROI:用于裁剪图像,供形状匹配模型使用。
      • 文本ROI:用于OCR识别,定位目标文本区域。
  3. 模型创建模块

    • 创建并训练形状匹配模型,用于后续的目标匹配与定位。
    • 加载OCR模型,支持对文本和数字的识别。
  4. 形状匹配与对齐模块

    • 在参考图像中,利用形状匹配找到目标位置,获取其变换矩阵。
    • 在多张输入图像中重复上述过程,并对图像进行对齐。
  5. OCR识别模块

    • 在对齐后的图像中,裁剪文本ROI,并使用OCR模型提取文本。
  6. 循环处理模块

    • 通过循环批量处理多张图像,逐一完成形状匹配、图像对齐和OCR识别。
  7. 程序结束

    • 显示完成提示,并关闭窗口,释放资源。
(2)流程图

以下是程序的流程图,展示了程序的逻辑和模块的操作步骤:

+-------------------------+
|    初始化与加载图像     |
+-----------+-------------++--------------------------+
|     定义模型与文本ROI    |
+-----------+-------------++--------------------------+
|     创建并训练形状模型    |
|     加载OCR识别模型      |
+-----------+-------------++--------------------------+
| 在参考图像中匹配目标并获取 |
|     变换矩阵 (HomMat2D)   |
+-----------+-------------++--------------------------+
|   循环处理多张图像       |
| 1. 加载图像              |
| 2. 形状匹配,计算变换矩阵 |
| 3. 图像对齐              |
| 4. OCR文本识别           |
| 5. 显示匹配与识别结果     |
+-----------+-------------++--------------------------+
|       显示完成提示       |
|        结束程序          |
+--------------------------+

3. 程序功能实现与代码讲解
模块划分与关键代码
(1)初始化模块

在程序的开头,我们需要完成以下工作:

  • 关闭窗口自动刷新和已有窗口资源。
  • 加载参考图像并获取其尺寸,用于初始化显示窗口。
  • 显示操作提示信息,为用户提供交互式说明。

关键代码:

dev_update_window ('off')   
dev_close_window ()         
read_image (ReferenceImage, 'board/board_01')  
get_image_size (ReferenceImage, Width, Height)  
initialize_visualization (Width / 2, Height / 2, WindowHandle, WindowHandleText)  
disp_continue_message (WindowHandle, 'black', 'true')  
disp_description_text (WindowHandleText)  

(2)定义ROI模块

ROI(Region of Interest,感兴趣区域)分为两部分:

  • 模型ROI: 用于裁剪参考图像,提取目标对象的形状信息,供形状匹配模型使用。
  • 文本ROI: 用于OCR识别,定位目标文本区域。

关键代码:

gen_rectangle1 (ROIModel, 60, 535, 185, 900)  
* 定义模型区域ROI,用于形状匹配

gen_rectangle1 (ROIText, 445, 585, 590, 765)  
* 定义文本识别区域ROI,用于OCR

(3)模型创建模块

在参考图像中,我们基于模型ROI裁剪图像,提取目标区域的形状信息。之后,通过 create_generic_shape_modeltrain_generic_shape_model 创建并训练形状模型。

同时,加载OCR模型,后续将用于文本识别。

关键代码:

reduce_domain (ReferenceImage, ROIModel, ModelImage)  
create_generic_shape_model (ModelHandle)  
train_generic_shape_model (ModelImage, ModelHandle)  

create_text_model_reader ('auto', 'Industrial_0-9A-Z_Rej.omc', TextModel)  
* 加载工业字体OCR模型

(4)形状匹配与对齐模块
  • 在参考图像中,通过形状匹配找到目标对象,获取其位置信息和变换矩阵。
  • 在输入图像中重复形状匹配,并结合参考图像的变换矩阵对图像进行对齐。

对齐操作的核心是变换矩阵的计算与应用。通过矩阵反转和组合,完成从输入图像到参考图像的对齐。

关键代码:

find_generic_shape_model (ReferenceImage, ModelHandle, MatchResultID, Matches)  
get_generic_shape_model_result (MatchResultID, 'all', 'hom_mat_2d', HomMat2DModel)  
* 获取参考图像中目标的位置和变换矩阵

find_generic_shape_model (SearchImage, ModelHandle, MatchResultID, Matches)  
get_generic_shape_model_result (MatchResultID, 'all', 'hom_mat_2d', HomMat2DMatch)  

hom_mat2d_invert (HomMat2DMatch, HomMat2DMatchInvert)  
* 计算逆变换矩阵

hom_mat2d_compose (HomMat2DModel, HomMat2DMatchInvert, TransformationMatrix)  
affine_trans_image (SearchImage, ImageAffineTrans, TransformationMatrix, 'constant', 'false')  
* 对当前图像进行对齐

(5)OCR识别模块

在对齐后的图像上,使用OCR模型提取文本信息:

  • 裁剪对齐图像到文本ROI。
  • 使用 find_text 查找文本对象,并获取识别结果。
  • 显示识别的字符区域和对应的文本。

关键代码:

reduce_domain (ImageAffineTrans, ROIText, ImageOCR)  
find_text (ImageOCR, TextModel, TextResultID)  
* 使用OCR识别对齐图像中的文本

get_text_object (Characters, TextResultID, 'all_lines')  
get_text_result (TextResultID, 'class', RecognizedText)  

disp_finding_text (Characters, WindowHandle, WindowHandleText, RecognizedText)  
* 显示识别的文本结果

(6)循环处理模块

利用 for 循环,实现多张图像的批量处理。每次循环中:

  1. 加载输入图像。
  2. 执行形状匹配,计算变换矩阵。
  3. 对齐图像,并在对齐后进行OCR识别。
  4. 显示识别结果。

关键代码:

for i := 1 to 9 by 1  
    read_image (SearchImage, 'board/board_' + i$'02')  
    * 读取序列图像

    find_generic_shape_model (SearchImage, ModelHandle, MatchResultID, Matches)  
    affine_trans_image (SearchImage, ImageAffineTrans, TransformationMatrix, 'constant', 'false')  

    reduce_domain (ImageAffineTrans, ROIText, ImageOCR)  
    find_text (ImageOCR, TextModel, TextResultID)  

    disp_finding_text (Characters, WindowHandle, WindowHandleText, RecognizedText)  
    * 显示识别的文本结果
endfor  

4. 总结

本程序通过模块化设计,实现了从形状匹配到OCR文本识别的完整流程:

  • 利用形状匹配技术,完成图像的精确对齐。
  • 结合OCR模型,提取对齐图像中的文本信息。
  • 支持批量图像处理,适合工业检测和自动化识别场景。
5. 下载链接
通过网盘分享的文件:主板文本检测(模板匹配+OCR)
链接: https://pan.baidu.com/s/16bGZs9B9xLrdW64jHvTqEg?pwd=jkcf 提取码: jkcf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【UE5.3.2】生成vs工程并rider打开

Rider是跨平台的,UE也是,当前现在windows上测试首先安装ue5.3.2 会自动有右键的菜单: windows上,右键,生成vs工程 生成的结果 sln默认是vs打开的,我的是vs2022,可以open with 选择 rider :Rider 会弹出 RiderLink是什么插

力扣刷题:单链表OJ篇(下)

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 目录 1.环形链表(1)题目描述…

如何在idea中搭建SpringBoot项目

如何在idea中快速搭建SpringBoot项目 目录 如何在idea中快速搭建SpringBoot项目前言一、环境准备:搭建前的精心布局 1.下载jdk (1)安装JDK:(2)运行安装程序:(3)设置安装…

(源码)校园闲置交易管理系统 P10111 计算机毕业设计

项目说明 本号所发布的项目均由我部署运行验证,可保证项目系统正常运行,以及提供完整源码。 如需要远程部署/定制/讲解系统,可以联系我。定制项目未经同意不会上传! 项目源码获取方式放在文章末尾处 注:项目仅供学…

ID读卡器UDP协议Delphi7小程序开发

如下是小程序主页面: 代码如下: function isrightint(textls:string):boolean;stdcall; begintryif(strtoint(textls) 0) thenbeginend;result : True;exceptresult : False;exit;end; end; procedure TForm1.Button9Click(Sender: TObject); varsendbu…

内部类(1)

大家好,今天我们来学习一下内部类,内部类也是封装的体现,那么我们便来看看它的内容吧。 9、内部类 当一个事物的内部,还有一个部分需要一个完整的结构进行描述,而这个内部的完整的结构又只为外部事物提供服务,那么这个内部的完整结构最好使用…

永磁同步电机无速度算法--自适应全阶滑模观测器

一、原理介绍 提出了一种改进型全阶滑模观测器的无位置传感器控制方法。首先,以准符号函数作为滑模控制函数,达到削弱抖振和提高反电动势估计性能的目的;其次,设计与电机转速相关的自适应滑模增益,以避免电机转速变化…

微软远程桌面APP怎么用

微软远程桌面(Remote Desktop)客户端(RD Client)是一款由微软开发的应用程序,允许用户通过网络连接远程访问和控制另一台计算机。同时,微软远程桌面RD Client支持多种设备和操作系统,包括Window…

phidata快速开始

文章目录 什么是phidata主要特点 安装官方demo创建一个 Web 搜索代理 PhiData开发workflow应用ToolsAgent UI 什么是phidata github: https://github.com/phidatahq/phidata 官方文档:https://docs.phidata.com/introduction Phidata is a framework for building…

考研互学互助系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库…

王佩丰24节Excel学习笔记——第二十三讲:饼图美化与PPT图表

【以 Excel2010 系列学习,用 Office LTSC 专业增强版 2021 实践】 【本章技巧】 主次坐标柱形避让,做成左右两条柱型图的显示;饼图最多只能做2层,超过2层要使用环型图做,饼图与环形图结合可以做多层,注意&a…

从虚拟到现实:AI与AR/VR技术如何改变体验经济?

引言:体验经济的崛起 在当今消费环境中,产品与服务早已不再是市场竞争的唯一焦点,能够提供深刻感知和独特体验的品牌,往往更能赢得消费者的青睐。这种转变标志着体验经济的崛起。体验经济不仅仅是简单的买卖行为,而是通…

最新SQL Server 2022保姆级安装教程【附安装包】

目录 一、安装包下载: 下载链接:https://pan.quark.cn/s/b1c0c63d61ec 二、安装SQL Server 1.下载安装包后解压出来,双击打开 2.等待加载安装程序 3.点击基本安装 4.点击接受 5.点击浏览 6.在D盘新建文件夹 7.命名为【Sql Server】…

【GeekBand】C++设计模式笔记17_Mediator_中介者模式

1. “接口隔离” 模式 在组件构建过程中,某些接口之间直接的依赖常常会带来很多问题,甚至根本无法实现。采用添加一层间接(稳定)接口,来隔离本来互相紧密关联的接口是一种常见的解决方案。典型模式 FacadeProxyAdapte…

腾讯音乐:说说Redis脑裂问题?

Redis 脑裂问题是指,在 Redis 哨兵模式或集群模式中,由于网络原因,导致主节点(Master)与哨兵(Sentinel)和从节点(Slave)的通讯中断,此时哨兵就会误以为主节点…

WebSocket实现直播弹幕滚动推送效果

WebSocket 弹幕滚动推送 WebSocket 通信协议优点实现过程详细解析1. 初始化 WebSocket 连接2. WebSocket 事件回调2.2 连接错误 (onerror)2.3 接收到消息 (onmessage)2.4 连接关闭 (onclose)3. 心跳检测机制4. WebSocket 重新连接机制5. 滚动加载和历史数据 总结代码示例 WebS…

【C++】球弹跳高度的计算:思路分析与优化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述输入格式输出格式输入输出示例 💯两种代码实现及其对比我的代码实现代码分析优点与不足 老师的代码实现代码分析优点与不足 💯两种实现的对…

ASP.NET Core Web API Hangfire

ASP.NET Core Web API Hangfire 前言一、安装二、相关代码1.代码片段2.代码片段3.运行效果 三、测试代码1.即发即弃作业2.延迟作业3.重复作业4.延续作业5.页面调度作业 前言 👨‍💻👨‍🌾📝记录学习成果,以…

智慧园区小程序开发制作功能介绍

智慧园区小程序开发制作功能介绍 智慧园区小程序系统作为一款面向园区企业的一站式线上服务平台,可为企业提供数智化的园区办公服务。智慧园区小程序功能介绍 1、园区公告、政策信息查看足不出户掌握最新动态,“园区公告、政策信息”等信息。首页点击对应…

Three.js Journey (notes)

Ref Three.js中文网 Three.js Journey — Learn WebGL with Three.js Part 1 first-threejs-project 1. build tools ①vite vs webpack do a bunch of things like optimizations,cache breaking,source mapping,running a local server,etc. build tool vite (most appr…