机器学习：opencv--摄像头OCR

news2025/4/27 6:08:05

前言

一、三个函数

1.显示图像

2.点排序

3.透视变换

二、代码实例

1.打开摄像头

2.图像预处理

3.检测特定轮廓

4.对轮廓进行处理

5.释放资源

前言

摄像头OCR指的是利用摄像头捕捉图像中的文字信息，并通过光学字符识别（OCR）技术将其转换为可编辑的文本。

一、三个函数

1.显示图像

def cv_show(name, img):
    cv2.imshow(name, img)
    cv2.waitKey(60)

2.点排序

接收传入的坐标（为轮廓的四个顶点），

对每一行进行求和，
1. 最小值是该轮廓的左上角，
2. 最大值是右下角，
对每一行进行求差，
1. 最小的是右上角，
2. 最大的是右下角，
按照左上，右上，右下，左下的顺序填入rect矩阵

def order_points(pts):
    # 共4个坐标点
    rect = np.zeros((4, 2), dtype="float32")  # 用来存储排序之后的坐标位置
    # 按顺序找到对应坐标 0 1 2 3 分别是左上,右上,右下,左下
    s = pts.sum(axis=1)  # 对pts矩阵的每一行进行求和操作。 (x+y)
    rect[0] = pts[np.argmin(s)]
    rect[2] = pts[np.argmax(s)]
    diff = np.diff(pts, axis=1)  # 对pts矩阵的每一行进行求差操作。(y-x)
    rect[1] = pts[np.argmin(diff)]
    rect[3] = pts[np.argmax(diff)]
    return rect

3.透视变换

获取排序之后的点坐标
计算该轮廓的宽和高的较大值，当做变换之后的图像宽高
通过cv2.getPerspectiveTransform方法计算透视变换矩阵
再通过cv2.warpPerspective方法获取透视变换之后的图像

def four_point_transform(image, pts):
    # 获取输入坐标点
    rect = order_points(pts)
    (tl, tr, br, bl) = rect

    # 计算输入的w和h的值  欧式距离公式
    widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))
    widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))
    maxWidth = max(int(widthA), int(widthB))

    heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))
    heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
    maxHeight = max(int(heightA), int(heightB))

    # 变换后对应坐标位置
    dst = np.array([[0, 0], [maxWidth - 1, 0],
                    [maxWidth - 1, maxHeight - 1], [0, maxHeight - 1]], dtype="float32")
    # 计算透视变换矩阵
    M = cv2.getPerspectiveTransform(rect, dst)
    # 应用透视变换
    warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))  # 返回变换后结果
    return warped

二、代码实例

1.打开摄像头

参数为0 则用电脑自带摄像头
参数为1 则用外接摄像头
若摄像头未被打开则输出Cannot open camera

cap = cv2.VideoCapture(0)  # 确保摄像头是可以启动的状态  电脑自带摄像头用0 外接的用1
if not cap.isOpened():
    print("Cannot open camera")
    exit()

2.图像预处理

打开摄像头之后，读取每一帧的画面并显示
转换成灰度图，进行高斯滤波处理，
然后使用Canny算子进行边缘检测并显示，
再对边缘检测之后的图像进行轮廓检测，
只取轮廓大小前十的轮廓将其画出来，并显示

while True:
    flag = 0  # 标识符 当前是否检测到文档
    ret, image = cap.read()
    orig = image.copy()
    if not ret:
        print('不能读取摄像头')
        break
    cv_show('image', image)

    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

    gray = cv2.GaussianBlur(gray, (5, 5), 0)
    edged = cv2.Canny(gray, 75, 200)
    cv_show('1', edged)

    cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)[1]

    cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:10]
    image_contours = cv2.drawContours(image, cnts, -1, (0, 255, 0), 2)
    cv_show('image_contours', image_contours)

输出：

3.检测特定轮廓

遍历上述获取的轮廓
对轮廓进行近似处理，并获取其特征点集
判断轮廓面积大于20000 并且特征点集只有4个

    for c in cnts:
        peri = cv2.arcLength(c, True)  # 计算轮廓的周长
        # True表示是否选择封闭轮廓
        approx = cv2.approxPolyDP(c, 0.05 * peri, True)  # 返回轮廓点集
        area = cv2.contourArea(approx)

        if area > 20000 and len(approx) == 4:
            screenCnt = approx
            flag = 1
            print(peri, area)
            print('检测到文档')
            break

4.对轮廓进行处理

如果在画面中获取到了符合条件的轮廓
就在原图上画出该轮廓
并将该轮廓图像进行透视变换并显示
最后对其进行二值化处理并显示

    if flag == 1:
        image_contours = cv2.drawContours(image, [screenCnt], 0, (0, 255, 0), 2)
        cv_show('image', image_contours)

        warped = four_point_transform(orig, screenCnt.reshape(4, 2))
        cv_show('warped', warped)

        warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)
        ref = cv2.threshold(warped, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
        cv2.imshow('ref', ref)
        cv2.waitKey(0)

输出：

5.释放资源

最后循环结束之后记得释放资源

cap.release()  # 释放捕获器
cv2.destroyAllWindows()  # 关闭图像窗口

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2181041.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

机器学习：opencv--摄像头OCR

前言

一、三个函数

1.显示图像

2.点排序

3.透视变换

二、代码实例

1.打开摄像头

2.图像预处理

3.检测特定轮廓

4.对轮廓进行处理

5.释放资源

相关文章

遥感图像文本检索

【刷点笔试面试题试试水】#ifndef和#ifdef有什么区别?

828华为云征文｜华为云Flexus X实例性能实测：速度与稳定性的完美结合

828华为云征文｜华为云Flexus云服务器X实例部署——盲盒抽奖商城系统以及编译发布小程序

OpenGL ES 着色器(5)

软件设计师——计算机网络

Jetbrains 推出 CodeCanvas：云开发时代的未来已来

计算机毕业设计二手图书交易系统的设计与实现 Java实战项目附源码+文档+视频讲解

DRF实操——项目部署

Linux工具的使用——yum和vim的理解和使用

修复: Flux女生脸不再油光满面, 屁股下巴 -- 超实用Comfyui小技巧

rdp远程桌面服务协议概述

2024重生之回溯数据结构与算法系列学习（10）【无论是王道考研人还是IKUN都能包会的；不然别给我家鸽鸽丢脸好嘛？】

[Uninstall] 软件彻底卸载工具的下载及详细安装使用过程（附有下载文件）

计算机毕业设计基于Python高校岗位招聘和分析平台的设计与实现 Python+Django+Vue 前后端分离附源码讲解文档

一篇文章快速学会docker容器技术

YOLOv8改进 | 主干篇，YOLOv8改进主干网络为华为的轻量化架构GhostNetV1

【C++算法】8.双指针_三数之和

DolphinScheduler 资源中心无法上传大文件

智慧应急指挥平台1+6+N体系建设方案