计算机视觉的应用15-图片旋转验证码的角度计算模型的应用,解决旋转图片矫正问题

news2024/12/23 19:28:59

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用15-图片旋转验证码的角度计算模型的应用,解决旋转图片矫正问题,在CV领域,图片旋转验证码的角度计算模型被广泛应用于解决旋转图片矫正问题,有效解决机器识别图片验证码的问题。旋转图片验证码常用于验证用户身份,但由于图片可能被以不同角度旋转,识别难度比较大。本文提出了一种基于深度学习的角度计算模型,能够准确估计旋转图片的角度,通过旋转角度进行自动矫正。
本文已经通过使用深度卷积神经网络对旋转图片进行特征提取和表示学习,从而获得高层抽象表示。通过添加回归头,利用旋转角度标签数据进行训练,使模型能够预测旋转图片的角度。实验结果表明,我们提出的模型在多个数据集上取得了优秀的性能,能够有效解决旋转图片矫正问题。该模型具有良好的鲁棒性和广泛的适应性,可在实际应用中提高验证码的识别准确率和用户体验。

在这里插入图片描述

一、数据集怎么生成的

我将采用以下的步骤进行:

1.首先我们可以选择下载大批量的风景图片,然后进行图片处理。

2.利用opencv将图片用圆形进行截取,生成圆形图片.

3.对圆形图片进行随机从60度-180度之间进行旋转,并保存为字典数据:包含裁剪后的图片地址和旋转角度标签的值,代码如下:

import cv2
import numpy as np

def crop_to_circle(image_path):
    # 加载图像
    image = cv2.imread(image_path)

    # 创建一个与图像大小相同的黑色背景
    mask = np.zeros_like(image)

    # 获取图像的中心点坐标
    height, width, _ = image.shape
    center = (width // 2, height // 2)

    # 定义半径为图像宽高中的较小值
    radius = min(center[0], center[1])

    # 在mask上绘制一个白色圆形区域
    cv2.circle(mask, center, radius, (255, 255, 255), -1)

    # 将mask作为掩模,将图像与掩模进行按位与操作
    masked_image = cv2.bitwise_and(image, mask)

    cropped_image =  "circular_cropped_image.jpg"
    # 保存裁剪后的图像
    cv2.imwrite(cropped_image, masked_image)

    # 随机生成旋转角度
    random_angle = np.random.randint(60, 181)

    # 对图像进行旋转
    M = cv2.getRotationMatrix2D(center, random_angle, 1.0)
    rotated_image = cv2.warpAffine(masked_image, M, (width, height))

    # 显示结果
    cv2.imshow("Original Image", image)
    cv2.imshow("Circular Cropped + Rotated Image", rotated_image)

    # 保存裁剪加旋转后的图像
    rotated_image_path = "rotated_image.jpg"
    cv2.imwrite(rotated_image_path, rotated_image)

    cv2.waitKey(0)
    cv2.destroyAllWindows()

    return cropped_image, rotated_image_path,random_angle

# 使用示例
image_path = "111.png"
cropped_image,rotated_image_path,random_angle = crop_to_circle(image_path)

# 保存图片地址和旋转角度标签的字典数据
data = {
    "image_path":"111.png",
    'cropped_image':cropped_image,
    "rotated_path": rotated_image_path,
    "rotation_angle": random_angle
}
print(data)

在这里插入图片描述

二、旋转图片识别原理

假设我们有一张图片,我们想要将其逆时针旋转一个角度为 θ θ θ。我们可以将旋转过程分解为以下几个步骤:

1.坐标平移:将图片的中心点移到原点 ( 0 , 0 ) (0, 0) (0,0)处。我们可以将每个像素点的坐标减去图片中心的坐标,使得图片的中心对齐原点。

2.旋转变换:对于每个像素点 P ( x , y ) P(x, y) P(x,y),应用旋转矩阵变换来计算新的坐标 P ′ ( x ′ , y ′ ) P'(x', y') P(x,y)。旋转矩阵表示为:

R ( θ ) = [ cos ⁡ ( θ ) − sin ⁡ ( θ ) sin ⁡ ( θ ) cos ⁡ ( θ ) ] R(\theta) = \begin{bmatrix} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{bmatrix} R(θ)=[cos(θ)sin(θ)sin(θ)cos(θ)]

其中, θ θ θ是旋转角度, cos ⁡ \cos cos sin ⁡ \sin sin是余弦和正弦函数。

3.坐标平移:将图片的中心点移到原来的位置。我们可以将每个像素点的坐标加上图片中心的坐标,使得图片回到原来的位置。

4.插值处理:在旋转后的坐标上可能会出现小数点的坐标值,而像素点的坐标是整数。因此,我们需要使用插值方法来确定旋转后坐标上的像素值。常用的插值方法有最近邻插值、双线性插值等。

三、选用模型

本文主要采用resnet50的改造模型,模型的具体结构这边省略了,为了方便大家快速使用,这里提高训练好的模型下载:

链接:https://pan.baidu.com/s/1aJQ4OD6LwQlLlVwJsMj6aA?pwd=rypw
提取码:rypw

我们可以构建models文件夹,将resnet50_keras2.hdf5文件放入文件夹中。

代码实现:

from keras.applications.imagenet_utils import preprocess_input
from keras.models import load_model
from keras.optimizers import SGD
import keras.backend as K

import os
import math
import cv2
import numpy as np
import requests


class RotateCaptcha():
    def __init__(self):
        # 加载模型
        model_location = os.path.join('.', 'models', 'resnet50_keras2.hdf5')
        self.model = load_model(model_location, custom_objects={'angle_error': self.angle_error})
        self.model.compile(loss='categorical_crossentropy',
                           optimizer=SGD(lr=0.01, momentum=0.9),
                           metrics=[self.angle_error])
        # 图像长宽尺寸
        self.size = (224, 224)

    def showImg(self, image):
        '''
        展示图片
        '''
        cv2.imshow('image', image)
        cv2.waitKey(0)

    def getImgFromDisk(self, imgPath):
        image = cv2.imread(imgPath)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        return image

    def predictAngle(self, image):
        diameter = image.shape[0]  # 直径
        side_length = math.floor((diameter / 2) * 1.414)  # 圆内正方形最大边长
        cropped = math.floor((diameter - side_length) / 2)
        image = image[cropped:cropped + side_length, cropped:cropped + side_length]
        image = cv2.resize(image, self.size)

        image = np.expand_dims(image, axis=0)

        x = preprocess_input(image)
        y_pred = np.argmax(self.model.predict(x), axis=1)

        return y_pred[0]

    def rotate(self, image, angle):

        image_size = (image.shape[1], image.shape[0])
        image_center = tuple(np.array(image_size) / 2)

        # 将 OpenCV 3x2旋转矩阵转换为3x3
        rot_mat = np.vstack(
            [cv2.getRotationMatrix2D(image_center, angle, 1.0), [0, 0, 1]]
        )

        rot_mat_notranslate = np.matrix(rot_mat[0:2, 0:2])

        image_w2 = image_size[0] * 0.5
        image_h2 = image_size[1] * 0.5

        # 获取图像角点的旋转坐标
        rotated_coords = [
            (np.array([-image_w2, image_h2]) * rot_mat_notranslate).A[0],
            (np.array([image_w2, image_h2]) * rot_mat_notranslate).A[0],
            (np.array([-image_w2, -image_h2]) * rot_mat_notranslate).A[0],
            (np.array([image_w2, -image_h2]) * rot_mat_notranslate).A[0]
        ]

        # 查找新图像的大小
        x_coords = [pt[0] for pt in rotated_coords]
        x_pos = [x for x in x_coords if x > 0]
        x_neg = [x for x in x_coords if x < 0]

        y_coords = [pt[1] for pt in rotated_coords]
        y_pos = [y for y in y_coords if y > 0]
        y_neg = [y for y in y_coords if y < 0]

        right_bound = max(x_pos)
        left_bound = min(x_neg)
        top_bound = max(y_pos)
        bot_bound = min(y_neg)

        new_w = int(abs(right_bound - left_bound))
        new_h = int(abs(top_bound - bot_bound))


        trans_mat = np.matrix([
            [1, 0, int(new_w * 0.5 - image_w2)],
            [0, 1, int(new_h * 0.5 - image_h2)],
            [0, 0, 1]
        ])

        affine_mat = (np.matrix(trans_mat) * np.matrix(rot_mat))[0:2, :]


        result = cv2.warpAffine(
            image,
            affine_mat,
            (new_w, new_h),
            flags=cv2.INTER_LINEAR
        )

        return result

    def angle_difference(self, x, y):

        return 180 - abs(abs(x - y) - 180)

    def angle_error(self, y_true, y_pred):

        diff = self.angle_difference(K.argmax(y_true), K.argmax(y_pred))
        return K.mean(K.cast(K.abs(diff), K.floatx()))


if __name__ == '__main__':
    rotateCaptcha = RotateCaptcha()
    rotated_image = rotateCaptcha.getImgFromDisk('222.jpg')

    predicted_angle = rotateCaptcha.predictAngle(rotated_image)  # 预测还原角度
    print("需旋转角度:{}".format(predicted_angle))

    corrected_image = rotateCaptcha.rotate(rotated_image, -predicted_angle)  
    rotateCaptcha.showImg(corrected_image)

运行结果:
1/1 [==============================] - 1s 668ms/step
需旋转角度:51

生成结果会返回需要选择的角度,我们根据角度进行下一步的验证码旋转,进行验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1012589.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

腾讯mini项目-【指标监控服务重构】2023-07-20

今日已办 Trace otelzap &#xff1a;opentelemetry-go-extra/otelzap at main uptrace/opentelemetry-go-extra (github.com) go get github.com/uptrace/opentelemetry-go-extra/otelzap声明 Tracer &#xff0c;一个应用创建一个 Tracer &#xff08;需要从venus中来传来…

OGAI详解:AIStation调度平台如何实现大模型高效长时间持续训练

大模型是当前通用人工智能产业发展创新的核心技术&#xff0c;目前国内已发布的生成式AI模型超过了100个。面向以大模型为核心的生成式AI开发与应用场景&#xff0c;近日浪潮信息发布了大模型智算软件栈OGAI&#xff08;Open GenAI Infra&#xff09;——“元脑生智”&#xff…

【最新面试问题记录持续更新,java,kotlin,android,flutter】

最近找工作&#xff0c;复习了下java相关的知识。发现已经对很多概念模糊了。记录一下。部分是往年面试题重新整理&#xff0c;部分是自己面试遇到的问题。持续更新中~ 目录 java相关1. 面向对象设计原则2. 面向对象的特征是什么3. 重载和重写4. 基本数据类型5. 装箱和拆箱6. …

Java基础-异常处理

文章目录 异常机制的作用异常存在的形式 异常机制的作用 什么是异常&#xff0c;异常的作用&#xff1f;程序在执行的过程中发生了不正常的情况&#xff0c;而这种情况被称之为"异常"。Java语言是很完善的语言&#xff0c;提供了异常的处理方式&#xff1a;Java把异…

这所院校太好考了!地处魔都!不要错过!

一、学校及专业介绍 上海电力大学&#xff08;Shanghai University of Electric Power&#xff09;&#xff0c;位于上海市&#xff0c;是中央与上海市共建、以上海市管理为主的全日制普通高等院校&#xff0c;是教育部首批“卓越工程师教育培养计划”试点院校、上海高水平地方…

STM32单片机—定时器产生PWM波

STM32单片机—PWM波 PWM波概述定时器产生PWM配置CubeMX配置产生PWM波Hal库产生PWM实现呼吸灯程序设计固件库PWM波程序配置及实现 PWM波概述 什么是PWM   PWM简称脉冲宽度调制&#xff0c;即在一个周期内存在不同极性的电平状态。PWM频率   是指一秒钟内从高电平时间在到低…

如何用ATECLOUD芯片测试系统测试电源芯片的振荡频率?

芯片振荡频率常用于数字电路和模拟电路中&#xff0c;它是影响芯片运行速度的重要因素&#xff0c;其大小与内部电容器、电感、晶体等元件的特性有关。一款芯片生产出来后&#xff0c;它的振荡频率大小总是会在固定的范围之内。因此&#xff0c;芯片的振荡测试不仅需要抓取频率…

CANoe-Model Editor无法修改ARXML文件的问题、E2E在SOME/IP通信中的使用问题

1、Model Editor无法修改ARXML文件的问题 在CANoe 15软件版本中,Communication Setup导入arxml文件后,可以在model editor中打开arxml并修改配置。关闭model editor后再打开,可以看到修改的配置被保存了。 但是,当我把arxml文件从Communication Setup中移除后,再导入。此…

云原生Kubernetes:pod进阶之资源管理与探针

目录 一、理论 1.pod的资源限制 2.健康检查&#xff08;探针Probe) 3.示例 二、实验 1.pod的资源限制 2.健康检查&#xff08;探针Probe) 三、问题 1.生成资源报错 2.api版本错误 3.echo N>/proc/sys/vm/drop_caches如何实现清理缓存 四、总结 一、理论 1.pod的…

信息系统项目管理-IT治理与IT审计

IT治理 IT治理起到统筹&#xff0c;评估&#xff0c;指导&#xff0c;监督的作用&#xff1b; 目标包括&#xff1a;与业务目标一致&#xff0c;有效利用信息资源&#xff0c;风险管理 IT治理体系框架具体包括:IT战略目标、IT治理组织、IT治理机制、 IT治理域、IT治理标准和 …

文心一言 VS 讯飞星火 VS chatgpt (93)-- 算法导论9.2 1题

一、用go语言&#xff0c;证明&#xff1a;在 RANDOMIZED-SELECT 中&#xff0c;对长度为0的数组&#xff0c;不会进行递归调用。 文心一言&#xff1a; 在 Go 语言中&#xff0c;我们可以通过实现一个函数来检查数组的长度&#xff0c;如果长度为0&#xff0c;则不进行递归调…

【Docker】华为云服务器安装 Docker 容器

简介 Docker 是一个开源的应用容器引擎&#xff0c;基于 Go 语言 并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中&#xff0c;然后发布到任何流行的 Linux 机器上&#xff0c;也可以实现虚拟化。 容器是完全使用沙箱机…

MATLAB中islocalmin函数用法

目录 语法 说明 示例 向量中的局部最小值 矩阵行中的最小值 相隔最小值 最小值平台区 突出最小值 islocalmin函数的功能是计算局部最小值。 语法 TF islocalmin(A) TF islocalmin(A,dim) TF islocalmin(___,Name,Value) [TF,P] islocalmin(___) 说明 ​当在 A 的…

C#批量视频处理工具

主要功能&#xff1a; 视频去头去尾。给视频加水印&#xff0c;目前支持一次在不同位置加两个水印。视频画中画画面裁剪 因为搬运&#xff0c;所以需要批量化处理视频去重&#xff0c;抄CRV的作业开发的这个工具&#xff0c;目前我自己还算够用&#xff0c;当然&#xff0c;肯…

什么是无人机倾斜摄影?无人机倾斜摄影测量测绘中的应用有哪些?

无人机倾斜摄影是国际测绘遥感领域近年发展起来的一项高新技术&#xff0c;通过在同一飞行平台上搭载多台传感器&#xff0c;可以同时从垂直、倾斜等不同角度采集影像&#xff0c;获取地面物体更为完整准确的信息。无人机倾斜摄影测量技术以大范围、高精度、高清晰的方式全面感…

SpringMVC-----JSR303以及拦截器

目录 JSR303 什么是JSR303 JSR303的作用 JSR303常用注解 入门使用 拦截器是什么 拦截器的工作原理 拦截器的作用 拦截器的使用 JSR303 什么是JSR303 JSR303是Java为Bean数据合法性校验提供给的标准框架&#xff0c;已经包含在JavaEE6.0中1。 JSR303通过在Bean属性中标…

【送书活动】Photoshop——神秘生物的艺术创造与文化探索

前言 「作者主页」&#xff1a;雪碧有白泡泡 「个人网站」&#xff1a;雪碧的个人网站 「推荐专栏」&#xff1a; ★java一站式服务 ★ ★ React从入门到精通★ ★前端炫酷代码分享 ★ ★ 从0到英雄&#xff0c;vue成神之路★ ★ uniapp-从构建到提升★ ★ 从0到英雄&#xff…

Typeface:AI创意内容创意助手

【产品介绍】 名称 Typeface 上线时间 成立于2022年6月 具体描述 Typeface是一个企业级生成式AI产品&#xff0c;Typeface是一款适用于Mac和Windows系统的字体管理软件&#xff0c;它能够帮助用户轻松地查看、安装、卸载和管理他们的字体库。Typeface具有直观的…

java基础-并发编程-ThreadPoolExecutor源码学习

ThreadPoolExecutor源码 大纲 给线程池中添加任务 public void execute(Runnable command) {if (command null)throw new NullPointerException();int c ctl.get();if (workerCountOf(c) < corePoolSize) {if (addWorker(command, true))return;c ctl.get();}if (isRunn…

竞赛选题 基于机器视觉的银行卡识别系统 - opencv python

1 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于深度学习的银行卡识别算法设计 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f9ff; 更多资料, 项目分享&#xff1a; https://gitee.com/dancheng…