爬虫逆向——某建筑市场监管平台的滑块验证码分析

news2024/10/6 12:34:23

目录

网址链接:

正文:

一、思路分析

二、图片处理

三、完整代码


网址链接:

aHR0cHM6Ly9nY3htLmh1bmFuanMuZ292LmNuL2RhdGFzZXJ2aWNlLmh0bWw=

(bs64解密可见)

正文:

注:分步的代码为示例代码,文章最后会给出图像处理部分的完整代码

一、思路分析

1、首先看验证码样式,可以看到是个滑块验证,包含一张带缺口的背景大图和一张用于拖动的小图,这类图片处理起来就比较简单。

2、再看图形验证码接口,请求没什么特别需要注意的参数

重点看一下响应预览,返回数据是一个列表,观察可知0、1元素分别是小图和大图的bs64编码,2、3元素用处下面会用到

 3、画错一次验证码看看请求结果

 4、在请求载荷中有moveX,verifyid。verifyid结合第二步,可知是请求图形验证码接口返回参数中的元素2;moveX应该就是拖动小图进行平移的距离。其他参数除了翻页pageIndex和列表大小pageSize外固定不变。

 5、看图片可知,正确的的moveX应该是背景大图缺口的左侧边缘背景大图左侧边缘的距离,只需要计算出这个长度即可

二、图片处理

大致分为4步:

原图:

 

1、二值化处理:缺口处填充空白,其他部分填充黑色。其中先对图片进行高斯模糊处理,然后做了灰度处理,最后进行二值化处理。高斯模糊等图像处理相关的看这里:python-opencv 图像处理(滤波,噪点,模糊)

以下是相关示例代码:

# 读取图片
image = cv2.imread(img1)

# 高斯模糊
GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
GAUSSIAN_BLUR_SIGMA_X = 0
image = cv2.GaussianBlur(image, GAUSSIAN_BLUR_KERNEL_SIZE, GAUSSIAN_BLUR_SIGMA_X)

# 二值化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像,必须先将图像转为灰度图
ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)

# 另存为
cv2.imwrite(img2, binary)

下面是处理后的图片:

2、边缘检测: 

名词解释为图像边缘是指图像中表达物体的周围像素灰度发生阶跃变化的那些像素集合。
        图像中两个灰度不同的相邻区域的交界处,必然存在灰度的快速过渡或称为跳变,它们与图像中各区域边缘的位置相对应,边缘蕴含了丰富的内在信息,如方向、阶跃性质、形状等,沿边缘走向的像素变化平缓,而垂直于边缘方向的像素变化剧烈。

绘制上图空白处的边缘后结果如下:

3、 绘制外接矩形:

为方便计算距离,这里需要绘制出上图的最小外接矩形,结果如下:

4、 计算外接矩形到图像左侧的距离:

实际上在绘制外接矩形时会得到矩形的边界坐标,其中最小的(x,y)为矩形的左上角坐标;最大的(x,y)为矩形的右下角坐标。即最小的坐标x就是验证码接口中的 moveX参数。

运行结果如下:

 

最后将得到的距离作为moveX参数去请求校验接口即可。 

三、完整代码

为便于观察,将每一步的图片都进行了保存

import cv2
from PIL import Image
from loguru import logger

class OcrImg():
    def __init__(self):
        # 验证码原图
        self.img1 = './b1.png'

        # 二值化后的图片
        self.img2 = './b2.png'

        # 边缘检测后的图片
        self.img3 = './b3.png'

        # 绘制边缘矩形后的图片
        self.img4 = './b4.png'

        self.GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
        self.GAUSSIAN_BLUR_SIGMA_X = 0
        self.CANNY_THRESHOLD1 = 200
        self.CANNY_THRESHOLD2 = 450

    def main(self, input_img_file='./b1.png'):
        self.img1 = input_img_file
        self.threshold_By_OTSU()

        self.detectEdge()

        x1 = self.get_contours()
        logger.info('缺口距左侧边缘 {} 个像素'.format(x1))
        return x1

    # 图片预处理
    def threshold_By_OTSU(self):
        # 读取图片
        image = cv2.imread(self.img1)
        # 高斯模糊
        image = cv2.GaussianBlur(image, self.GAUSSIAN_BLUR_KERNEL_SIZE, self.GAUSSIAN_BLUR_SIGMA_X)

        # 二值化
        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像,必须先将图像转为灰度图
        ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)
        cv2.imwrite(self.img2, binary)

    # 求图像img中(x,y)处像素的卷积c
    def convolute(self, img, x, y):
        juanjihe = [1, 1, 1, 1, -8, 1, 1, 1, 1]
        L = []
        xl = [x - 1, x, x + 1]
        yl = [y - 1, y, y + 1]
        for j in yl:
            for i in xl:
                gray = img.getpixel((i, j))  # 取出灰度值
                L.append(gray)
        c = 0
        for i, j in zip(juanjihe, L):
            c = c + i * j
        return c

    # 边缘检测
    def detectEdge(self):
        img1 = Image.open(self.img2)  
        img1 = img1.convert('L')  
        w, h = img1.size
        img2 = Image.new('L', (w, h), 'white')  
        for x in range(1, w - 1):
            for y in range(1, h - 1):
                c = self.convolute(img1, x, y) 
                if c > 0:
                    s = 0
                else:
                    s = 255
                img2.putpixel((x, y), s) 
        img2.save(self.img3)

    # 绘制外接矩形
    def get_contours(self):
        image = cv2.imread(self.img3)
        # 图像转灰度图
        img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        # 图像转二值图
        ret, thresh = cv2.threshold(img, 2, 255, cv2.THRESH_BINARY_INV)
        contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
        x1 = []
        y1 = []
        x2 = []
        y2 = []
        for c in contours:
            # 找到边界坐标
            x, y, w, h = cv2.boundingRect(c)
            if x != 0 and y != 0 and w != image.shape[1] and h != image.shape[0]:
                cv2.rectangle(image, (x, y), (x + w, y + h), (215, 42, 32), 2)
                x1.append(x)
                y1.append(y)
                x2.append(x + w)
                y2.append(y + h)
        x11 = min(x1)
        y11 = min(y1)
        x22 = max(x2)
        y22 = max(y2)
        print(x11, y11, x22, y22)
        cv2.imwrite(self.img4, image)
        cv2.waitKey(0)

        return x11

if __name__ == '__main__':
    ocr = OcrImg()
    # 传入图片位置
    ocr.main('./a.png')

注:本篇博客只对验证码图片进行了技术分析,不做任何数据抓取存储等操作。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/514375.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言中数据结构——带头双向循环链表

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,数据结构 🔥座右铭:“不要等到什么都没…

如何删除打印机任务?三种快速删除打印机任务的方法

打印机用户可能会经常遇到添加错的打印任务,或是一不小心重复选择过多的打印任务,环保人人有责,杜绝纸张浪费,驱动人生就为大家带来快速删除打印任务的方法。 方法一:使用Windows自带的清理功能 在Windows操作系统中…

谷歌全线反击!PaLM 2部分性能已经超越GPT-4

ChatGPT横空出世,所有人都能够明确感知到AI的惊人潜力,瞬间改变了整个AI行业的节奏,不紧不慢的谷歌也开始紧张了。 ChatGPT舆论热潮仍未消退,红色警报又拉响 北京时间5月11日凌晨1点,Google I/O 2023开发者大会上发布…

C++ | 深拷贝和浅拷贝

C 深拷贝和浅拷贝 当类的函数成员存在__指针成员__时会产生深拷贝和浅拷贝和问题。 在进行对象拷贝时会使用默认拷贝构造函数,默认进行浅拷贝,即只会拷贝指针的值,新拷贝的指针与原来的指针指向同一内存; 浅拷贝带来的问题是&…

stm32裸机开发下利用MultiTimer多任务时间片询

stm32裸机开发下利用MultiTimer多任务时间片询 📌MultiTimerGithub地址:https://github.com/0x1abin/MultiTimer ✨这是一个类似Arduino平台上的Ticker库,如需阅读懂源码,起码需要有链表知识的储备,如果仅仅只是拿来使…

docker学习笔记(二)

目录 启动Docker ​编辑 建立 Docker 用户 ​编辑 测试 Docker 是否正常工作 卸载Docker Docker镜像加速器配置 配置镜像 检查加速器是否生效 如何在Linux中的.json文件下保存并退出 如果我是使用vi操作进来的,我该如何保存并退出呢? 如何在Li…

3 步集成 Terraform + 极狐GitLab CI ,实现基础设施自动化管理

本文来自:极狐GitLab 开发者社区 作者:KaliArch 利用极狐GitLab CI 实现基础设施编排自动化后,用户就可以使用极狐GitLab 进行基础设施管理:提交基础设施变更后,会触发 MR 进行极狐GitLab CI 流水线执行,从…

电视盒子什么牌子好?数码小编分享2023热销电视盒子排行榜

整理私信的时候有朋友希望我能分享电视盒子排行榜,对不了解电视盒子什么牌子好的朋友们来说,选购电视盒子时很容易踩雷,因此我根据各大电商平台的销量数据整理了最新热销电视盒子排行榜,对电视盒子感兴趣的朋友们可以了解一下。 ●…

时序预测 | Python实现AR、ARMA、ARIMA时间序列预测

时序预测 | MATLAB实现VAR和GARCH时间序列预测 目录 时序预测 | MATLAB实现VAR和GARCH时间序列预测预测效果基本介绍模型原理程序设计参考资料预测效果 基本介绍 Python实现AR、ARMA、ARIMA时间序列预测 模型原理 AR、ARMA、ARIMA都是常用的时间序列预测方法,它们的主要区别在…

功能优化升级,添加更丰富的刷题练习设置|会员权益、答题后显示数据、切题按钮、进入小组必设昵称、小组统计筛选条件、考试排行榜、优化缓存机制

土著刷题微信小程序v1.14,主要是针对用户在使用期间提的一些优化建议,经过评估后进行优化升级的一次版本,下面将逐条介绍一下这一版的优化点。 01 会员权益页面 通过对用户提出的问题进行归纳总结,部分用户在购买VIP时&#xff0c…

【git】修改作者和提交者信息

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 修改git作者和提交者信息 1. 正文 1.1 前提 1.1.1 作者和提交者 作者就是我们git log看到的信息,如下: 其修改方式参考&…

linux应用编程

项目内容 开发板内部使用c语言调用硬件驱动实现各种测试功能,保存测试结果。 外部程序通过socket接口使用tcp协议与开发板通信进行信息传输, 最后使用python GUI构造一个界面按照测试顺序逐步显示出各个模块的测试结果 测试包括:485-232uart、…

(十四)地理数据库创建——进一步定义数据库②

(十四)地理数据库创建——进一步定义数据库② 目录(接上篇) (十四)地理数据库创建——进一步定义数据库② 4.创建注释类4.1建立注释类4.2产生连接要素注释 5.创建几何网络5.1几何网络概述5.2建立几何网络 6…

亿级大表毫秒关联,荔枝微课基于Apache Doris 统一实时数仓建设实践

本文导读: Apache Doris 助力荔枝微课构建了规范的、计算统一的实时数仓平台,目前 Apache Doris 已经支撑了荔枝微课内部 90% 以上的业务场景,整体可达到毫秒级的查询响应,数据时效性完成 T1 到分钟级的提升,开发效率更…

设备树的相关概念

.dts相当于.c DTS的源码文件 DTC工具相当于gcc编译器 将dts 编译成 dtb dtb相当于bin文件 或可执行文件 编译dtb 文件的方法 在linux内核文件夹中 make imx6ull-alientek-emmc.dtb在执行上述代码之前 要把 imx6ull-alientek-emmc.dtb删除 否则会提示已经存在 dts的结构 层层…

【Python文本处理】基于GPX文件的心率、速度、时间等参数更改

【Python文本处理】基于GPX文件的心率、速度、时间等参数更改 GPX文件本身其实就是坐标、海拔、时间、心率等综合性的xml文件 如图: 海拔:ele 时间:time 心率:heartrate 在不改变坐标和距离的情况下 缩短时间即可提高速度&#…

使用rsync和inotify实时备份CentOS服务器数据(详解)

简介 在日常运维中,确保服务器上的数据安全是至关重要的。数据丢失或损坏可能会导致灾难性后果,因此定期备份数据是一个明智的做法。本文LZ将向您展示如何使用 rsync 和 inotify-tools 工具在 CentOS 系统上设置实时备份,以确保您的数据始终…

Google I/O:谷歌AR看似不紧不慢,实则暗藏玄机

在今天举行的Google I/O大会上,尽管AI是全场最大的关注点,也还是有一系列AR相关技术和应用更新,比如:ARCore进行更新、推出新的Geospatial Creator等等。 ARCore面世已有5年时间,谷歌每年都在持续推动AR技术的发展。相…

Webpack 核心概念

文章目录 Webpack 核心概念概述安装webpack简单使用配置webpack.config.js配置package.json打包 核心概念modeentry 和 outputentry配置说明output配置说明配置单入口配置多入口 loader安装babel、babel-loader、core-js配置.babelrc配置webpack.config.js配置package.json编写…

【Linux】9. 习题①

2022-09-17_Linux环境与版本 1. 命令拓展(了解) linux查看cpu占用的命令是什么? A.top B.netstat C.free D.df 【答案解析】A 2022-09-24_Linux环境与版本 2. 命令拓展(了解) 以下哪个命令输出Linux内核的版本信息: A.uname -r B.vmstat C.sar D.sta…