【Python从入门到进阶】43.验证码识别工具结合requests的使用

news2025/1/23 22:44:05

接上篇《42、使用requests的Cookie登录古诗文网站》
上一篇我们介绍了如何利用requests的Cookie登录古诗文网。本篇我们来学习如何使用验证码识别工具进行登录验证的自动识别。

一、图片验证码识别过程及手段

上一篇我们通过requests的session方法,带着原网页登录后的Cookie进入个人中心,访问到了登录后的界面数据。但是,我们在登录的过程中,对于验证码的识别,是先下载相关图片然后人工输入进行校验的,有没有能够通过程序自动识别验证码的手段呢?答案是肯定有。

1、验证码识别过程

图片验证码是目前最常用的一种,想要对验证码进行精准识别,至少要经过三个过程,分别为图片清理、字符切分、字符识别。

(1)图片清理

图片清理是为接下来的机器学习或模板匹配阶段做准备的,指通过灰度化、二值化、干扰点清理等过程,得到比较干净的图片数据,如以下样例:

紧接着需要进行“彩色去噪”和“灰度化”、“二值化”、“底色统一”以及“干扰点清理”,这里我用PPT简单总结了一下这几个步骤:

(2)字符切分

该阶段对前期预处理后的图片进行切割处理,定位和分离出整幅图片中的每个孤立的字符主体部分。主要采用X轴和Y轴投影的方法,即统计对应坐标上黑色像素点的个数。例如下面的字符图片:

会被切分为“b”、“w”、“t”和“p”四个字符图片。

(3)字符识别

通过处理、切分后的图片,已经可以清晰的辨别要识别的字符,此时我们需要使用OCR识别等手段,进行字符的识别。具体详见第2节的介绍。

2、验证码识别手段

常见的图片验证码有以下几种识别手段:

(1)OCR识别


开源的OCR识别引擎Tesseract(基于C++语言,在Python中被封装为Pytesseract),初期由HP实验室研发,后来贡献给了开源软件业。

该手段的的优点是:开发量少;比较通用,适合于各种变形较少的验证码;对于扭曲不严重的字母和数字识别率高。
缺点是:对于扭曲的字母和数字识别率大大降低;对于字符间有粘连的验证码几乎难以正确识别;很难针对特定网站的验证码做定制开发。

(2)模板库匹配

需要建立字符模板库,进行字符匹配。该方法需要针对目标网站收集大量的验证码;然后根据上一章节的方法,进行图片清理;最后按照固定的长宽值切分出字符模板图,保存文件名带上对应字符的标记,例如:

然后把目标验证码图片按字符个数切分,使用汉明距离或编辑距离定义相似度,并用KNN方法得到K个最相似的字符,最后从K个字符中选取出现次数最多的那个作为匹配结果。
这种方法主要针对某个特定网站,不具备普适性。

(3)神经网络

以上验证码识别都依赖于字符切分,切分的好坏几乎直接决定识别的准确程度。而对于有字符粘连的图片,往往识别率就会低很多。目前验证码识别最先进的是谷歌在识别“街景”图像中门牌号码中使用的一套的算法。该算法将定位、分割和识别等几个步骤统一起来,采用一种“深度卷积神经网络”(deep convolutional neural network)方法进行识别,准确率可以达到99%以上。

谷歌拿自有的reCAPTCHA验证码做了测试,结果发现,对于难度最大的reCAPTCHA验证码,新算法的准确率都达到99.8%,这可能也好于大多数人为验证。

二、第三方验证码识别工具

目前市面上已经有很多商用的验证码识别软件和工具,为了提高我们的编程效率,我们没有必要亲自去实现验证码的整个识别过程,直接调用相关的程序包即可。
本篇我们介绍的验证码识别工具为“超级鹰”的验证码识别平台(官网http://www.chaojiying.com/):

首先我们点击首页右上角的登录按钮,进入登录页面,然后点击注册账号进行账号的开通:

注册完毕后,登录账号,进入个人中心,点击“开发文档”:

然后点击“Python语言Demo下载”:

下载完毕解压后,可以看到验证码识别的Python样例代码:

代码如下:

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def PostPic_base64(self, base64_str, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
            'file_base64':base64_str
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


if __name__ == '__main__':
    #用户中心>>软件ID 生成一个替换 96001
    chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001')
    #本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
    im = open('a.jpg', 'rb').read()
    #1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加() 
    print chaojiying.PostPic(im, 1902)
    #print chaojiying.PostPic(base64_str, 1902)  #此处为传入 base64代码

这里我们按照这段代码进行图片识别即可。里面需要我们输入超级鹰的账号和密码,以及一个软件ID。软件ID的获取方式如下:
首先我们回到超级鹰的用户中心,拉倒最下面,点击左下角的“软件ID”菜单,然后点击生成一个软件ID:

然后输入一个软件名即可,其他不用动,直接点提交:

然后我们就可以看到生成的软件ID:

我们在代码的第三个参数里填写这个ID即可。
然后还要注意一点,如果我们使用的是Python的3.4+版 print 后要加(),不然运行会报错:

我们把代码和图片a.jpg放入我们的Python工作空间,填写好上面的所有参数,执行一下代码,如果咱们第一次用,会发现报错了,显示“无可用题分”:

这里是因为需要进行充值,我们去用户中心的下面“购买题分”,充几块钱就行了:

这里是他们官网的收费方式,大家自行决定(我充值了5块钱,有5000题分,基本上可以识别上百次4字验证码了):

我们充值了几块钱后,再去执行代码,得到结果:

可以看到识别出的a.jpg的内容,这里我拿到的a.jpg确实是“7261”:

这个返回对象中的pic_str字段,就是识别结果,可以在调用代码的时候,加上“.get('pic_str')”直接获取结果:

code_name = chaojiying.PostPic(im, 1902).get('pic_str')

三、优化古诗文网登录代码

我们把上一章节的古诗文代码,编写一个V2.0版本,将其中的验证码手工输入的部分,修改为使用超级鹰识别代码进行识别的方法:

# _*_ coding : utf-8 _*_
# @Time : 2023-11-19 15:59
# @Author : 光仔December
# @File : requests_cookie登录古诗文网
# @Project : Python基础

import requests
import chaojiying

# 古诗文网登录页面的URL地址
url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
}

# 获取网络源代码
response = requests.get(url=url, headers=headers)
content = response.text

# 使用BeautifulSoup来解析网页源码,获取__VIEWSTATE和__VIEWSTATEGENERATOR参数
from bs4 import BeautifulSoup

soup = BeautifulSoup(content, 'lxml')

# 获取__VIEWSTATE
VIEWSTATE = soup.select('#__VIEWSTATE')[0].attrs.get('value')
print('VIEWSTATE: ', VIEWSTATE)

# 获取__VIEWSTATEGENERATOR
VIEWSTATEGENERATOR = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value')
print('VIEWSTATEGENERATOR: ', VIEWSTATEGENERATOR)

# 获取验证码图片
code = soup.select('#imgCode')[0].attrs.get('src')
code_url = 'https://so.gushiwen.cn' + code

# import urllib.request
# urllib.request.urlretrieve(url=code_url,filename='code.jpg')
session = requests.session()
# 验证码url的内容
response_code = session.get(code_url)
# 图片下载要使用二进制数据
content_code = response_code.content
# wb模式就是将二进制数据写入文件
with open('code.jpg', 'wb') as fp:
    fp.write(content_code)

# 获取验证码图片后,使用超级鹰验证码识别工具,进行验证码自动识别
chaojiying = chaojiying.Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '超级鹰软件ID')
im = open('code.jpg', 'rb').read()
code_name = chaojiying.PostPic(im, 1902).get('pic_str')

# 点击登录
url_post = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'

data_post = {
    '__VIEWSTATE': VIEWSTATE,
    '__VIEWSTATEGENERATOR': VIEWSTATEGENERATOR,
    'from': 'http://so.gushiwen.cn/user/collect.aspx',
    'email': '古诗文网账号',
    'pwd': '古诗文网密码',
    'code': code_name,
    'denglu': '登录'
}

# 获取网络源代码(这里能用requests对象,要用验证码的session对象,保持一个Cookie环境)
response_post = session.post(url=url_post, headers=headers, data=data_post)
content_post = response_post.text

print(content_post)

效果:

可以看到,这次不需要我们进行人工干预,直接就识别到了验证码进行自动登录,获取到古诗文网登录后个人中心的信息。

参考:尚硅谷Python爬虫教程小白零基础速通
杨杰授权网易云社区《常用验证码的识别方法》
转载请注明出处:https://guangzai.blog.csdn.net/article/details/134762604

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1279488.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前缀和 LeetCode1423. 可获得的最大点数

几张卡牌 排成一行,每张卡牌都有一个对应的点数。点数由整数数组 cardPoints 给出。 每次行动,你可以从行的开头或者末尾拿一张卡牌,最终你必须正好拿 k 张卡牌。 你的点数就是你拿到手中的所有卡牌的点数之和。 给你一个整数数组 cardPoi…

一个网站,四种创建制作电子期刊的方法

想象一下,你正在走进一家神奇的商店,里面陈列着各种精美的杂志和期刊。但是,这些杂志和期刊并不是印刷品,而是可以直接在网站上制作和发布的电子期刊。 但是像这样能在网上发的电子期刊该怎么制作呢?不知道如何制作的小…

数字媒体技术基础之:常见字体类型

字体 Font在数字设计和排版中起着至关重要的作用,不同的字体类型为文本呈现和创意表达提供了丰富多样的可能性。 .fon 字体 .fon 文件是 Windows 早期系统中使用的一种字体文件格式。 特点: 1、基于像素的位图字体。 2、不支持无损缩放,主要用…

国际语音通知是什么?国际语音通知系统有哪些功能?

一、国际语音通知是什么? 如同国际短信通知,国际语音通知也在多种生活场景中扮演着重要的角色,如会议通知、商品发货通知、物流更新通知、快递取件通知、外卖取餐通知等。那么什么是语音通知呢? 国际语音通知可将通知的文本信息使…

算法复习,数据结构 ,算法特性,冒泡法动态演示,复杂度,辗转相除法*,寻找最大公因数

算法复习 知识点 1. 程序 数据结构 算法 2. 算法: 求解问题的策略数据结构:问题的数学模型程序:微计算机处理问题编制的一组指令 3. **特性 ** 有穷性:算法在执行有穷步后能结束确定性:每一指令有确切的含义&a…

规则引擎专题---5、Groovy环境搭建和基础语法

概述 Groovy是用于Java虚拟机的一种敏捷的动态语言,它是一种成熟的面向对象编程语言,既可以用于面向对象编程,又可以用作纯粹的脚本语言。使用该种语言不必编写过多的代码,同时又具有闭包和动态语言中的其他特性。 Groovy是从Jav…

线程安全的问题以及解决方案

线程安全 线程安全的定义 线程安全:某个代码无论是在单线程上运行还是在多线程上运行,都不会产生bug. 线程不安全:单线程上运行正常,多线程上运行会产生bug. 观察线程不安全 看看下面的代码: public class ThreadTest1 {public static int count 0;public static void main…

<JavaEE> synchronized关键字和锁机制 -- 锁的特点、锁的使用、锁竞争和死锁、死锁的解决方法

目录 一、synchronized 关键字简介 二、synchronized 的特点 -- 互斥 三、synchronized 的特点 -- 可重入 四、synchronized 的使用示例 4.1 修饰代码块 - 锁任意实例 4.2 修饰代码块 - 锁当前实例 4.3 修饰普通方法 - 锁方法所在实例 4.4 修饰代码块 - 锁指定类对象 …

threadlocal - 黑马程序员

目录 1、ThreadLocal介绍1.2 ThreadLocal基本使用1.2.1、常用方法1.2.2 使用案例 1.3 ThreadLocal类与synchronized关键字 2、运用场景_事务案例3、ThreadLocal的内部结构4、 ThreadLocal的核心方法源码5、ThreadLocalMap源码分析5.2 弱引用和内存泄漏 课程地址: ht…

【大学英语视听说上】“智力”口语问答练习

题目: book 2, page 9, question 4 回答: 1: What do you think of the view “Intelligence must be bred, not trained”? I think this view is biased. The view suggests that intelligence is primarily determined by genetic factors and inh…

drawio画图工具的四种使用方式

1、免安装使用(绿色版) 这种直接下载下来直接就可以使用,属于绿色版(开箱即用),适用于个人 点击下载地址 2、 安装使用 这种下载下来就需要安装才可使用,适用于个人 点击下载地址 3、war包…

P3 Linux应用编程:系统调用与库函数

前言 🎬 个人主页:ChenPi 🐻推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ 🔥 推荐专栏2: 《Linux C应用编程(概念类)_ChenPi的博客-CSDN博客》✨✨✨ 🛸推荐专栏3: ​​​​​​《 链表_Chen…

轻量封装WebGPU渲染系统示例<42>- vsm阴影实现过程(源码)

前向实时渲染vsm阴影实现的主要步骤: 1. 编码深度数据,存到一个rtt中。 2. 纵向和横向执行遮挡信息blur filter sampling, 存到对应的rtt中。 3. 将上一步的结果(rtt)应用到可接收阴影的材质中。 具体代码情况文章最后附上的实现源码。 当前示例源码github地址: …

Azure Machine Learning - 使用 Python 进行语义排名

在 Azure AI 搜索中,语义排名是查询端功能,它使用 Microsoft AI 对搜索结果重新评分,将具有更多语义相关性的结果移动到列表顶部。 关注TechLead,分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验&am…

基于单片机的多功能视力保护器(论文+源码)

1.系统设计 多功能视力保护器在设计过程中能够对用户阅读过程中的各项数据信息进行控制,整体设计分为亮种模式,分别是自动模式,手动模式。在自动模式的控制下,当单片机检测当前光照不强且有人时就开启LED灯,并且会根据…

实现跨平台高手必修的课程,玩转Flutter动态化的解决的一些精华部分总结

Flutter作为一种快速、可靠的跨平台移动应用开发框架,在动态化方面也有很多令人兴奋的特性。本文将总结Flutter动态化的一些精华部分,帮助开发者更好地利用这些功能。 正文: 在实现跨平台高手必修的课程中,Flutter动态化是一个不…

kubernetes七层负载Ingress搭建(K8S1.23.5)

首先附上K8S版本及Ingress版本对照 Ingress介绍 NotePort:该方式的缺点是会占用很多集群机器的端口,当集群服务变多时,这个缺点就愈发的明显(srevice变多,需要的端口就需要多) LoadBalancer:该方式的缺点是每个servi…

人工智能学习5(特征抽取)

编译环境:PyCharm 文章目录 编译环境:PyCharm 特征抽取无监督特征抽取(之PCA)代码实现鸢尾花数据集无监督特征抽取 有监督特征抽取(之LDA)代码实现,生成自己的数据集并进行有监督特征抽取(LDA)生成自己的数据集PCA降维和LDA降维对比 代码实现LDA降维对鸢…

mysql服务日志打印,时区不对的问题

查资料发现 原来日志的时区和服务器的时区不是一个参数控制的 log_timestamps 单独控制日志的时区 show global variables like log_timestamps;看到默认的是UTC,只需要修改为和系统一致就行 #数据库中直接修改 set global log_timestampsSYSTEM;#配置文件my.cn…

NacosSync 用户手册

手册目标 理解 NacosSync 组件启动 NacosSync 服务通过一个简单的例子,演示如何将注册到 Zookeeper 的 Dubbo 客户端迁移到 Nacos。 介绍 NacosSync是一个支持多种注册中心的同步组件,基于Spring boot开发框架,数据层采用Spring Data JPA,遵循了标准的JPA访问规范…