Python反爬案例——验证码的识别

验证码的识别

使用打码平台识别验证码

利用打码平台可以轻松识别各种各样的验证码，图形验证码、滑动验证码、点选验证码和逻辑推理验证码。打码平台提供了一系列API，只需要向API上传验证码图片，它便会返回对应的识别结果。

使用超级鹰平台，官网：https://www.chaojiying.com/ ，首页如图所示：
在这里插入图片描述

超级鹰打码平台支持识别的内容包括但不限于：简单数字、字母、中文字符、滑动拼图验证等类型的验证码。同时，该平台还提供云端识别服务，可为所有软件提供验证码识别自动化解决方案，帮助客户进行验证码识别、远程答题、人工打码，以实现价值。

使用超级鹰打码平台进行验证码识别的步骤通常包括以下几点：

注册并登录超级鹰打码平台的账号。
下载需要识别的验证码图片，并将其保存在本地。
调用平台提供的API或示例代码，将图片数据发送到超级鹰打码平台进行识别。
接收平台返回的识别结果，并进行后续的操作。

通过这个平台，用户可以轻松地对各种类型的验证码进行识别，从而提高自动化流程的效率和准确性。

准备工作

安装两个Python库——opencv-python和Pillow，安装命令如下：

pip3 install opencv-python pillow

自行下载测试所用的验证码，地址为https://github.com/Python3WebSpider/CaptchaPlatform，可以先复制下来：

git clone [https://github.com/Python3WebSpider/CaptchaPlatform](https://github.com/Python3WebSpider/CaptchaPlatform).git

复制之后，本地出现一个CaptchaPlatform-master文件夹，内部存放的是测试需要的验证码图片。还有一个chaojiying.py文件，内容如下：

import requests
from hashlib import md5

class Chaojiying(object):
    
    def __init__(self, username, password, soft_id):
        self.username = username
        self.password = md5(password.encode('utf-8')).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36',
        }
    
    def post_pic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                          headers=self.headers)
        return r.json()
    
    def report_error(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

定义了一个Chaojiying类，其构造方法接收三个参数。

username:超级鹰账户的用户名
password:超级鹰账户和密码
soft_id:软件ID，需要到超级鹰后台的“软件ID”中获取，如图所示，就生成一个软件ID928939：

在这里插入图片描述

这个类还实现了两个方法，post_pic方法用于上传验证码并获取识别结果，report_error方法用于上报识别错误，识别错误时不扣提分，就是不花钱。

以上内容都准备好后，开始识别验证码，首先是图像验证码。

在这里插入图片描述

图形验证码

这是一个由英文字母和数字组合而成的验证码，一共六位，查阅价格文档https://www.chaojiying.com/price.html，和这个验证码相符合的描述是“1-6位英文数字”，类型是“1006”，如图所示：

在这里插入图片描述

接着就可以编写实现代码：

from chaojiying import Chaojiying

"""
USERNAME、PASSWORD、SOFT_ID需要更改为自己的用户名、密码和软件ID
"""
USERNAME = 'lxw1973'
PASSWORD = '2～～～-**w'
SOFT_ID = '928939'
CAPTCHA_KIND = '1006'
FILE_NAME = 'captcha1.png'
client = Chaojiying(USERNAME, PASSWORD, SOFT_ID)
result = client.post_pic(open(FILE_NAME, 'rb').read(), CAPTCHA_KIND)
print(result)

这里首先利用USERNAME， PASSWORD和SOFT_ID三个信息初始化了一个Chaojiying对象，赋值为client变量，然后调用client的post_pic方法上传了图片中的二进制内容，这里把post_pic方法的第二个参数设置为CAPTCHA_KIND，即1006。

返回结果如下：

{'err_no': 0, 'err_str': 'OK', 'pic_id': '2246121180794820046', 'pic_str': '6m44nn', 'md5': '275d14cb7a43b2ce7c9aa1745be2aafd'}

可以看到，返回结果中的pic_str字段出现了正确的识别结果，识别成功。

点选验证码

12306的验证码就是非常典型的一种点选验证码。如下图所示的点选验证码：

在这里插入图片描述

比较符合这个验证码的描述是“坐标多选”，类型是“9004”，会返回1～4个坐标，如图所示：

在这里插入图片描述

将“图形验证码”代码中的CAPTCHA_KIND改为9004，FILE_NAME改成captcha2.png，然后重新运行代码，结果如下：

{'err_no': 0, 'err_str': 'OK', 'pic_id': '2246121320794820047', 'pic_str': '94,121|206,139', 'md5': 'b7ab91737bc958b6dd47bf63921a615d'}

可以看到返回结果中的pic_str字段变成了’94,121|206,139’，使用OpenCV技术在上图中标注出这个点：

import cv2

image = cv2.imread('captcha2.png')
image = cv2.circle(image, (94, 121), radius=10, color=(0,0,255), thickness=-1)
image = cv2.circle(image, (206,139), radius=10, color=(0,0,255), thickness=-1)
cv2.imwrite('captcha2_label_test.png', image)

运行结果如下图：

在这里插入图片描述

可以看到标注出来的正是第1张和第2张图片，没问题，验证成功！

另外，还有些验证码也属于点选类型，例如指定点击物品的颜色的验证码，如图所示：

在这里插入图片描述

指定文字点击顺序的验证码，如图所示：

在这里插入图片描述

要求按照语序点击文字的验证码，如图所示：

在这里插入图片描述

滑动验证码

我们再来验证滑块验证码，这里以下图为例进行讲解，如下图所示：

在这里插入图片描述

查阅价格文档，比较符合这个验证码的描述是“坐标选一”，类型是“9101”，如图所示：

在这里插入图片描述

和“点选验证码”类似，将“图形验证码”代码中国内地CAPTCHA_KIND改成9101，FILE_NAME改成captcha3.png，然后重新运行代码，得到如下结果：

{'err_no': 0, 'err_str': 'OK', 'pic_id': '1246122000794820048', 'pic_str': '204,90', 'md5': '66608b4a14544e3b3b36c56c94e1959d'}

可以看到返回结果中的pic_str字段变成了204,90，我们用OpneCV技术在例图上标注这个点：

import cv2

image = cv2.imread('captcha3.png')
image = cv2.circle(image, (204, 90), radius=10, color=(0,0,255), thickness=-1)
cv2.imwrite('captcha3_label_test.png', image)

返回结果如下图：

在这里插入图片描述

可以在图片上做一些处理，例如添加自定义的文字，提醒标注人员哪里是正确的位置。下面使用OpenCV技术在例图上加一行字“请点击目标缺口的左上角”：

import cv2
from PIL import ImageFont, ImageDraw, Image
import numpy as np
import io
from chaojiying import Chaojiying

USERNAME = 'lxw1973'
PASSWORD = '2～～～-**w'
SOFT_ID = '928939'
CAPTCHA_KIND = '9101'
def cv2_add_text(image, text, left, top, textColor=(255, 0, 0), text_size=20):
    image = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
    draw = ImageDraw.Draw(image)
    font = ImageFont.truetype('simsun.ttc', text_size, encoding='utf-8')
    draw.text((left, top), text, textColor, font=font)
    return cv2.cvtColor(np.asarray(image), cv2.COLOR_RGB2BGR)

image = cv2.imread('captcha3.png')
image = cv2_add_text(image, '请点击目标缺口的左上角', int(image.shape[1]/10), int(image.shape[0]/2), (255,0,0), 40)
client = Chaojiying(USERNAME, PASSWORD, SOFT_ID)

image = cv2.circle(image, (204, 90), radius=10, color=(0,0,255), thickness=-1)
client = Chaojiying(USERNAME, PASSWORD, SOFT_ID)
result = client.post_pic(io.BytesIO(cv2.imencode('.png', image)[1]).getvalue(), CAPTCHA_KIND)
print(result)

这里我们定义一个cv2_add_text方法，由于直接添加中文会产生乱码，所以需要借助Pillow库，并且依赖一个中文字体文件，添加文字后，图片如下所示：

在这里插入图片描述

重新运行代码，得到如下结果：

{'err_no': 0, 'err_str': 'OK', 'pic_id': '1246209360794820050', 'pic_str': '200,90', 'md5': '428e629f358f39a7d899a0f19a5852de'}

这时返回结果中的pic_str字段变成了200,90，标注一下这个点，结果如图所示：

在这里插入图片描述

问答验证码

再看一种验证码——问答验证码，样例图片入下图所示：

在这里插入图片描述

可以看到，验证码上有一个问题，并且在问题后的括号里有答案提示，问题中每个字的颜色、形状和字与字之间距离各不相同，背景中还有一些干扰线。

这种验证码，如果想自动化完成识别，难度是比较大的。首先需要识别出图片上的文字，这对正确率有很高的要求。在能正确提取所有文字并且问题相对简单的前提下，可以通过用爬虫模拟一些网络搜索操作获得结果。如果问题稍微复杂一些或者在网络上搜素不到答案，可以通过一些自然语言处理技术或者知识库获得答案。但总的来说，通过纯技术手段识别问答验证码的难度还是比较高的。

这样的验证码，比较合适的解决方案依然是打码平台，借助平台背后的人工力量完成识别。同样，查阅一下超级鹰平台对此类验证码的支持情况，如图所示：

在这里插入图片描述

可以看到6004类型是支持此类验证码的，我们把代码中的CAPTCHA_KIND改成6004，FILE_NAME改成captcha4.png，然后重新运行代码，得到如下结果：

from chaojiying import Chaojiying

"""
USERNAME、PASSWORD、SOFT_ID需要更改为自己的用户名、密码和软件ID
"""
USERNAME = 'lxw1973'
PASSWORD = '~~~~-**w'
SOFT_ID = '928939'
CAPTCHA_KIND = '6004'
FILE_NAME = 'captcha4.png'
client = Chaojiying(USERNAME, PASSWORD, SOFT_ID)
result = client.post_pic(open(FILE_NAME, 'rb').read(), CAPTCHA_KIND)
print(result)

运行结果如下：
{'err_no': 0, 'err_str': 'OK', 'pic_id': '2246210120794820051', 'pic_str': '大象', 'md5': '985c12e820556347a54f149111a40bba'}