使用 Python 和 Tesseract 实现验证码识别

news2025/1/27 12:01:48

验证码识别是一个常见且实用的技术需求,尤其是在自动化测试和数据采集场景中。通过开源 OCR(Optical Character Recognition,光学字符识别)工具 Tesseract,结合 Python 的强大生态,我们可以高效实现验证码识别任务。本篇博客将以详细步骤和代码示例,介绍如何使用 Python 和 Tesseract 实现验证码识别,包括原理解析、图像预处理、代码实现以及优化策略。


一、验证码识别的背景与难点

1.1 什么是验证码?

验证码(CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart)是一种区分用户是人类还是计算机程序的技术。常见的验证码类型包括:

  • 文本验证码:图片中包含扭曲或噪声干扰的字符。
  • 图片验证码:用户需要选择特定内容的图片。
  • 行为验证码:要求用户拖动滑块或完成特定任务。

1.2 验证码识别的应用场景

  1. 自动化测试:绕过验证码验证,以便进行完整的自动化测试。
  2. 数据采集:识别网页中的验证码,自动登录或提交表单。
  3. 辅助功能:为视障用户提供验证码读取功能。

1.3 验证码识别的挑战

  1. 图像噪声:许多验证码包含背景噪声、干扰线条或色块。
  2. 字符扭曲:为了增加识别难度,字符通常被扭曲或旋转。
  3. 字符连体:字符之间的分隔不明确,需要精确分割。

二、Tesseract 简介

Tesseract 是一个由 Google 维护的开源 OCR 引擎,支持多种语言和字符识别。它可以通过 Python 的 pytesseract 库调用,轻松实现文字识别功能。

2.1 Tesseract 的主要特点

  • 多语言支持:Tesseract 支持超过 100 种语言。
  • 易于扩展:支持自定义训练,适应特定场景的需求。
  • 开源免费:无需授权费用,适用于商业项目。

2.2 Tesseract 的核心流程

  1. 图像预处理:将图像转化为适合 OCR 的格式。
  2. 文字区域检测:识别图像中的文字区域。
  3. 字符识别:将文字区域的像素转换为字符。
  4. 输出文本:生成最终的文字结果。

三、环境准备

在开始编码之前,需要完成以下环境的配置。

3.1 安装 Tesseract

1. Linux
sudo apt update
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
2. macOS

通过 Homebrew 安装:

brew install tesseract
3. Windows

从 Tesseract 官方 GitHub 下载 Windows 安装包,并配置环境变量。

3.2 安装 Python 库

安装 pytesseract 和图像处理相关库:

pip install pytesseract pillow opencv-python

四、验证码识别的实现

4.1 读取并显示图片

我们将使用 PillowOpenCV 库来加载和显示验证码图片。

from PIL import Image
import cv2

# 加载验证码图片
image_path = "captcha.png"
image = cv2.imread(image_path)

# 使用 OpenCV 显示图片
cv2.imshow("Captcha", image)
cv2.waitKey(0)
cv2.destroyAllWindows()

4.2 图像预处理

为了提高识别率,我们需要对验证码图片进行预处理,包括灰度化、二值化和噪声去除。

1. 转灰度图像

灰度化将彩色图片转换为黑白图片,简化处理。

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
cv2.imshow("Gray Image", gray)
cv2.waitKey(0)
cv2.destroyAllWindows()
2. 二值化

二值化通过阈值将图片转换为黑白两色,突出文字部分。

_, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
cv2.imshow("Binary Image", binary)
cv2.waitKey(0)
cv2.destroyAllWindows()
3. 去噪声

使用形态学操作(如开运算)去除图片中的干扰点。

kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
denoised = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel)
cv2.imshow("Denoised Image", denoised)
cv2.waitKey(0)
cv2.destroyAllWindows()

4.3 调用 Tesseract 进行识别

使用 pytesseract 调用 Tesseract 识别处理后的验证码图片。

import pytesseract
from PIL import Image

# 将处理后的图片保存为临时文件
cv2.imwrite("processed_captcha.png", denoised)

# 使用 pytesseract 识别
text = pytesseract.image_to_string("processed_captcha.png", config="--psm 6")
print(f"识别结果: {text}")

五、优化识别效果

5.1 调整 Tesseract 参数

通过修改 Tesseract 的 --psm 参数,可以改变文字布局分析模式,例如:

  • --psm 6:假设为一个块的文字。
  • --psm 7:将图像作为一行文字处理。

5.2 设置白名单字符

如果验证码的字符范围已知,可以设置白名单,提高识别准确率。

custom_config = r'--oem 3 --psm 6 -c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz'
text = pytesseract.image_to_string("processed_captcha.png", config=custom_config)
print(f"识别结果: {text}")

5.3 自定义训练模型

如果验证码的字符样式特殊,可以通过 Tesseract 的训练工具定制模型,以提升识别率。


六、完整代码示例

以下是整合图像预处理和验证码识别的完整代码:

import cv2
import pytesseract

# 加载图片
image_path = "captcha.png"
image = cv2.imread(image_path)

# 转为灰度图像
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 二值化处理
_, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)

# 去除噪声
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
denoised = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel)

# 保存预处理后的图片
cv2.imwrite("processed_captcha.png", denoised)

# 使用 pytesseract 进行文字识别
custom_config = r'--oem 3 --psm 6 -c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz'
text = pytesseract.image_to_string("processed_captcha.png", config=custom_config)

# 输出识别结果
print(f"识别结果: {text}")

# 显示处理后的图片
cv2.imshow("Processed Image", denoised)
cv2.waitKey(0)
cv2.destroyAllWindows()

七、总结

通过本文的介绍,我们学习了如何使用 Python 和 Tesseract 实现验证码识别,并通过图像预处理和参数优化提高识别率。在实际项目中,结合深度学习模型可以进一步提升复杂验证码的识别效果。希望本篇博客对您有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2283023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于微信小程序的移动学习平台的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

WPS计算机二级•幻灯片的基础操作

听说这是目录哦 PPT的正确制作步骤🛣️认识PPT界面布局🏜️PPT基础操作 快捷键🏞️制作PPT时 常用的快捷技巧🏙️快速替换PPT的 文本字体🌃快速替换PPT 指定文本内容🌅能量站😚 PPT的正确制作步…

Arcgis国产化替代:Bigemap Pro正式发布

在数字化时代,数据如同新时代的石油,蕴含着巨大的价值。从商业决策到科研探索,从城市规划到环境监测,海量数据的高效处理、精准分析与直观可视化,已成为各行业突破发展瓶颈、实现转型升级的关键所在。历经十年精心打磨…

GitLab配置免密登录和常用命令

SSH 免密登录 Windows免密登录 删除现有Key 访问目录:C:\Users\Administrator\ .ssh,删除公钥:id_rsa.pub ,私钥:id_rsa 2.生成.ssh 秘钥 运行命令生成.ssh 秘钥目录( ssh-keygen -t rsa -C xxxxxx126.…

警企联动齐发力、共筑反诈“防护墙”

2025年1月10日是第五个中国人民警察节,南通移动联合南通公安反诈中心,深入社区商圈,开展防范电信网络诈骗宣传活动,进一步增强广大人民群众的反诈意识和能力,全力守护好群众的“钱袋子”。 当日,活动现场一大早就呈现出一片忙碌景象,工作人员支起摊位,将各类精心制作的反诈宣传…

新版IDEA创建数据库表

这是老版本的IDEA创建数据库表,下面可以自己勾选Not null(非空),Auto inc(自增长),Unique(唯一标识)和Primary key(主键) 这是新版的IDEA创建数据库表,Not null和Auto inc可以看得到,但Unique和Primary key…

分布式微服务系统简述

distributed microservice 分布式与微服务的定义及关系;分布式微服务架构里的各组件,如:配置中心、服务注册/发现、服务网关、负载均衡器、限流降级、断路器、服务调用、分布式事务等;spring cloud 介绍及实现案例,如…

基于Springboot + vue实现的民俗网

“前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:人工智能学习网站” 💖学习知识需费心, 📕整理归纳更费神。 🎉源码免费人人喜…

Arduino大师练成手册 -- 读取DHT11

要在 Arduino 上控制 DHT11 温湿度传感器,你可以按照以下步骤进行: 硬件连接: 将 DHT11 的 VCC 引脚连接到 Arduino 的 5V 引脚。 将 DHT11 的 GND 引脚连接到 Arduino 的 GND 引脚。 将 DHT11 的 DATA 引脚连接到 Arduino 的数字引脚&am…

DataStream API

DataStream API是Flink的核心层API。一个Flink程序,其实就是对DataStream的各种转换。具体来说,代码基本上都由以下几部分构成: 一、执行环境(Execution Environment) Flink程序可以在各种上下文环境中运行&#xff1…

十、VUE中的CSS

一、vue中解决样式不冲突的两种方式 scoped方式 在App.vue中引入Helloworld子组件 在Helloworld子组件中再次引入我们编写Demo子组件 解释: 这种方式是在style上加了个scoped,限制了样式的使用范围。 动态类名方式 二、vue构建打包 npm run build

Flutter_学习记录_导航和其他

Flutter 的导航页面跳转,是通过组件Navigator 和 组件MaterialPageRoute来实现的,Navigator提供了很多个方法,但是目前,我只记录我学习过程中接触到的方法: Navigator.push(), 跳转下一个页面Navigator.pop(), 返回上一…

VsCode安装文档

一、下载 进入VS Code官网:Visual Studio Code - Code Editing. Redefined,点击 DownLoad for Windows下载windows版本 当然也可以点击旁边的箭头,下载Windows版本 或 Mac OS 版本 备注: Stable:稳定版Insiders&#…

docker Ubuntu实战

目录 Ubuntu系统环境说明 一、如何安装docker 二、发布.netcore应用到docker中 三、查看docker信息 四、保存linux服务器的镜像、下载镜像 其他 1.Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while wa…

vue3 获取百度天气

获取百度应用key 需要开通百度天气api,进入 控制台 | 百度地图开放平台, 1、创建应用 2、填写名称 3、勾选上天气、百度地图逆地理编码 4、会得到一个key vue获取天气 应该用的是接口获取,这里会有跨域的问题,vue上用的是pro…

《论文翻译》KIMI K1.5:用大语言模型扩展强化学习

文章目录 KIMI K1.5技术报告摘要 1. 引言2. 方法:基于大语言模型的强化学习2.1 强化学习提示集整理2.2 长思维链监督微调2.3 强化学习2.3.1 问题设定2.3.2 策略优化2.3.3 长度惩罚2.3.4 采样策略2.3.5 训练方法的更多细节 2.4 长到短:短思维链模型的上下…

ESP8266 NodeMCU与WS2812灯带:实现多种花样变换

在现代电子创意项目中,LED灯带的应用已经变得极为广泛。通过结合ESP8266 NodeMCU的强大处理能力和FastLED库的高效功能,我们可以轻松实现多达100种灯带变换效果。本文将详细介绍如何使用Arduino IDE编程,实现从基础到高级的灯光效果&#xff…

一组开源、免费、Metro风格的 WPF UI 控件库

前言 今天大姚给大家分享一个开源、免费、Metro风格的 WPF UI 控件库:MahApps.Metro。 项目介绍 MahApps.Metro 是一个开源、免费、Metro风格的 WPF UI 控件库,提供了现代化、平滑和美观的控件和样式,帮助开发人员轻松创建具有现代感的 Win…

Batch Normalization学习笔记

文章目录 一、为何引入 Batch Normalization二、具体步骤1、训练阶段2、预测阶段 三、关键代码实现四、补充五、参考文献 一、为何引入 Batch Normalization 现在主流的卷积神经网络几乎都使用了批量归一化(Batch Normalization,BN)1&#xf…

高等数学学习笔记 ☞ 微分方程

1. 微分方程的基本概念 1. 微分方程的基本概念: (1)微分方程:含有未知函数及其导数或微分的方程。 举例说明微分方程:;。 (2)微分方程的阶:指微分方程中未知函数的导数…