利用深度学习实现验证码识别-3-ResNet18

news2024/11/26 14:50:09

在当今数字化时代,验证码作为一种重要的安全验证手段,广泛应用于各种网络场景。然而,传统的验证码识别方法往往效率低下,准确率不高。今天,我们将介绍一种基于 ResNet18 的验证码识别方法,它能够高效、准确地识别验证码,为网络安全提供有力保障。
在这里插入图片描述

一、技术背景

深度学习技术在图像识别领域取得了巨大的成功,ResNet18 作为一种经典的深度神经网络架构,具有强大的特征提取能力和良好的泛化性能。我们利用 ResNet18 的这些优势,将其应用于验证码识别任务中,通过迁移学习的方法,快速训练出一个高效的验证码识别模型。

以下是实现 ResNet18 验证码识别的代码:

import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset, random_split
from torchvision import transforms, models
import random
import string
from PIL import Image, ImageDraw, ImageFont
import os
import matplotlib.pyplot as plt

# 检查 CUDA 是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f'Using device: {device}')

# 数据生成器,支持自定义字符集和验证码长度
class CaptchaDataset(Dataset):
    def __init__(self, length=1000, charset=None, captcha_length=5, transform=None):
        self.length = length
        self.transform = transform
        self.charset = charset if charset is not None else string.ascii_letters + string.digits
        self.captcha_length = captcha_length
        self.num_classes = len(self.charset)
        self.font = ImageFont.truetype("arial.ttf", 40)
        self.image_size = (100, 40)

    def __len__(self):
        return self.length

    def __getitem__(self, idx):
        text = ''.join(random.choices(self.charset, k=self.captcha_length))
        image = Image.new('L', self.image_size, color=255)
        draw = ImageDraw.Draw(image)
        draw.text((10, 5), text, font=self.font, fill=0)
        if self.transform:
            image = self.transform(image)
        label = [self.charset.index(c) for c in text]
        return image, torch.tensor(label, dtype=torch.long)

# 数据增强和预处理
transform = transforms.Compose([
    transforms.Resize((40, 100)),
    transforms.RandomRotation(10),
    transforms.ColorJitter(brightness=0.5, contrast=0.5),
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# 设置字符集和验证码长度
charset = string.digits  # 仅支持数字
captcha_length = 4  # 验证码长度设置为 6 位
dataset = CaptchaDataset(length=2000, charset=charset, captcha_length=captcha_length, transform=transform)
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=64, shuffle=False)

# 使用预训练 ResNet 模型,迁移学习
class CaptchaModel(nn.Module):
    def __init__(self, num_classes, captcha_length):
        super(CaptchaModel, self).__init__()
        self.captcha_length = captcha_length
        self.resnet = models.resnet18(weights=models.ResNet18_Weights.DEFAULT)
        self.resnet.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)
        num_ftrs = self.resnet.fc.in_features
        self.resnet.fc = nn.Linear(num_ftrs, num_classes * self.captcha_length)  # 动态调整输出层大小

    def forward(self, x):
        x = self.resnet(x)
        return x.view(-1, self.captcha_length, num_classes)

# 初始化模型,损失函数和优化器
num_classes = len(charset)
model = CaptchaModel(num_classes=num_classes, captcha_length=captcha_length).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 加载或保存训练检查点
def save_checkpoint(state, filename="captcha_model_checkpoint.pth.tar"):
    print("=> Saving checkpoint")
    torch.save(state, filename)

def load_checkpoint(filename="captcha_model_checkpoint.pth.tar"):
    print("=> Loading checkpoint")
    return torch.load(filename)

# 支持多次训练,从检查点恢复训练
def train_model(epochs, resume=False):
    start_epoch = 0
    if resume and os.path.isfile("captcha_model_checkpoint.pth.tar"):
        checkpoint = load_checkpoint()
        model.load_state_dict(checkpoint['state_dict'])
        optimizer.load_state_dict(checkpoint['optimizer'])
        start_epoch = checkpoint['epoch']
    
    scaler = torch.cuda.amp.GradScaler()

    for epoch in range(start_epoch, epochs):
        model.train()
        running_loss = 0.0
        for images, labels in train_loader:
            images, labels = images.to(device), labels.to(device)

            optimizer.zero_grad()

            with torch.cuda.amp.autocast():
                outputs = model(images)
                loss = sum(criterion(outputs[:, i, :], labels[:, i]) for i in range(captcha_length))
            
            scaler.scale(loss).backward()
            scaler.step(optimizer)
            scaler.update()

            running_loss += loss.item()

        # 计算验证集准确率
        val_accuracy = evaluate_accuracy(val_loader)
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {running_loss/len(train_loader):.4f}, Val Accuracy: {val_accuracy:.4f}')
        
        # 保存检查点
        save_checkpoint({
            'epoch': epoch + 1,
            'state_dict': model.state_dict(),
            'optimizer': optimizer.state_dict(),
        })

# 计算准确率
def evaluate_accuracy(data_loader):
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in data_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            predicted = torch.argmax(outputs, dim=2)
            total += labels.size(0) * captcha_length
            correct += (predicted == labels).sum().item()
    return correct / total

# 可视化模型预测结果
def visualize_predictions(num_samples=16):
    model.eval()
    samples, labels = next(iter(DataLoader(val_dataset, batch_size=num_samples, shuffle=True)))
    samples, labels = samples.to(device), labels.to(device)
    
    with torch.no_grad():
        outputs = model(samples)
        predicted = torch.argmax(outputs, dim=2)

    samples = samples.cpu()
    predicted = predicted.cpu()
    labels = labels.cpu()
    
    fig, axes = plt.subplots(4, 4, figsize=(10, 10))
    for i in range(16):
        ax = axes[i // 4, i % 4]
        ax.imshow(samples[i].squeeze(), cmap='gray')
        true_text = ''.join([dataset.charset[l] for l in labels[i]])
        pred_text = ''.join([dataset.charset[p] for p in predicted[i]])
        ax.set_title(f'True: {true_text}\nPred: {pred_text}')
        ax.axis('off')
    plt.show()

# 训练模型
train_model(epochs=20, resume=False)

# 可视化模型预测结果
visualize_predictions()

在这里插入图片描述

在这里插入图片描述

四、模型评估与可视化

  1. 准确率计算:我们使用准确率作为模型的评估指标,计算方法是将模型预测正确的验证码数量除以总验证码数量。在验证集上的准确率可以反映模型的泛化能力。
  2. 可视化预测结果:为了更好地理解模型的预测结果,我们使用可视化方法展示了模型在验证集上的预测结果。具体来说,我们随机选择了一些验证码图像,并将其输入到模型中进行预测。然后,我们将模型的预测结果与真实结果进行比较,并以图像的形式展示出来。

五、总结与展望

通过使用 ResNet18 进行验证码识别,我们取得了较好的效果。在未来的工作中,我们可以进一步优化模型架构和训练方法,提高模型的准确率和效率。同时,我们还可以将该方法应用于其他类型的验证码识别任务中,为网络安全提供更加全面的保障。

总之,ResNet18 为验证码识别提供了一种新的思路和方法,它具有强大的特征提取能力和良好的泛化性能,能够高效、准确地识别验证码。相信在未来的发展中,深度学习技术将在验证码识别领域发挥更加重要的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2100415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI大模型优化技巧:参数高效微调(PEFT)与LoRA微调深度解析

1. Fine-tuning 相较于基础大模型动辄万卡的代价,微调可能是普通个人或者企业少数能够接受的后训练大模型(post-training)的方式。 微调是指在一个预训练模型(pre-training)的基础上,通过少量的数据和计算资源,对模型进行进一步训练&#x…

阿里巴巴数学竞赛成绩未公布:背后的权衡与期待

文 | 头部财经首席评论员白立新 发布 | 头部财经 top168.com 导语:2024 年阿里巴巴数学竞赛成绩迟未公布,引发广泛猜测。中专生姜萍的表现备受瞩目,达摩院陷入两难困境。这场竞赛结果的公布,关乎多方利益与社会影响,…

UML(ER) manual book

图形与符号 实体 真实世界的表示(实物),负责数据的发送或者接收,通常使用矩形表示。 处理和加工 通常使用圆圈表示数据时如何被处理,比如下订单,付款等动作。 数据存储 通常使用两条平行线表示&…

碲化镉太阳能电池:绿色能源的新星,高效转换引领未来

随着全球对清洁能源需求的持续增长和技术的不断进步,碲化镉太阳能电池必将在未来的能源市场中占据重要地位。‌‌PicoQuant公司一直致力于碲化镉太阳能电池新材料、‌新工艺的探索与研发,充分利用其在时间分辨技术上的优势,‌为碲化镉太阳能电…

5、LVGL控件-滑轮、滑动条、圆弧

本篇文章目录导航 ♠♠ LVGL控件-滑轮、滑动条、圆弧 ♣♣♣♣ 一、LVGL 滑轮部件 ♦♦♦♦♦♦♦♦ 1.1 滑轮部件组成部分 ♦♦♦♦♦♦♦♦ 1.2 滑轮部件基本API ♦♦♦♦♦♦♦♦ 1.3 实验小演示 ♣♣♣♣ 二、LVGL 滑动条部件 ♦♦♦♦♦♦♦♦ 2.1 滑动条部件组成部分 ♦…

论文阅读:MambaVision: A Hybrid Mamba-Transformer Vision Backbone

论文地址:arxiv 摘要 作者提出了一种新型的混合 Mamba-Transformer 主干网络。通过重新设计 Mamba 公式,增强了其高效建模视觉特征的能力。 此外,作者还通过对 ViT 与 Mamba 消融研究,实验结果表明了:在最后几层为 …

“双碳”减排背景下企业自发电系统该具备哪些功能?

随着全球能源危机加剧、用能需求上升以及新能源技术的迅速发展,新能源发电的应用范围不断扩大,并逐步形成了新型能源与电力市场。然而,由于新能源的能量密度普遍较低,进行大规模发电时需精心挑选适合的位置,因此新能源…

【网络安全】服务基础第一阶段——第九节:Windows系统管理基础---- Windows_AD域

目录 一、域与活动目录 1.1 工作组 1.2 域 1.2.1 域(Domain) 1.2.2 域控制器(Domain Controller,DC) 1.2.3 功能和角色 1.2.4 管理和监控 1.2 5 域结构 1.3 组织单元(Organizational Unit&#xff…

Seata 的4种事务模式(XA、AT、TCC、SAGA)

目录 前言 Seata架构 事务模式 XA AT TCC 区别 前言 在分布式系统中,实现一个功能可能需要由几个不同的服务来共同实现。这就会带来一个问题,不同的服务之间无法做到使用同一个事务,这就无法保证数据的一致性了。在一些对数据一致性要…

基于SSM的“基于决策树算法的大学生就业预测系统”的设计与实现(源码+数据库+文档)

基于SSM的“基于决策树算法的大学生就业预测系统”的设计与实现(源码数据库文档) 开发语言:Java 数据库:MySQL 技术:SSM 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统用户用例图 学校基础信息管理 毕业生基…

Java设计模式之装饰器模式详细讲解和案例示范

1. 引言 装饰器模式(Decorator Pattern)是一种结构型设计模式,它允许向现有对象添加新的功能,而无需修改其结构。这种模式通过使用组合而非继承来扩展对象的行为,在许多实际应用中极为常见。本文将详细介绍装饰器模式…

世界复合医学杂志社世界复合医学编辑部2024年第4期目录

论著 苏子降气汤联合三子养亲汤治疗痰浊壅肺型慢性阻塞性肺疾病急性加重期的临床疗效 周芹;周磊; 1-437 天麻钩藤汤加减联合依那普利叶酸片对原发性高血压患者血压水平与中医证候积分的影响 邹文博;王世雄; 5-8 伏诺拉生联合康复新液治疗反流性食管炎的临床研究 孙…

山体滑坡监测预警系统—百科分享

GNSS山体滑坡监测预警系统是一种利用全球导航卫星系统(GNSS)技术,对易发生山体滑坡的地段进行24小时不间断监测的先进系统。该系统能够实时记录易滑坡地段山体的各种变化情况,为灾害预警和防治提供科学依据。 GNSS山体滑坡监测预警系统通过在地表关键位置…

05-最新PyCharm安装详细教程及pycharm配置

一、PyCharm简介及其下载网站 PyCharm是由JetBrains打造的一款Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。PyCharm提供了代码编辑、调试、语…

700道学生百科知识题库ACCESS\EXCEL数据库

今天这个题库虽然记录数不多,但是题目很经典、精彩、精华,分7个难度级别,每个级别100题;分类也很多,包含:百科、常识、地理、动画、国学、化学、历史、旅游、美食、诗词、数学、体育、天文、文学、物理、星…

如何选择合适的同轴连接器?关键性能指标全解析

同轴连接器是用于连接同轴电缆或同轴传输线与其他电子设备或另一段同轴电缆的一种装置。它们在射频(RF)和微波通信系统中非常常见,因为它们能有效减少信号损耗并提供良好的屏蔽,以防止电磁干扰(EMI)。 基本…

执行标准应该公开吗?

在当今社会,标准的重要性日益凸显。执行标准,如同商业世界和公共生活中的指南针,为产品质量、服务水平以及各类活动划定了清晰的界限。那么,执行标准应该公开吗?这是一个值得我们深入探讨的关键问题。 一、对于国家标…

如何在VSCode中同时打开多个页面?

问题描述: 使用VSCode的时候,为什么打开一个文件之后就会把另一个文件顶替,始终保持打开一个文件的状态呢?如果我想同时打开两个文件页面怎么办? 解决办法: 在 Visual Studio Code (VSCode) 中&#xff…

手机播放DVD:VLC播放器(直接下载apk)

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

飞睿智能酒店人体存在感应雷达模块24G传感器,智能空调、LED照明开关节能新风尚

在科技日新月异的今天,智能酒店已经不再是遥不可及的梦想,而是逐渐走进了我们的日常生活。从智能门锁到自动调节的室内环境,再到贴心的语音助手服务,智能酒店为我们带来了未有的便捷与舒适。然而,在这些令人惊叹的智能…