基于pyqt和卷积网络CNN的中文汉字识别

news2024/11/17 11:47:14

直接上效果演示图:

 通过点击按钮可以实现在画板上写汉字识别和加载图片识别两个功能。

视频演示和demo仓库地址在b站视频001期:

到此一游7758258的个人空间-到此一游7758258个人主页-哔哩哔哩视频

所有代码展示:

十分的简洁,主要是01,02,03.py文件

运行01dataset.py可以将data文件下的图片数据集保存成txt格式记录。

运行02train.py可以读取txt记录的图片数据进行训练,训练的模型保存在本地,其中提供了10多种的模型可以任意的切换。包括:efficientnet、Alexnet、DenseNet、DLA、GoogleNet、Mobilenet、ResNet、ResNext、ShuffleNet、Swin_transformer、VGG等。

 训练结束后保存评价指标图在result文件下:

最后运行03pyqt.py可以展示一个可视化的交互界面,通过点击按钮来识别,这里弹出的界面上提供了第一个按钮为在画板上控制鼠标写出汉字识别。

第二个按钮为加载汉字图片进行识别。

 

 先是第一个按钮点击后,左侧为鼠标手写汉字界面,右侧为预测结果和控制按钮。

第二个按钮和第一个按钮界面展示一样,只不过手写变成了加载本地图片来识别。 

 

 科普下卷积神经网络相关知识:

CNN是卷积神经网络(Convolutional Neural Network)的缩写。它是一种前馈神经网络,特别适用于处理具有网格状结构的数据,例如图像、视频和声音等。CNN由多个卷积层、池化层和全连接层组成。

CNN的核心思想是通过卷积操作和池化操作来提取输入数据中的特征。卷积层使用卷积核对输入数据进行滑动窗口操作,以捕捉不同位置的局部特征。通过堆叠多个卷积层,网络可以学习到更加复杂的特征表示。池化层则用于降低数据维度,并保留最显著的特征。全连接层将特征映射到具体的输出类别上。

CNN在计算机视觉领域取得了巨大成功,广泛应用于图像分类、目标检测、人脸识别等任务。其优势在于能够自动学习具有平移不变性的特征,并且对于大规模数据集训练时具有较好的性能。

ALexNet是一种深度卷积神经网络(CNN),由Alex Krizhevsky等人于2012年提出。它是第一个在ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)上取得显著优势的深度学习模型。

ALexNet采用了多层卷积层和全连接层的结构。相比于传统的浅层网络,ALexNet引入了更深的网络结构,包含5个卷积层和3个全连接层。同时,它还使用了非线性激活函数(ReLU)来增强模型的表达能力,并且引入了局部响应归一化(Local Response Normalization)层来提高泛化性能。

ALexNet的设计突破了之前的限制,通过大规模数据集的训练,成功地提升了图像分类任务的准确性。它在2012年的ILSVRC比赛中取得了远超其他模型的成绩,标志着深度学习方法在计算机视觉领域的崛起。

ALexNet的成功对深度学习的发展产生了重要影响,激发了更多研究者对深度神经网络的研究兴趣,并为后续的网络架构设计提供了启示。

GoogleNet,也称为Inception,是由Google团队在2014年提出的深度卷积神经网络(CNN)。它是为了参加ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)而设计的。

GoogleNet采用了一种称为"Inception模块"的特殊结构,它允许网络在不同尺度上进行并行处理,以捕捉不同层次的特征。这种并行处理有助于减少参数量,并且在一定程度上缓解了过拟合问题。

与传统的网络相比,GoogleNet具有更深的结构,但通过合理的设计和使用1x1的卷积核进行降维操作,成功地减少了计算复杂度和参数数量。它在2014年的ILSVRC比赛中取得了显著的成果,并且提出的架构思想影响了后续深度学习模型的发展。

VGG是一种深度卷积神经网络(CNN),由牛津大学的研究团队在2014年提出。它被命名为VGG,以纪念论文作者之一Visual Geometry Group(视觉几何群)。

VGG网络的主要特点是其深度和简单性。相比于之前的模型,VGG采用了更多的卷积层和池化层,达到了16或19个卷积层的深度。同时,VGG中的卷积层都使用了较小的3x3卷积核,并且连续堆叠多次,以增加网络的非线性表达能力。

VGG网络的结构非常规整,逻辑清晰。它由多个卷积块组成,每个卷积块由连续的卷积层和一个池化层构成。最后的全连接层负责将提取到的特征映射到具体的输出类别上。

尽管VGG网络相对较深,但它在各种视觉任务上表现出色。VGG的设计思想启发了后续更深层次的神经网络架构,为深度学习的发展做出了重要贡献。

RESNET是一种深度残差网络(Residual Network),由微软研究院的研究团队在2015年提出。它是为了解决深度神经网络中的退化问题(degradation problem)而设计的。

在传统的深度神经网络中,随着网络层数的增加,模型的准确性通常会饱和或下降。这是因为较深层次的网络更难优化,容易出现梯度消失或梯度爆炸等问题。为了解决这个问题,RESNET引入了残差学习的思想。

RESNET通过跳过连接(skip connection)来构建残差块。跳过连接使得信息可以直接在网络中传递,绕过某些层,从而避免了信息丢失和退化。具体而言,每个残差块的输入通过一个恒等映射(identity mapping)与输出相加,然后再进入激活函数进行非线性变换。这种设计使得网络学习到残差的差异,从而更有效地优化模型。

RESNET的结构可以很容易地扩展到更深的层数,甚至达到数百层的深度。利用残差连接的设计,RESNET在ILSVRC比赛等各种视觉任务中取得了非常出色的结果,并且成为深度学习中非常重要的网络架构之一。

MobileNet是一种轻量级的深度卷积神经网络(CNN),由Google的研究团队于2017年提出。它的设计旨在实现在嵌入式设备和移动设备等资源受限的环境下进行高效的图像识别和分类。

MobileNet通过使用深度可分离卷积(depthwise separable convolution)来减少模型的计算量和参数数量。深度可分离卷积将标准卷积操作拆分为两个步骤:深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)。深度卷积对每个输入通道单独执行卷积操作,而逐点卷积用于组合输出通道。这种方式可以大幅减少计算量,同时保持较好的模型准确性。

MobileNet还引入了宽度乘法器(width multiplier)和分辨率乘法器(resolution multiplier)的概念。宽度乘法器用于控制每一层的特征通道数,以进一步减少模型的计算负载。分辨率乘法器则用于调整输入图像的分辨率,从而在模型运行时降低计算需求。

MobileNet在保持相对较小模型大小和低计算成本的同时,仍能保持较高的识别准确率。这使得它在移动设备、嵌入式设备和实时应用等场景中受到广泛应用,例如图像分类、目标检测和人脸识别等任务。

ShuffleNet是一种轻量级的深度神经网络架构,由微软研究院的研究团队于2018年提出。它的设计目标是在计算资源受限的设备上实现高效的图像分类和目标检测。

ShuffleNet通过引入逐通道组卷积(channel shuffling)和分组卷积(group convolution)等操作来减少模型的计算复杂度和参数量。逐通道组卷积将输入特征图的通道重新排列,以增加不同通道之间的交互性。分组卷积将输入特征图分为多个组,并对每个组进行卷积操作,以减少计算量。

ShuffleNet的核心结构是Shuffle Unit,它包含了逐通道组卷积、分组卷积和特征重组(feature shuffle)等操作。Shuffle Unit的设计使得网络在同时保持较低计算负担的前提下,能够学习到更丰富的特征表示。

ShuffleNet具有较小的模型大小和低计算需求,适合在移动设备、嵌入式设备和实时应用等场景中部署。它在保持相对较高的准确率的同时,有效地优化了计算资源的利用。ShuffleNet已经在图像分类、目标检测和人脸识别等领域取得了显著的成果,并为轻量级深度学习模型的发展提供了重要思路。

EfficientNet是一种高效的深度卷积神经网络(CNN)架构,由Google Brain团队在2019年提出。它通过联合优化模型深度、宽度和分辨率来实现更好的性能和计算效率。

EfficientNet的设计思想是基于两个观察结果:首先,较大的模型往往具有更好的性能,但训练和推理成本也更高;其次,网络的深度、宽度和分辨率之间存在着相互依赖的关系。基于这些观察结果,EfficientNet使用了一个称为Compound Scaling的方法,同时增加了模型的深度、宽度和分辨率,以在资源受限的环境下取得更好的性能。

EfficientNet的核心结构是EfficientNet-B0到EfficientNet-B7,它们是由不同层数和通道数的组合构成的。通过使用复合缩放方法,每个EfficientNet模型都可以根据任务和计算资源进行调整,并在准确性和计算效率之间找到一个平衡点。

EfficientNet在许多计算机视觉任务上表现出色,包括图像分类、目标检测和语义分割等。它已经成为当今领先的深度学习模型之一,为在资源受限的设备上实现高效而准确的推理提供了重要的解决方案。

Swin Transformer是一种新兴的视觉感知模型,由香港中文大学的研究团队在2021年提出。它结合了Transformer架构和局部窗口注意力机制,通过分解嵌入式图像处理的长距离依赖性问题。

传统的Transformer模型在处理图像时会面临计算和内存开销的挑战,因为图像具有高分辨率和大量的位置信息。为了解决这个问题,Swin Transformer引入了一个细粒度的分割策略和基于窗口的局部注意力机制。

Swin Transformer首先将输入图像分成小的非重叠路径块(patch),然后在这些路径块上应用Transformer的自注意力机制。接下来,通过使用窗口化的局部注意力机制,模型能够同时处理局部和全局的信息。这种设计不仅降低了计算和内存开销,还有效地捕捉到了图像中不同尺度的特征。

Swin Transformer在多个计算机视觉任务上取得了令人印象深刻的结果,包括图像分类、目标检测和语义分割等。它兼具高效性和表现力,在减少计算复杂度的同时,保持了较好的准确性和泛化性能。Swin Transformer为图像处理领域带来了新的思路和突破,并吸引了广泛的关注和研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/700401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【从零开始学习JAVA | 第二十六篇】泛型补充知识

目录 前言: 泛型的更多应用: 泛型类: 泛型方法: 泛型方法: 总结: 前言: 在上一篇文章中我们介绍了泛型的基础知识,也就是在创建集合的时候用到泛型,此时的泛型更多…

关于内存颗粒的地址映射

即便从软件角度,抛开地址译码器讨论内存颗粒中指定位置处的地址(DDR中的指定位置的电容)也是没有意义的。晶体管没有绝对地址,就如同地理测量中测定位置前需要确定坐标系一样,同一个位置在不同的坐标系中的地址描述可以…

【CVRP测评篇】 算法性能如何?来测!

我跨越了2100015秒的距离,为你送上更全面的算法性能评测。 目录 往期优质资源1 CVRP数据集2 实验准备2.1 计算机配置2.2 调参方法2.3 参数设定2.4 实验方法 3 实验结果3.1 最优解统计3.1.1各数据集上的算法性能对比3.1.2 求解结果汇总3.1.3小结一下3.1.4 还有话说 3…

使用 RedisTemplate 对象的 opsForValue() 方法获取 Redis 中的值获取不到

问题 使用 RedisTemplate 对象的 opsForValue() 方法获取 Redis 中的值获取不到 详细问题 笔者代码如下 1 使用 ValueOperations 对象的 set() 方法将一个键值对存储到 Redis 中 valueOperations.set("order:" user.getId() ":" goods.getId(), sec…

【Redis】2、Redis应用之【根据 Session 和 Redis 进行登录校验和发送短信验证码】

目录 一、基于 Session 实现登录(1) 发送短信验证码① 手机号格式后端校验② 生成短信验证码 (2) 短信验证码登录、注册(3) 登录验证① 通过 SpringMVC 定义拦截器② ThreadLocal (4) 集群 Session 不共享问题 二、基于 Redis 实现共享 session 登录(1) 登录之后,缓…

23款迈巴赫S480升级原厂10°后轮转向系统,减少转弯半径

就是低速的情况下,有更强的机动性,前后车轮的不同转动方向使得车辆可以凭借更更小转弯半径实现转向,在特定的狭窄路段或者停车时,车辆的操控性大大提升,而内轮差也缩小也增大了转向的安全性。 高速的情况下&#xff0…

C. Road Optimization(dp)

Problem - 1625C - Codeforces 火星政府不仅对优化太空飞行感兴趣,还希望改进该行星的道路系统。 火星上最重要的高速公路之一连接着奥林匹克城和西多尼亚的首都Kstolop。在这个问题中,我们只考虑从Kstolop到奥林匹克城的路线,而不考虑相反的…

技术创举!比亚迪-汉上的实景三维导航...

实景三维技术的发展日新月异,但在应用中却一直深陷内存占用、渲染缓慢、加载卡顿和模型塌陷等问题。对此,大势智慧率先推出海量数据轻量化技术,在业内首次实现实景三维模型在车机系统的直接浏览,展示了轻量化技术赋能实景三维应用…

面试Dubbo ,却问我和Springcloud有什么区别?

Dubbo 、Springcloud? 这两有关系? 前言一、RPC 框架的概念1. 什么是RPC框架2. RPC 和 普通通信 的区别 二、常用 RPC 框架1. Dubbo2. gRPC3. Thrift4. Feign 三、dubbo 与 Springcloud1. Dubbo 的模型2. Springcloud3. dubbo 与 Springcloud 的区别 前言 提到Dub…

若隐若现的芯片

先看效果&#xff1a; 再看代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>若隐若现的芯片</title><script src"https://unpkg.co/gsap3/dist/gsap.min.js">…

HBase(5):导入测试数据集

1 需求 将ORDER_INFO.txt 中的HBase数据集&#xff0c;我们需要将这些指令放到HBase中执行&#xff0c;将数据导入到HBase中。 可以看到这些都是一堆的put语句。那么如何才能将这些语句全部执行呢&#xff1f; 2 执行command文件 2.1 上传command文件 将该数据集文件上传到指…

单点登录原理

单点登录原理 一、什么是单点登录 单点登录英文全称Single Sign On&#xff0c;简称SSO。指在多系统应用群中登录一个系统&#xff0c;便可在其他所有系统中得到授权而无需再次登录&#xff0c;包括单点登录与单点注销两部分。 二、为什么需要单点登录 在一些子系统用户信息…

初识Go语言25-数据结构与算法【堆、Trie树、用go中的list与map实现LRU算法、用go语言中的map和堆实现超时缓存】

文章目录 堆Trie树练习-用go中的list与map实现LRU算法练习-用go语言中的map和堆实现超时缓存 堆 堆是一棵二叉树。大根堆即任意节点的值都大于等于其子节点。反之为小根堆。   用数组来表示堆&#xff0c;下标为 i 的结点的父结点下标为(i-1)/2&#xff0c;其左右子结点分别为…

Python图像锐化及边缘检测(Roberts、Prewitt、Sobel、Lapllacian、Canny、LOG)

目录 图像锐化概述 算法方法介绍 代码实现 效果展示 图像锐化概述 图像锐化(image sharpening)是补偿图像的轮廓&#xff0c;增强图像的边缘及灰度跳变的部分&#xff0c;使图像变得清晰&#xff0c;分为空间域处理和频域处理两类。图像锐化是为了突出图像上地物的边缘、轮…

Docker|kubernetes|本地镜像批量推送到Harbor私有仓库的脚本

前言&#xff1a; 可能有测试环境&#xff0c;而测试环境下有N多的镜像&#xff0c;需要批量导入到自己搭建的Harbor私有仓库内&#xff0c;一般涉及到批量的操作&#xff0c;自然还是使用脚本比较方便。 本文将介绍如何把某个服务器的本地镜像 推送到带有安全证书的私有Harb…

【P61】JMeter JDBC Connection Configuration

文章目录 一、JDBC Connection Configuration 参数说明二、准备工作 一、JDBC Connection Configuration 参数说明 可以给数据源配置不同的连接池&#xff0c;供后续 JDBC 采样器使用&#xff1b;使用前请将对应的数据库驱动复制到 $JMETER_HOME/lib/ 或者 $JMETER_HOME/lible…

使用注解开发

使用注解开发 为了方便查看测试结果以及方便调试&#xff0c;先熟悉和配置日志。 日志 日志工厂 如果一个数据库操作出现了异常、需要进行排错&#xff0c;可以通过查看日志的方式实现。 Mybatis内置的日志工厂能够提供日志功能&#xff0c;具体的日志实现有以下几种&#xff…

基于Java+Vue前后端分离“魅力”繁峙宣传网站设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

国产MCU-CW32F030开发学习-ST7735 LCD模块

国产MCU-CW32F030开发学习-ST7735 LCD模块 硬件平台 CW32_48F大学计划板CW32_IOT_EVA物联网开发评估套件0.96 IIC oled模块 ST7735 LCD模块 硬件接口使用的 2.54mm 间距的排针接口&#xff0c;这使用杜邦线进行连接. ST7735参数供电电压3.3~5.5V驱动ICST7735分辨率128x1…

基于antdv封装的特殊复杂表格,带通行描述信息、可展示通行的单元格信息、可跨页选择数据功能、分页功能、可编辑单元格功能

基于antdv封装的特殊复杂表格&#xff0c;带通行描述信息 主要功能&#xff1a; 可展示通行的单元格信息可跨页选择数据功能表单插槽、合计插槽、操作按钮区插槽分页功能接口内请求api可编辑单元格表格组件暴漏出的方法&#xff1a;查询、获取选中数据、接口返回数据、当前表…