OCR调研

OCR调研

news2026/2/18 22:59:29

OCR调研

一、介绍

OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换为计算机可处理格式的技术。OCR技术经历了从传统OCR到基于深度学习的OCR的转变。深度学习OCR技术通过模拟人脑神经元结构处理文本和图像数据，相较于传统OCR，在复杂场景下的识别性能和速度有显著提升。它在金融、保险、医疗、交通、教育等多个行业中有广泛应用，并随着人工智能技术的发展，OCR技术的性能不断提升，应用场景也日益复杂化。

二、开源项目

1 PaddleOCR

项目地址：https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR文档：https://paddlepaddle.github.io/PaddleOCR/

百度开源项目，文档完善。PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库，助力使用者训练出更好的模型，并应用落地。

优点：准确率高，支持多语言，支持多种 OCR 相关前沿算法，支持自训练，支持倾斜、竖排等多种方向文字识别

缺点：偏向中文识别，语言支持有限

部署：本地部署、云端部署、docker

2 Tesseract

项目地址：https://github.com/tesseract-ocr/tesseract

优点：由Google维护，支持超过100种语言的识别，并且能够处理多种图像格式，如PNG、JPEG和TIFF等。提供了丰富的API接口和文档，支持多种操作系统。

缺点：速度慢

部署：安装Tesseract OCR（Windows/Linux）、配置环境变量

3 EasyOCR

项目地址：https://github.com/JaidedAI/EasyOCR

优点：全语种的（包括70+门外语识别），不单单针对中文

缺点：速度慢，官方推荐支持CUDA的独立显卡可以提高运行效率。

部署：pip安装，只能linux/windows下运行。

4 chineseocr

基于yolo3 与crnn 实现中文自然场景文字检测及识别

项目地址：https://github.com/chineseocr/chineseocr

优点：支持补充训练，有多版本优化模型

缺点：使用的三方库较老，部分三方库已废弃，环境配置困难，效果一般，且很少维护

5 chineseocr_lite

超轻量级中文ocr，支持竖排文字识别, 支持ncnn、mnn、tnn推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet(378KB)) 总模型仅4.7M

项目地址：https://github.com/DayBreak-u/chineseocr_lite

优点：轻量模型，执行速度快，准确率高

缺点：不支持pip安装，不支持补充训练，不支持自定义训练；不支持复杂、不常见字符，比如德语、法语；竖向文本识别错误。

部署：源码下载运行

6 CnOCR

CnOCR 是 Python 3 下的文字识别（Optical Character Recognition，简称OCR）工具包，支持简体中文、繁体中文（部分模型）、英文和数字的常见字符识别，支持竖排文字的识别。自带了20+个训练好的识别模型，适用于不同应用场景，安装后即可直接使用。同时，CnOCR也提供简单的训练命令供使用者训练自己的模型。

项目地址：https://github.com/breezedeus/cnocr

文档：https://cnocr.readthedocs.io/zh-cn/stable/

优点：轻量模型，执行速度快，效果好，支持训练自己的模型

缺点：部分符号识别效果差，部分场景下会出现空格丢失情况

部署：pip

7 RapidOCR

目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。主打ONNXRuntime推理引擎推理，比Paddle推理引擎速度有4~5倍提升，且没有内存泄露问题。

项目地址：https://github.com/RapidAI/RapidOCR

部署：pip

8 Umi-OCR

开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

项目地址：https://github.com/hiroi-sora/Umi-OCR

9 SwiftOCR

项目地址：https://github.com/NMAC427/SwiftOCR

已被弃用，不再维护。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2035939.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

打造高效存储与访问体验：NFS共享携手Nginx负载均衡，赋能企业级数据流通与性能优化

打造高效存储与访问体验：NFS共享携手Nginx负载均衡，赋能企业级数据流通与性能优化

作者简介：我是团团儿，是一名专注于云计算领域的专业创作者，感谢大家的关注座右铭： 云端筑梦，数据为翼，探索无限可能，引领云计算新纪元个人主页：团团-CSDN博客目录: 前言&#…

阅读更多...

AIGC实践｜AI助力一张照片生成百变写真

AIGC实践｜AI助力一张照片生成百变写真

前言： 在之前的文章中，我们已经领略了 AI 在动态有声绘本、小游戏开发、视频短片制作以及包装设计等领域的神奇应用，在本篇文章中，我将尝试利用AI辅助，使用一张照片生成个性化写真集。充分满足工作艺术照、各地郊游打…

阅读更多...

关于自己部署AI大模型踩的坑（二）—— GPU篇

关于自己部署AI大模型踩的坑（二）—— GPU篇

最近一直在研究如何打算属于我自己的J.A.R.V.I.S.（钢铁侠中的机器人管家）。上一篇写了我最近在部署自己的大模型，使用llama3.1， 和通义千问2。虽然最终结果也是成功了，过程却十分地坎坷。所以这一篇文章一是总结其中…

阅读更多...

linux学习--第一天

linux学习--第一天

--linux基础命令 -本地安装 1. sudo dpkg -i 软件包 ：安装单个软件包 2. sudo dpkg -i * .deb ：安装多个软件包 3. sudo dpkg -L 软件包：列出软件在系统中文件路径 4. sudo dpkg -s 软件包：列出软件包的安装状态 5. …

阅读更多...

页面布局-1

页面布局-1

1.定位 CSS 属性名功能属性值position设置定位 static：不定位，默认值。 relative：相对定位。 absolute：绝对定位。 fixed：固定定位 left与参照点左侧距离长度right与参照点右侧距离长度top与参照点上侧距离长度bottom…

阅读更多...

【数据结构初阶】队列

【数据结构初阶】队列

hello！ 目录一、概念与结构二、队列的实现 Queue.h Queue.c test.c 一、概念与结构 1、概念：只允许在一端进行插入数据操作，在另一端进行删除数据操作的特殊线性表，队列具有先进先出的特性。入队列：进行插入操作…

阅读更多...

音视频概要

音视频概要

YUV原理的讲解 YUV是一种常见的视频像素格式，经常用在视频编解码上面，YUV分别由Y分量和U、V分量(红色投影Cr)组成。Y分量指的是亮度分量，也就是我们经常说的灰阶值，相当于一副灰色的图像。而U分量和V分量表示的是色度分量&#x…

阅读更多...

搭建高可用OpenStack（Queen版）集群（九）之部署nova计算节点

搭建高可用OpenStack（Queen版）集群（九）之部署nova计算节点

一、搭建高可用OpenStack（Queen版）集群之部署计算节点一、部署nova 1、安装nova-compute 在全部计算节点安装nova-compute服务 yum install python-openstackclient openstack-utils openstack-selinux -y yum install openstack-nova-compute -y 若yu…

阅读更多...

基于vue框架的《大学计算机》课程思政资源共享平台ac9s7（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。

基于vue框架的《大学计算机》课程思政资源共享平台ac9s7（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。

系统程序文件列表项目功能：学生,教师,教研小组,章节分类,课程内容,资源类型,资源信息开题报告内容基于Vue框架的《大学计算机》课程思政资源共享平台开题报告一、引言随着教育信息化的深入发展，高等教育领域对课程思政的重视程度日益提升。《大…

阅读更多...

【kubernetes】pod控制器详解

【kubernetes】pod控制器详解

一、pod控制器概述 1、Pod控制器作用 Pod控制器，是用于实现管理pod的中间层，确保pod资源符合预期的状态，pod的资源出现故障时，会尝试进行重启，当根据重启策略无效，则会重新新建pod的资源。 2、pod控制器…

阅读更多...

Ethercat学习-SOEM主站源码解析（DC部分）

Ethercat学习-SOEM主站源码解析（DC部分）

文章目录 SOEM DC模式源码简介示例用图ecx_porttimeecx_parentportecx_configdc如果从站不支持DC如果从站支持DC SOEM DC模式源码简介示例用图本文中都会围绕着这个图来讲，从站的port编号依次为0，3，1，2 在SOEM中，与…

阅读更多...

C++11相关新特性（列表初始化、右值引用、可变参数模版）

C++11相关新特性（列表初始化、右值引用、可变参数模版）

目录 C11相关新特性列表初始化初始化简单变量初始化容器 decltype关键字 C 11新增的容器左值引用和右值引用左值与右值左值引用与右值引用左值引用和右值引用的相互转化右值引用的使用拷贝构造函数与移动构造函数赋值重载函数与移动赋值重载函数元素插…

阅读更多...

ZABBIX邮件监控发送信息

ZABBIX邮件监控发送信息

前言：本地邮箱，第三方邮箱，第三方邮箱加脚本 1、本地邮箱测试 #cd /home # ls laiyingx [rootzabbix ~]# vim /etc/postfix/main.cf /mydestination $myhostname, localhost.$mydomain, localhost,$mydomain [rootzabbix ~]# systemctl…

阅读更多...

Python 函数返回yield还是return？这是个问题

Python 函数返回yield还是return？这是个问题

如果你刚入门 Python，你可能之前没有遇到过yield。虽然它看起来很奇怪，但它是你编码工具库中的一个重要工具。在成为 Python 大师的道路上，你必须掌握它。返回列表的函数假设有一个函数，它可以一次性生成一系列值，…

阅读更多...

代理服务器在HTTP请求中的应用：Ruby实例

代理服务器在HTTP请求中的应用：Ruby实例

摘要在现代互联网架构中，代理服务器是不可或缺的组件，它提供了访问控制、数据加密、缓存和匿名访问等多种功能。本文将介绍代理服务器的基本概念，并以Ruby编程语言为例，展示如何在HTTP请求中使用代理服务器，包括设置…

阅读更多...

树莓派4 AV没有视频输出

树莓派4 AV没有视频输出

使用AV接口输出，没有画面需要在config.txt文件中增加配置 enable_tvout1config.txt 中的 dtoverlayvc4-kms-v3d 行末尾添加,composite： dtoverlayvc4-kms-v3d,composite默认情况下，输出 NTSC 复合视频。要选择不同的模式，请在…

阅读更多...

python信息熵与信息增益

python信息熵与信息增益

前言最近在读几篇华为杯的优秀论文，都是关于数据预测相关的，准确来说是时间序列预测，在数据处理部分发现了一个有趣的内容“信息熵”，之前在周志华老师的西瓜书上决策树剪枝部分看到过，在数据降维的部分看到还是第一…

阅读更多...

关于springboot的拦截器能力源码分析

关于springboot的拦截器能力源码分析

首先你得有web环境，这个就不说了，springboot下很简单。一、拦截器使用我们先来使用一下拦截器。步骤1、先创建一个Controller RestController RequestMapping("/test") public class MyController {GetMapping("/test/{name}"…

阅读更多...

HAProxy原理及实例

HAProxy原理及实例

目录目录 haproxy简介 haproxy的基本信息 haproxy下载并查看版本 haproxy的基本配置信息 global配置编辑多进程和多线程启用多进程启用多线程 haproxy开启多线程和多进程有什么用 proxies配置 defaults frontend backend listen socat工具实例&#xff1a…

阅读更多...

ESP32 SNTP 网络校时钟表显示

ESP32 SNTP 网络校时钟表显示

8月12日(2) 例程环境：Windows 11、Visual Studio Code、IDF_V5.2.1、LVGL_V8.3.11、HelloBug ESP32 Pilot开发板源码获取：https://item.taobao.com/item.htm?ftt&id652537645861 向商家索取对应源码 SNTP (Simple Network Time Protocol) 是一种简…

阅读更多...

推荐文章

最新文章