什么是光学字符识别 (Optical Character Recognition)?

news2025/1/16 1:43:54

人工智能如何推动光学字符识别OCR的发展

人工智能正在不断改变着光学字符识别(Optical Character Recognition)工具的功能。作为计算机视觉的一个分支领域,OCR主要用于处理文本图像,将图像中的文本转换为机器可读的形式。换言之,OCR将物理文档中的手写或打字文本转换成数字格式。

20世纪90年代,越来越多的业务负责人开始使用光学字符识别(有时被称为文本识别)将物理文档转换为数字文件。自那时起,OCR技术的质量一直在提升,但同时,人们也越来越希望在更广泛的需求范围内使用OCR技术。最近,在AI发展的推动下,OCR的精确度和速度继续得到提高,用途范围也随之扩大。借助AI的优势,并非OCR流程的每一步都需要人工监督。

OCR光学字符识别工作原理

OCR系统的特点是集硬件和软件于一体。OCR系统旨在扫描物理文档的文本,并将文档中的字符转换为代码,然后再将代码用于数据处理。想象一下邮政和邮件分拣服务,OCR是目的地址和返回地址快速处理功能的核心,可以提高邮件分拣的速度和效率。OCR系统通过三个步骤实现功能:

1.图像预处理

第一步,硬件(通常是光学扫描仪)将文件的物理形式处理成图像,例如信封的图像。这一步骤旨在保证机器重现准确无误的文本,消除任何不必要的错误。生成图像被转换成黑白版本,然后分析亮区域(背景)和暗区域(字符)。如果需要,OCR系统还可以将图像分类为单独元素,如表格、文本或嵌入图像。

2.智能字符识别

AI通过分析图像的黑暗区域来识别字母和数字。通常,AI会使用以下其中一种方法中来一次锁定一个字符、单词或文本块:

模式识别:团队利用多种多样的各类文本、文本格式和笔迹来训练AI算法。AI算法将在信封图像上扫描到的字符与已学习过的字符进行比较,以识别匹配字符。

特征提取:为了识别新的字符,AI算法应用有关特定字符特征的规则。特征可以包括字符角度、交叉或水平线和曲线的数量。例如,“H”有两条垂直线,中间有一条横线;机器将通过这些特征标识符来识别信封上所有的“H”。

在机器识别出字符后,再将字符转换成可用于进一步操作的ASCII码。

3.后处理

第三步,AI纠正结果文件中的错误。一种方法是根据文档中的特定词汇来训练AI(例如,金融专业术语等)。控制AI,确保输出的内容没有超出词典的范围,来保证文档质量。

OCR的应用

OCR应用于多个方面;OCR对任何物理文件管理业务大有裨益。以下是一些突出的用例:

文字处理

OCR最早和最常见的用途之一是文字处理。用户可以扫描打印的文档,并将其转换为可编辑和可搜索的版本。AI有助于确保以尽可能高的准确性转换这些文件。

法律文件

OCR可以将贷款文件等重要签署法律文件放入电子数据库,以方便日后参考。多方可以轻松查看和共享文档。

零售

零售商使用序列号来表示他们的产品。在零售店或仓库中,机器人可以扫描产品条形码,使用OCR从条形码中提取序列号,并使用序列号信息跟踪库存。

历史文档保护

OCR可以将历史文档转换为可搜索的PDF文件。这对旧报纸、杂志、信件和其他历史记录的存档大有裨益。

银行业

如今,您可以用智能手机拍一张您想存的支票正面和背面照片。AI驱动的OCR技术可以自动检查支票,以确认支票有效性,并确认支票与您想存入的金额是否相符。

如果没有AI的推动,如今的OCR技术不会如此先进。AI与OCR相结合,降低了出错率,大幅度提高了文档转换的精确度,并为文档提供额外更多分析。为了减少行政和成本费用,更多公司在寻求更加有效的文件管理方法。公司寻求更有效文件管理方法的主要驱动力是减少行政和成本费用。

OCR和AI:企业福音

发明OCR之前,只能通过人工方式将物理文本转换为数字文本:必须手工重新输入各文档,这是一项很耗时且容易出错的任务。如今,OCR技术大大提高了文本的转换速度,并保证了原始内容转换的准确度。一旦OCR将硬拷贝纸质文件转换成数字格式,浏览者我们就可以编辑其内容、格式化修改格式和搜索文档。浏览者还可以通过电子邮件轻松发送文档,将文档上传到网站,以及以压缩形式存储文档。当然,OCR还减少了对物理存储空间的需求,为严重依赖文档的企业(如抵押贷款经纪人或法律公司)节省了成本。

随着团队将OCR、AI以及ML三种技术相结合,团队能够使用机器更准确地转换文本,并在转换过程中检查可能出现的错误。同时,AI对笔迹的解读准确度更高,有望实现更多类型文档的数字化。由于每个人的笔迹不尽相同,因此识别笔迹仍是人工智能面临的挑战,但随着笔迹训练数据的增多,机器的识别能力也在增强。

以AI驱动的OCR为例,假设OCR工具正在将打印发票转换为数字副本。让我们假设扫描仪识别出发票总额为500美元,而实际上是5,000美元。在AI出现之前,OCR工具无法发现这个错误,需要依靠人工检查来纠正。然而,借助AI工具,算法可以检查整篇文档,计算出所提供服务的总额应是5,000美元,并在无需人工监督的情况下修正错误。

这种文档理解功能力有助于企业分析大量文档,并且无需人工操作。减少繁琐的行政工作对于最大限度地提高员工敬业度和降低人员流动率至关重要。研究人员预计,随着这些工具光学符号识别的效率和成本效益的提高,人们对AI驱动的OCR的需求会持续存在。

澳鹏光学字符识别专家Kirsten Gokay的见解

澳鹏依靠自己的专家团队帮助您利用OCR光学符号识别技术建立尖端模型。Kirsten Gokay是澳鹏的高级产品经理,致力于确保澳鹏客户成功实施使用OCR的模型。

Kirsten对使用OCR的三大见解包括:

  1. 为模型提供使用正确数据,确保模型映射到反馈您希望在现实世界中看到的数据类型。例如,如果您正在训练一个自动转录收据的模型,你的训练数据应该包括所有你想要转录的值:例如,名字,金额,时间,等。模型的收据自动转录功能,那么数据应由包含您正在寻找的值的收据组成。您的数据也应该是全面的,包括不同角度的图像、不同类型的图像质量等等,如果这个模型要应用于用户生成的内容,就更应如此,以保证模型的可用性。
  2. 正确的标注工具至关重要!因为训练数据需要是全面的,所以使用的数据标注工具必须能够处理所有类型文档。
  3. 人机协同方法是标注成功的关键。为确保模型的准确性,最好不要只依赖于AI。通过人工干预标注过程,您可以在训练前发现错误标注并将其纠正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1134149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS小数运算精度丢失的问题

工作中会不会经常会碰到一些数据指标的计算,比如百分比转化,保留几位小数等,就会出现计算不准确,数据精度丢失的情况。通过这篇分享借助第三方库能够轻松解决数据精度丢失的问题。 一、场景复现 JS数字精度丢失的一些常见问题 /…

Leetcode 18 三数之和

//双指针&#xff0c;不过因为是三个数所以左侧是两个下标class Solution {public List<List<Integer>> threeSum(int[] nums) {int n nums.length;Arrays.sort(nums);List<List<Integer>> ans new ArrayList<List<Integer>>();for(int …

如何制作二维码会议签到系统?

展会电子签到系统是一种通过电子方式进行参会者签到的系统。展会电子签到系统包括多种签到方式&#xff0c;如二维码签到、人脸识别、胸卡等。其中二维码签到制作简单、使用方便&#xff0c;是一种大家比较常用的方式。 二维码系统签到的优势主要有以下几点&#xff1a; 1、省…

《Spring Boot源码解读与原理分析》带你走入框架的世界

Java被称为最热门的语言。 而Spring Boot为我们提供了一种优雅而高效的方式来创建Spring基于的应用程序。它利用了许多Spring项目和第三方库,通过自动配置简化了项目配置。 此书籍不仅带来了许多题例&#xff0c;而且文章简而易懂&#xff0c;适合小白阅读&#xff0c;而且每…

响应式设计与自适应设计有何不同

目录 前言 响应式设计 用法 理解 自适应设计 用法 理解 高质量的设计 响应式设计与自适应设计是两种不同的网页设计方法&#xff0c;它们都旨在提供更好的用户体验&#xff0c;确保网站能够在不同设备和屏幕尺寸上正确显示。虽然这两种设计方法有共同之处&#xff0c;但…

测试员突破瓶颈指南,不看又废了一年

有没有感觉忙忙碌碌&#xff0c;一年又一年&#xff0c;却发现自己在测试的道路上好像没啥长进 测试群、测开群、自动化群&#xff0c;没少加&#xff1b; 文章、公众号、网盘的资源没少关注和搜集&#xff1b; 大佬推荐的书没少买&#xff0c;书上落灰了都没碰过&#xff1…

linux性能分析(七)CPU性能篇(二)怎么理解平均负载

一 怎么理解平均负载 ① 如何查看平均复杂 查看系统负载的命令&#xff1a; top、uptime、w、cat /proc/loadavg、tload /proc/loadavg 思考&#xff1a; uptime每列输出的含义?重点&#xff1a; 当前时间、系统运行时间、正在登录用户数、平均负载 ② 思考&#xff1…

利用 Databend + COS助力 CDH 分析 | 某医药集团

作者&#xff1a; 黄志武 某医药集团信息中心数据库组组长&#xff0c;13 年数据库行业从业经历&#xff0c;Oracle OCM&#xff0c;关注 Oracle、MySQL、Redis、MongoDB、Oceanbase、Tidb、Polardb-X、TDSQL、CDH、Clickhouse、Doris、Databend 等多方面的关键领域技术&#…

JavaScript对象与原型

目录 对象的创建 原型与原型链 原型继承 总结 在JavaScript中&#xff0c;对象是非常重要的概念之一。它们允许我们以一种结构化的方式存储和组织数据&#xff0c;并提供了一种方便的方式来操作和访问这些数据。而对象的行为和属性则通过原型来定义。 对象的创建 在JavaS…

如何集成验证码短信API到你的应用程序

引言 当你需要为你的应用程序增加安全性和用户验证功能时&#xff0c;集成验证码短信API是一个明智的选择。验证码短信API可以帮助你轻松实现用户验证、密码重置和账户恢复等功能&#xff0c;提高用户体验并增强应用程序的安全性。本文将介绍如何将验证码短信API集成到你的应用…

备受欢迎的数字音频工作站 Studio One 新增了对 Linux 的支持

导读音乐制作人们&#xff0c;这是你们翘首以待的消息。备受欢迎的数字音频工作站 Studio One 新增了对 Linux 的支持。 数字音频工作站&#xff08;DAW&#xff09; 已经成为音乐制作专业人士重要工具之一。 遗憾的是&#xff0c;对于 Linux 用户而言&#xff0c;选择十分有…

聚焦生成式AI前沿技术:亚马逊云科技生成式AI构建者大会圆满结束

目前生成式AI应用落地已经从热火朝天的“百模大战”&#xff0c;步入到了少数优秀模型脱颖而出&#xff0c;工具链百花齐放&#xff0c;以及企业主管认真寻找生成式AI落地场景的新阶段。基于这一背景&#xff0c;亚马逊云科技特地举办了亚马逊云科技生成式AI构建者大会&#xf…

Python 深浅拷贝使用与区别

什么是拷贝&#xff1a; python 中拷贝是指创建一个新的对象&#xff0c;其中包含了原始对象的值&#xff0c;以便于在不改变原始对象的情况下进行操作。拷贝在处理数据时非常有用&#xff0c;特别是当我们需要对数据进行修改而又不想影响原始数据时。 2.浅拷贝 浅拷贝的规则…

跨境安全 | 在美国做电商,千万要小心这5类信用卡欺诈手段

信用卡业务在美国早早出现并迅速完善&#xff0c;其支付方式的普及程度也非常高。根美国信用报告中心&#xff08;American Credit Bureau&#xff09;数据显示&#xff0c;截至2021年底&#xff0c;美国共有超过2.5亿信用卡用户&#xff0c;其中超过80%的成年人持有至少一张信…

19 行为型模式-模板方法模式

1 模板方法模式介绍 模板方法模式(template method pattern)原始定义是&#xff1a;在操作中定义算法的框架&#xff0c;将一些步骤推迟到子类中。模板方法让子类在不改变算法结构的情况下重新定义算法的某些步骤。 2 模板方法模式原理 模板方法模式的定位很清楚&#xff0c;…

从洋河“一带一路”之行,思考白酒国际化的破题道路

在古老的丝绸之路上&#xff0c;岁月不仅留下了无数行商足迹和边塞诗词&#xff0c;也写下了中国白酒出海最初的篇章。 作为一种文化交流的媒介&#xff0c;白酒曾随着陆上和海上丝绸之路来到世界各地&#xff0c;一度成为“世界潮品”。 千年后的今天&#xff0c;为了寻找新…

测试左移与右移

测试左移 对于需求&#xff0c;代码&#xff0c;质量&#xff0c;效率&#xff0c;《代码大全》很早就从软件工程实践角度说明了一个bug产生的不同阶段&#xff0c;修复一个bug的成本从需求阶段&#xff0c;设计阶段&#xff0c;测试阶段有着天壤差别。不仅从成本上&#xff0…

【C语言】详解数据在内存中的存储

目录 1. 整形在内存中的存储1.1 原码、反码、补码1.2 大小端介绍1.3 设计一个程序来判断当前编译器的字节序&#xff1a; 2. 有符号char和无符号char在内存中存储的区别2.1 有符号char(signed char/char)2.2 无符号char(unsigned char) 3. 浮点型在内存中的存储3.1 浮点数存储规…

RK356X/RK3588构建Ubuntu20.04根文件系统

文章目录 前言一、官网下载ubuntu-base二、挂载并构建文件系统2.1、配置构建文件系统环境2.2、编写挂载脚本mount.sh并安装相关工具2.3、轻量级的桌面环境 lubuntu-desktop2.4、卸载一些不必要的软件2.5、添加用户2.6 、允许root用户登录桌面2.7、串口自动登录2.8、添加分区释放…

Android期末考考前盘点(八):各类控件事件--使用内部类的更合适懵逼的考试学生方式

这个系列----Android的期末应急方案 在上学期的期末收获了一致好评&#xff0c;但是在上学期期末考试中发现部分考生不会&#xff0c;或者说考试题目中会出到一些事件&#xff0c;例如&#xff1a;Button按钮的点击事件、长按事件&#xff1b;EditView文本框的监听事件、ListV…