AI9-文本识别

news2024/11/16 5:39:11

本章主要介绍文本识别算法的理论知识,包括背景介绍、算法分类和部分经典论文思路。

通过本章的学习,你可以掌握:

1. 文本识别的目标

2. 文本识别算法的分类

3. 各类算法的典型思想

1 背景介绍

文本识别是OCR(Optical Character Recognition)的一个子任务,其任务为识别一个固定区域的文本内容。在OCR的两阶段方法里,它接在文本检测后面,将图像信息转换为文字信息。

具体地,模型输入一张定位好的文本行,由模型预测出图片中的文字内容和置信度,可视化结果如下图所示:

文本识别的应用场景很多,有文档识别、路标识别、车牌识别、工业编号识别等等,根据实际场景可以把文本识别任务分为两个大类:**规则文本识别**和**不规则文本识别**。

* 规则文本识别:主要指印刷字体、扫描文本等,认为文本大致处在水平线位置

* 不规则文本识别: 往往出现在自然场景中,且由于文本曲率、方向、变形等方面差异巨大,文字往往不在水平位置,存在弯曲、遮挡、模糊等问题。

下图展示的是 IC15 和 IC13 的数据样式,它们分别代表了不规则文本和规则文本。可以看出不规则文本往往存在扭曲、模糊、字体差异大等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1984226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pytorch的入门使用

pytorch安装略! 一.张量Tensor 张量是一个统称其中包含0阶,1阶,2阶,3阶,4阶,.......n阶。 0阶:标量,常数,0-D Tensor 1阶:向量,1-D Tensor 2…

使用java反编译工具jad

文章目录 反编译工具 JAD下载配置环境变量使用其他反编译工具 JD-GUI 反编译工具 JAD 反编译是指将编译后的字节码文件(.class 文件)转换回可读的 Java 源代码。JAD (Java Decompiler) 是一个经典的反编译工具,广泛用于将 Java 字节码反编译…

国内AI大模型168个,哪个最有前途?

168个国产大模型,都是什么来头? 1785年,瓦特改进了蒸汽机,人类从此摆脱了手工业的桎梏,迈向辉煌的蒸汽时代。 1870年,第二次工业革命光芒四溢,人类踏上了电气时代的漫长征程。 20世纪70年代后…

手机有两个卡槽分别放什么卡,这篇文章建议收藏!

你发现了吗,我们现在对于手机卡的需求是越来越大了,相信大多数用户手上都不止一张SIM卡,大部分都是双卡,甚至三卡了,那么,这些卡槽你真的利用对了吗? 这篇文章就告诉大家,如何更好的…

【Windows】Beyond Compare 5(文件数据对比神器) 软件介绍

今天给大家介绍的软件叫Beyond Compare,这是一个文件数据对比神器,可以让你从茫茫数据、文字中解放出来。 Beyond Compare 是一款功能强大的文件和文件夹比较工具,主要用于比较和同步文件、文件夹及其内容。以下是该软件的主要特点和功能&…

一款免费开源的在线白板,手绘风格在线画图神器

Excalidraw 是一款开源的虚拟手绘风格在线白板工具,它专注于提供简单、直观且功能丰富的绘图体验。这款工具特别适合用于创建图表、线框图、思维导图、流程图以及其他各种类型的图形和视觉内容。 Excalidraw 的主要特点包括: 免费开源:Exca…

如何正确地实现虚拟类?

在 Python 中,所谓的虚拟类通常是指抽象基类(Abstract Base Class,简称 ABC)。抽象基类不可实例化,其主要作用是定义一组抽象方法,子类必须实现这些抽象方法才能被实例化。 要正确实现虚拟类(抽…

新时代来临,跟60后、70后的奢侈消费观念说拜拜吧!

在长达几十年的改革开放壮丽征程中,60后与70后的消费观念深刻塑造了家庭经济的面貌,他们倾尽所有为子女铺设未来之路,从婚房婚车到教育投资,无一不体现了深沉的父爱母爱。然而,随着时代的变迁,尤其是当中国…

连接数据库报错bad handshake

堡垒机账号没有授权访问权限

【xml文档的读取与导入】

首先基于unity引擎&#xff0c;关于xml文档的导入只需要Excel与笔记本两种 打开记事本编写xml代码如下 <?xml version"1.0" encoding"UTF-8"?> <root> <item ID""> <surname></surname> &…

2024开学季必备物品有哪些?新学期学生必备必备物品清单

临近开学&#xff0c;萌新们是否已经开始准备学习物品了呢&#xff1f;正在准备的你&#xff0c;头脑里一定有满满的问号感到头大&#xff0c;不用担心&#xff01;学长学姐们为你准备了详细的开学物品清单&#xff0c;到处搜攻略不如直接看此篇清单&#xff01;快来一起看看吧…

Eclipse 2024 下载 安装 汉化

1&#xff0c;解压 Eclipse 2024 压缩包到当前目录下&#xff1a; 点击此处蓝色字体下载压缩包 提取码 j5nl 2&#xff0c;鼠标右键 点击 jdk-19_windows-x64_bin.exe 选择 以管理员身份运行 &#xff1a; 3&#xff0c;点击 下一步&#xff1a; 4&#xff0c;点击 更改 选择位…

fscan安装

windows安装 1.go语言下载。 下载msi版本&#xff0c;直接安装就可以不用配置环境变量&#xff0c;默认是帮你安装配合好的 All releases - The Go Programming Language 2.配置go环境 使用默认配置的话&#xff0c;下载速度过慢&#xff0c;导致无法完成编译。故需要配置代理…

sql注入——sqlilabs1-15

目录 sql注入靶场练习--sqlilabs 1.less-1​编辑 1.测试发现单引号为逃逸符号 2.确定查询列数为三列 3.查询到数据库名 4.查询数据库中的表名 5.查询用户表的列名字 6.查询用户信息 2.less-2​编辑 2.确定查询列数为三列 3.查询到数据库名 4.查询数据库中的表名 5.…

html实现好看的塔罗牌、十二星座运势网站源码

文章目录 1.设计来源1.1 十二星座1.2 所有界面效果图 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板&#xff0c;程序开发&#xff0c;在线开发&#xff0c;在线沟通 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43151418/article/deta…

几种显微镜的作用(光片,多光子)

若进行细胞的成像&#xff0c;我们通常使用宽场或者共聚焦显微镜&#xff1b;若想要对长时间发育的类器官进行快速成像&#xff0c;则活细胞成像仪是首选&#xff1b;若涉及小鼠整个器官的成像&#xff0c;则会选用双光子显微镜。由此可见&#xff0c;针对不同尺度的样品成像需…

<数据集>灭火器识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;3262张 标注数量(xml文件个数)&#xff1a;3262 标注数量(txt文件个数)&#xff1a;3262 标注类别数&#xff1a;1 标注类别名称&#xff1a;[extinguisher] 使用标注工具&#xff1a;labelImg 标注规则&#xf…

材料学子终于迎来了春天,这3本SCI退稿率<20%,2个录用!

导师逼发顶刊&#xff0c;毕不了业&#xff1f;怎么办? 想拿奖学金&#xff0c;还差一篇SCI&#xff1f; 心仪工作对SCI论文有要求&#xff0c;自己没有? 别慌~准确找到一个命中率高&#xff0c;审稿周期短的期刊真的是省心又省力。 今天&#xff0c;老毕给大家分享3本材料科…

表字段显示tip

需求背景&#xff1a; 生成的报表&#xff0c;前端只展示字段名称&#xff0c;计算逻辑没有解释&#xff0c;使用方频繁“骚扰”&#xff0c;实在受不了&#xff0c;增加一个字段tip&#xff0c;实现效果&#xff08;下图&#xff09;&#xff1a; 代码 结合使用el-table-colu…

go语言day21 goland使用gin框架、gorm框架操作mysql数据库redis数据库 使用宝塔创建redis数据库 写一个投票项目

GORM 指南 | GORM - The fantastic ORM library for Golang, aims to be developer friendly. gorm package - github.com/jinzhu/gorm - Go Packages go语言day20实现投票功能项目包-CSDN博客 基于Redis的有序集合Sorted Sets优化排行榜功能_哔哩哔哩_bilibili 安装gorm框架…