从模式识别到图像文档分析——浅析场景文本识别研究

news2024/12/24 0:05:23

目录

  • 一、场景文本识别工作简述
  • 二、基于视觉关系预测复杂场景文本识别
    • 2.1、FPN骨干网络
    • 2.2、文本片段检测模块
    • 2.3、候选关系对构建模块
    • 2.4、基于关系网络的连接关系预测
    • 2.5、损失函数
  • 三、文档图像智能分析与处理前沿研究

文字作为人类语言的书面形式,是文本图像中最为重要的信息载体之一,不同于其他自然事物,文字由人类创造并用于记录对外界事物的认知以及对内在思想和情感的表达, 更具抽象性和概括性,也是一种更高层次的语义信息。文本信息广泛存在于现实世界的各种场景中,例如书籍、报纸、合同、发票、收据、名片、身份证件等等,如果能够有效地提取图像中的文字信息,就可以快速而准确地理解图像所包含的场景和所表达的含义,并提高信息传播效率和准确度。

在实现从图像中提取文本信息的目标过程中,不得不提到模式识别和图像文档分析,其中,

  • 模式识别是指通过计算机技术和算法,将输入的数据与预定义的模板或规则进行匹配和分类,从而实现对目标物体、场景或事件等的自动识别和理解。
  • 图像文档分析则过对文本、图形等内容进行结构化处理和分析,提取出其中蕴含的语义信息,并为后续搜索、推理或决策等应用提供支持。这两种技术相互协作,在图像处理领域发挥着重要作用。

一、场景文本识别工作简述

传统的OCR技术通常只能处理扫描文档图像中的文字,而无法很好处理场景文本检测和识别。复杂自然场景图像中任意形状的文字在商店招牌、商品包装、广告海报、书籍报刊等日常生活中随处可见,如下图,这种文档图像具有复杂性和多样性,包括灵活多变的字体、颜色、大小方向以及语言等因素,而获取图像时引入的干扰如不均匀光照、低对比度、低分辨率和遮挡等问题直接导致传统OCR技术效果的不理想。

复杂场景文本例图

基于 CNN 的场景文本检测方法,在精度和能力方面都显著超越了传统的基于滑动窗口和基于连通域分析的文本检测方法,在场景文本识别上取得了突破性的进展,如Faster R-CNNSSPYOLODenseBoxFCN通过改进基于CNN的目标检测或者分割框架已经能够较好地处理水平和任意方向上的文字,但其仍无法解决弯曲文字检测问题。

Faster R-CNN模型结构图(图源Faster R-CNN原论文)

基于两阶段的自顶向下方法通常先利用候选区域生成网络来生成粗糙的矩形候选区域框,然后从候选区域框中预测一个更紧致的多边形包围框来检测更加复杂的文档图像,不过对于密集的弯曲的文本行并不鲁棒。基于单阶段的自顶向下方法使用极坐标系、贝塞尔曲线以及傅里叶变换等方式来表示任意形状的文本,并通过直接回归相应的曲线表达参数进行检测。这些方法展现了对文本进行检测的能力,但是其检测能力受限于网络感受野,难以有效地检测较长或尺寸较大的文本行。

与自顶向下的方法不同,自底向上的方法可以更自然地摆脱候选区域生成模块的限制和对网络感受野的要求。这类方法一般先检测文本像素或文本片段(字符或者文本行的一部分),然后再将它们拼成文本行。虽然理论上通过这种方式可以有效应对文字长宽比变化和任意形状的文字,但是实际中自底向上的方法都面临一个共有难题,即复杂的文本行串行问题。
在这里插入图片描述

综上所述:文本检测领域经历了从水平文字检测多方向文字检测再到任意形状文字检测这样越来越有挑战性的应用场景转变。

在复杂场景下,由于光照、遮挡等因素的影响,图像中的文本经常会出现模糊、失真、变形等问题;其次,文本与背景之间偶尔存在相似度较高的情况,文字颜色和背景颜色相近或者噪点过多等情况会严重干扰文本的准确识别;此外,在某些场景下(如手写体、印章、二维码等),不同于常规字体的字形特征也会增加识别难度。复杂场景下的文本识别依然是目前难以解决的问题。

二、基于视觉关系预测复杂场景文本识别

基于视觉关系预测的文本检测方法是一种新兴的文本检测方法,它通过利用图像中字符之间的视觉关系,如字符间距、角度等来检测和识别文本。该方法一般包括四个模块:

  1. 特征金字塔网络:用于对输入图像计算一个多尺度的卷积特征金字塔。
  2. 文本片段检测模块:从特征金字塔不同层级上检测所有可能的不同尺寸大小的文本片段。
  3. 候选关系对构建模块:从检测到的文本片段中构建一定数量的主客体候选关系对。
  4. 关系预测模块:用于预测每个主客体候选关系对中的两个文本片段是否属于同一个文本行。

通过以上四个模块的联合作用,该方法可以实现准确、高效地检测和识别图像中的文本行,接下来详细给大家分享一下这个基于视觉关系预测的文本检测方法。

2.1、FPN骨干网络

卷积网络中,随着网络深度的增加,特征图的尺寸越来越小,语义信息也越来越抽象。浅层特征图的语义信息较少,目标位置相对比较准确,深层特征图的语义信息比较丰富,但目标位置比较粗略,难以检测。

基于此问题,特征金字塔FPN提出了利用深度卷积神经网络中层级特征来构建特征金字塔,通过自顶向下通路和横向连接的方式将低分辨率语义信息丰富的特征图与高分辨率语义信息弱的特征图进行结合,在该金字塔中每个层次上产生强烈、丰富和具体化语义信息,融合了浅层到深层的特征图,充分利用各个层次的特征,结构如下图所示:

特征金字塔网络结构图(图源FPN论文)

其中自顶向下通路是通过两倍上采样的插值实现,横向连接通过一个1x1的卷积,然后将来自高层级和低层级特征相加以进行融合。

2.2、文本片段检测模块

文本片段检测模块使用一个基于无锚框机制的候选区域生成网络,通过密集采样方式在特征图上生成大量密集且重叠的候选区域,并在此候选区域上预测文本片段的位置和形状信息。

基于AF-RPN的文本片段检测模块(图源:马驰翔,侵删)

基于AF-RPN文本片段检测模块如上图所示,当检测到“文字”像素时,模块会使用一个3x3的卷积层同时预测从该像素位置到相应的四边形文本片段四个顶点的偏移量,然后使用两个并行的1x1卷积层,分别预测文字/边界/背景的分类以及文本片段框。

2.3、候选关系对构建模块

候选关系对构建模块主要作用是识别和推断图像中不同物体之间的相互作用、位置和大小等信息,对检测到的物体进行关联和分类来构建物体之间的关系,从而更加准确地理解图像内容。

在这里插入图片描述

候选关系对构建模块示意图

简单来说,候选关系对构建模块合并从所有金字塔层级上检测到的文本片段,构建候选集合P,并用N表示其中元素的个数,在实际过程中,模块只需要考虑来自相同层级且邻近位置处的文本片段构造候选关系对即可。如上图所示,对于集合P中的每个文本片段,假设其中心为c,高度为h,从相同层级的其他文本片段中选择以c为中心、2h为半径的圆内的文本片段来构建候选关系对,并将其输入到后续的关系预测网络。

2.4、基于关系网络的连接关系预测

基于关系网络的连接关系预测网络同时考虑主体框、 客体框以及它们的并集框所包含的上下文信息来进行连接关系预测。

基于关系网络的连接关系预测网络结构图

具体而言,检测模块的输入是一系列的视觉特征,每个候选关系对都会使用RoI Align算法从主体框、客体框和它们的并集框中提取三个256x5x5的特征描述子。这三个特征描述子将沿着通道维度拼接在一起,并通过一个3x3卷积层进行融合,生成一个固定维度为384x5x5的特征描述子。该特征描述子将被输入到二分类器中,该分类器由两个隐藏层(每层有1,024个神经元)和最后输出层(1个神经元)组成,并使用Sigmoid激活函数进行激活以预测连接关系。

基于关系网络的连接关系预测网络可以考虑距离相对较远的两个文本片段之间的连接关系,从而有效地利用来自并集框上下文信息来提高关系预测精度,最终实现准确、高效的检测效果。

2.5、损失函数

文本检测器整体的训练损失函数定义为: L = L TPD  + L rel  \mathcal{L}=\mathcal{L}_{\text {TPD }}+\mathcal{L}_{\text {rel }} L=LTPD +Lrel ,其中 L TPD  \mathcal{L}_{\text {TPD }} LTPD 为文本片段检测模块损失函数, L rel  \mathcal{L}_{\text {rel }} Lrel 表示为关系网络损失函数。

文本片段检测模块损失函数 L TPD  \mathcal{L}_{\text {TPD }} LTPD 表示为 L T P D = ∑ i = 2 4 L T P D P i \mathcal{L}_{\mathrm{TPD}}=\sum_{i=2}^{4} \mathcal{L}_{\mathrm{TPD}_{P_{i}}} LTPD=i=24LTPDPi
L T P D P i = 1 N ∑ j L c l s ( c j , c j ∗ ) + 1 N f g ∑ k L r e g ( t k , t k ∗ ) \mathcal{L}_{\mathrm{TPD}_{P_{i}}}=\frac{1}{N} \sum_{j} \mathcal{L}_{c l s}\left(c_{j}, c_{j}^{*}\right)+\frac{1}{N_{f g}} \sum_{k} \mathcal{L}_{r e g}\left(\mathbf{t}_{k}, \mathbf{t}_{k}^{*}\right) LTPDPi=N1jLcls(cj,cj)+Nfg1kLreg(tk,tk)
其中N表示采样像素的数量, N f g N_{fg} Nfg表示采样像素中包含的正样本数量, c j c _j cj c j ∗ c_{j*} cj分别表示第j个采样像素预测的和真实的标签。

关系网络损失函数 L rel  \mathcal{L}_{\text {rel }} Lrel 表示为: L r e l = 1 ∣ R ∣ ∑ r ∈ R L ( r i , r i ∗ ) \mathcal{L}_{r e l}=\frac{1}{|R|} \sum_{r \in R} \mathcal{L}\left(r_{i}, r_{i}^{*}\right) Lrel=R1rRL(ri,ri)
其中,R表示被选中用于训练关系网络的候选关系对的集合,|R|表示集合中候选关系对的数量, r i r_i ri r i ∗ r_{i}^{*} ri分别表示第i对候选关系对预测的和真实的标签, L( r i r_i ri, r i ∗ r_i^* ri)为分类任务使用二元交叉熵损失函数。

三、文档图像智能分析与处理前沿研究

以上基于视觉关系预测的文本检测方法仅仅是当前文档图像智能分析与处理前沿研究中的一种。目前来讲,文档图像智能分析与处理仍然存在以下问题:

  1. 文字检测和识别问题:由于文档中文字的排列方式、字体、大小等因素的多样性,以及光照条件和摄像机角度等外界因素对图片质量的影响,导致文字检测和识别仍然存在较大困难。
  2. 图像去噪问题:由于扫描仪或相机成像时受到环境噪声干扰而产生斑点、条纹等干扰噪声,使得图像质量下降严重,给后续处理带来很大困难。
  3. 多样化文档类型问题:不同类型的文档具有不同排版格式、语言特点以及内容结构等差异性。例如公式类文章需要专门针对公式进行分析处理;手写草稿纸上的笔迹需要特殊算法进行提取识别。
  4. 模式理解(结构理解、语义理解) :表格等结构性文档在文档中常用于呈现数据,如何准确地提取和解析表格信息仍然是文档智能分析与处理领域面临的难题之一。

为了解决复杂的模式识别和图像文档处理问题,统计与结构模型的混合、神经网络+结构模型、可解释性神经网络、视觉+语言等等研究越来越受到关注,同时从智能机理研究上,脑科学也逐渐跟人工智能深度融合。


刚好,在本周六(5月13号) ,中国图象图形大会(CCIG 2023)将于苏州举办,中国图象图形学学会文档图像分析与识别专业委员会上海合合信息科技有限公司将联合打造《文档图像智能分析与处理》高峰论坛。

专家姓名单位和职称简介
金连文华南理工大学,教授华南理工大学二级教授,兼任中国图像图形学学会(CSIG)常务理事、CSIG文档图像分析与识别专委会主任、CSIG-CV、CAA-PRMI和CAAI-PR专委会常务委员等职。
丁凯上海合合信息科技股份有限公司,高级工程师博士,高级工程师,合合信息智能技术平台事业部副总经理。CSIG文档图像分析与识别专委会委员,CSIG机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师,获得上海市人才发展基金资助。

论坛邀请了5位学术界🎓产业界💼的专家做特邀报告,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势,届时(5月13号,本周六)将有5个特邀报告,和1个Panel讨论

专家姓名单位和职称报告题目
刘成林中国科学院自动化研究所,研究员《人工智能大模型时代的文档识别与理解》
邹月娴北京大学,教授《视觉-语言预训练模型及迁移学习方法》
谢洪涛中国科学技术大学,教授《篡改文本图像的生成与检测》
廖明辉华为云AI算法研究员《华为云OCR技术进展与行业实践》
丁凯上海合合信息科技股份有限公司,高级工程师《智能文档处理技术在工业界的应用与挑战》

本次论坛主题丰富、内容精彩,包括但不限于人工智能大模型、视觉-语言预训练模型、智能文档处理技术等热点问题,是从事相关研究的科技工作者难得的交流学习机会。

本次《文档图像智能分析与处理》高峰论坛将在合合信息视频号进行全程直播,大家可以实时收看本次高峰论坛并参与互动交流,共同探讨文档图像智能分析与处理领域的最新进展和未来趋势!
在这里插入图片描述


参考文献:

马驰翔. 文本图像分析中的关键技术研究[D].中国科学技术大学,
2022.DOI:10.27517/d.cnki.gzkju.2022.000267.

中科院自动化所副所长刘成林教授:模式识别,从初级感知到高级认知:https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/121867230

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/509066.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

APP外包项目的线上维护方案

APP的使用已经非常普及,不论是2C还是2B的APP都已经渗透到了我们生活的方方面面,对于APP的开发公司来说APP项目的线上维护是一个非常重要的问题。如果APP项目比较重要而且用户规模比较大,那更需要专业的技术团队来维护。今天和大家分享这方面的…

神经注释精细化:用于肾上腺分析的新3D数据集的开发

文章目录 Neural Annotation Refinement:Development of a New 3D Dataset for Adrenal Gland Analysis摘要本文方法Neural Annotation Refinement 实验结果 Neural Annotation Refinement:Development of a New 3D Dataset for Adrenal Gland Analysis 摘要 人工注释是不完美…

如何将两张图片合成一张,多方式提高10倍效率

如何将两张图片合成一张?在日常工作和生活过程中,图片无处不在。图片能够及时记录当下生活,并且容易保存和传播。随着技术手段的创新和发展,图片质量也在不断提高。如何将多张图片进行有效合并,从而便于保存呢&#xf…

庄懂的TA笔记(十四)<特效:流动 + 扰动>

庄懂的TA笔记(十四)<特效:流动 扰动> 效果展示: 正文: 大纲: 一、增广: 1、排序问题: 造成这个问题的原因是,他在取背景前,小人的胳膊不算是透…

常用的排序算法--JavaScript

1.冒泡排序 这个函数使用了双重循环,第一个循环用于遍历数组中的每个元素,第二个循环用于比较相邻的元素,如果它们的顺序不正确,则交换它们的位置。在每次内部循环之后,最大的元素都会被移到数组的末尾,因此…

MSR015/MSR025低温漂、低功耗电压基准可pin对pin兼容REF015/REF025

MSR015/MSR025 是低温漂、低功耗、高精度 CMOS 电压基准, 具有0.05% 初始精度、低功耗特点。可pin对pin兼容REF015/REF025。该器件的低输出电压迟滞和低长期输出电压漂移特性,进一步提高稳定性和系统可靠性。 此外,器件的小尺寸和低运行电流特…

《一种使用光电容积图和生物特征进行无需校准的非侵入式血压估计方法》阅读笔记

目录 一、论文摘要 二、论文十问 Q1:论文试图解决什么问题? Q2:这是否是一个新的问题? Q3:这篇文章要验证一个什么科学假设? Q4:有哪些相关研究?如何归类?谁是这一…

GB/T25915.1法规基本标准-附 录 B(资料性)等级划分计算

附 录 B(资料性)等级划分计算实例 B.1 示例1 B.1.1 某个洁净室占地面积18m2,规定洁净度级别为动态ISO5级。使用采样流量为28.3L/min的 离散粒子计数器进行分级测试。2个关注粒径分别为:D≥0.3μm 和D≥0.5μm。 查表 A.1,采样点数 NL 为6。 B.1.2 从表1查得ISO5级的粒子浓度…

设计模式梳理

快速回顾 类别名称应用场景例子创建型模式Factory模式共用统一接口AbstactFactory模式共用统一接口Singleton模式只构建一次,每次构建只返回自己Builder模式一步步的进行复杂对象的构建链式构造器,解决复杂对象多个属性可选择性地设置的问题&#xff0c…

【ChatGPT】你会是被AI抢饭碗的那类人吗?

文章目录 前言一、AI替代“基础性工作”,二、AI没有魔法:人类做不到,它也做不到三 人类的恐惧:被替代、被超越四 AI让语言返祖,小语种与文化“濒危灭绝”五 人类的未来,教育何去何从?总结 前言 …

2023/5/9总结

Java基础(3) 1、成员变量和局部变量的区别 2.private关键字 是一个权限修饰符可以修饰成员变量和成员方法作用是保护成员不被别的类使用,被private修饰的成员只能在本类中才能访问 针对private修饰的成员变量,如果需要被其它类使…

缓存穿透、缓存雪崩和缓存击穿

1 缓存穿透 缓存穿透是指查询一个一定不存在的数据,由于缓存中没有,每次查询都要去数据库中查询,导致频繁地访问数据库,从而影响系统的性能。攻击者可以利用这一点,对系统进行拒绝服务攻击。 1.1 缓存穿透举例 攻击者…

课程《JavaWeb基础框架程序设计》考试题上篇——基础应用题(计算应用、水仙花数)

文章目录 📋前言🎯第一题(30分)🎯第二题(30分)📝最后 📋前言 这篇文章是大学课程《JavaWeb基础框架程序设计》考试题目的内容,包括了原题和答案。题目只包括…

开关电源基础07:离线式开关电源变压器设计(2)

说在开头:关于那几年 1933年希特勒上台成为德国总理,纳粹党开始了针对犹太人的运动。英国的弗雷德里克.亚历山大.林德曼教授到访柏林,他制定了一份名单,开列的都是处境不妙的犹太科学家,趁机邀请他们离开德国&#xf…

Java EE--多线程(一)

目录 一、认识多线程 1.1 概念 (1) 线程是什么 (2)为啥要有线程? (3) 进程和线程的区别 (4)Java 的线程和操作系统线程的关系 1.2 创建线程 方法1 继承 Thread 类 方法2 实现Runnable接口…

数据结构学习记录——哈夫曼树(什么是哈夫曼树、哈夫曼树的定义、哈夫曼树的构造、哈夫曼树的特点、哈夫曼编码)

目录 什么是哈夫曼树 哈夫曼树的定义 哈夫曼树的构造 图解操作 代码实现 代码解析 哈夫曼树的特点 哈夫曼编码 不等长编码 二叉树用于编码 哈夫曼编码实例 什么是哈夫曼树 我们先举个例子&#xff1a; 要将百分制的考试成绩转化成五分制的成绩 if(score < …

ASEMI代理ADV7391BCPZ原装ADI车规级ADV7391BCPZ

编辑&#xff1a;ll ASEMI代理ADV7391BCPZ原装ADI车规级ADV7391BCPZ 型号&#xff1a;ADV7391BCPZ 品牌&#xff1a;ADI /亚德诺 封装&#xff1a;LFCSP-32 批号&#xff1a;2023 安装类型&#xff1a;表面贴装型 引脚数量&#xff1a;32 工作温度:-40C~85C 类型&…

ChatGPT实现markdown 格式与 emoji 表情

markdown 格式与 emoji 表情 书写文章时&#xff0c;巧妙的使用一些小图标&#xff0c;可以给文章增加不少的灵动感&#xff0c;读者也会感觉更加轻松。恰当的图标也能增进读者对内容的理解。ChatGPT 目前不能直接联网&#xff0c;但可以使用 emoji 表情文字来达到类似的效果。…

笔记本电脑开机黑屏没反应怎么办?

笔记本电脑开机黑屏没反应怎么办&#xff1f;有用户电脑开机之后&#xff0c;桌面会变成黑屏显示。而且是常常都会出现这样的问题&#xff0c;非常影响自己的电脑使用体验。那么遇到这个问题要怎么去进行问题的解决呢&#xff1f;来看看以下的解决方法吧。 准备工作&#xff1a…

超级详细的mysql数据库安装指南

MySql数据库 如果你的电脑是mac那么你看这位大佬的分享。 如果你的电脑是windows&#xff0c;参考下面的安装步骤。 一、下载mysql数据库&#xff1f; 进入MySQL官方网站&#xff08;MySQL Community Downloads&#xff09;&#xff0c;按下图顺序点击 1、进入下载页面 2、…