论文解读 | [AAAI2020] 你所需要的是边界:走向任意形状的文本定位

news2024/11/29 20:31:50

 目录

1、研究背景

2、研究的目的

3、方法论

3.1 Boundary Point Detection Network(BPDN)

3.2 Recognition Network

3.3 Loss Functions

4、实验及结果 

论文连接:https://ojs.aaai.org/index.php/AAAI/article/view/6896 

1、研究背景

        最近,旨在同时从杂乱图像中检测和识别文本的端到端文本识别在计算机视觉中受到了越来越多的关注。由于文本检测广泛的实际应用,如办公自动化、网络内容安全、智能交通系统、地理位置和视觉搜索,从自然图像中自动阅读文本已引起极大关注。

        在过去的十年中,场景文本检测和识别作为阅读系统的两个独立的子任务被广泛研究,但事实上,文本检测与识别是高度相关且相互补充的。最近的端到端文本识别方法证实了这一假设,该方法将检测和识别阶段与端到端可训练神经网络相结合。这些定位方法遵循类似的流程。首先,检测每个文本实例的水平/定向边界框。然后,裁剪检测到的边界框内的图像块或CNN特征,并将其馈送到序列识别模型。得益于特征共享和联合优化,可以同时增强检测和端到端识别的性能。尽管取得了可喜的进展,但大多数现有的点样方法受到处理不规则形状文本(如曲线文本)的困扰。对于一般的端到端OCR系统,处理具有任意形状的文本是不可避免的,因为曲线文本和其他类型的不规则文本在我们的现实世界中非常常见。

2、研究的目的

        传统的方法中,检测到的每个文本实例的边界框都是用矩形来表示,但矩形框在描述不规则文本的边界框时有很大的局限性,因为它包含或多或少的背景信息,这给文本识别阶段带来了困难。在本文中,检测的目的是预测一组边界点,其对于描述场景文本的各中妆容更灵活。同时,边界点可以准确获取不规则文本区域的CNN特征。利用边界点,不规则文本可以容易地被转换或矫正为规则文本。为了有效 的提取文本边界点,采用从粗到细的策略,使用两级CNN检测器检测每个文本实例的最小定向矩形框。然后,在定向矩形框中执行边界的预测。基于边界点的方法比矩形框更灵活、更准确地表示任意形状的文本。

3、方法论

 图1

如图1所示, 主要由三部分组成:定向矩形框检测器、边界点检测网络和识别网络。

定向矩形框检测器:应用 RPN,主干配备有 ResNet-50,以生成水平文本建议。然后通过预测每个提案(矩形框)的中心点、高度、宽度和方向,生成每个提案的定向矩形框。

边界点检测网络(BPDN):回归每个定向矩形框的边界点。

识别网络:利用预测的边界点,将特征图矫正为常规图,供识别网络使用。

 图2

 图2(a)中,BPDN 可以预测每个水平建议的边界点,但受到各种方向和形状的文本实例的影响,包含了更多的背景噪声和更强的变形。为了缓解这种影响,预测每个建议的定向矩形框(图2(a)中红色边框)。具体细节:预测其中心点(绿点),高度(h),宽度(w)和方向(绿点-->红点的那个箭头)。然后沿着方向重新计算宽({w}')、高({h}'),最后画出的红色矩形框就为定向矩形框,红点定向矩形框的中心。然后通过 RotateRolAlign(图1) 将特征图转换为水平图,称为最小矩形框,如图2(b)。图2(c)表示从均匀分布在最小矩形框的上下两侧的一组默认点回归到边界点。图2(d)将边界点与原始图像对齐。

3.1 Boundary Point Detection Network(BPDN)

        BPDN 由四个堆叠的 3X3 卷积层和一个完全连接层组成。受 RPN 的启发,建议基于默认锚点(默认点)进行回归。预定义一组默认点供边界点参考,如图2(c)。默认点在最小矩形框的长边均匀分布,每条长边 K 个点,共 2K 个点。用这 2K 个默认点通过坐标偏移得到 2K 个边界点。

        BPDN 模块会给 2K 个默认点预测 4K 个向量来作为 2K 个边界点的坐标偏移。有了坐标偏移(Δx, Δy),那么边界点({x}'_{b}, {y}'_{b})就可以表示为(图3中红色的点):

 其中,({x}'_{d}, {y}'_{d})为默认点,图3中蓝色的点。w_{0} 和 h_{0} 为最小矩形框的宽和高。

 图3,图2中的c图放大后

为了与原始特征一致,我们使用如下公式

将变换为水平特征图(图2中c)中的边界点({x}'_{b}, {y}'_{b}) 还原为原始的边界点 (x_{b}, y_{b})(图2中d)。({x}'_{c}, {y}'_{c}) 是定向矩形框的中心点。s_{w} 和 s_{h} 分别等于 w_{0} / {w}' 和 h_{0} / {h}'w_{0} 和 h_{0} 为最小矩形框的宽和高,{w}' 和 {h}' 为定向矩形框的宽和高。α 是从 x 轴的正方向到平行与定向矩形框的长边的角度。

3.2 Recognition Network

CRNN 是第一种通过将 CRNN 和 RNN 结合在端到端网络中,将文本识别视为序列到序列问题的方法。识别分支的架构如图4所示。

图4 ,识别分支的架构由三个堆叠的卷积层组成。“Att.GRU”代表GRU解码器和

一个完全连接层。|s| 表示解码字符数,实验中设置为63,对应数字(0, 9), 英文

字符(a/z, A/Z)和序列结束符。

首先,将矫正后的特征输入编码器提取更高级的特征序列 F\in R^{n*C}。然后采用基于注意力的解码器将 F 转化为符号序列 y = (y_{1}, \cdot \cdot \cdot , y_{T}),其中 T 是标签序列的长度。在步骤 t,解码器根据编码器输出 F,内部状态 s_{t-1} 和上一步骤中预测的结果 y_{t-1} 来预测字符。在当前步骤中,解码器通过其注意力机制计算注意力权重 \alpha _{t} 的向量来开始。然后,根据下面公式加权特征 g_{t}

 其中 w, W, V, b 都是可训练的权重。

将 s_{t-1}, g_{t} 和 y_{t-1} 作为输入,RNN 通过 下面公式 计算输出向量 x_{t} 和新的状态向量 s_{t},其中

(g_{t}, onehot(y_{t-1})) 是 g_{t} 和 y_{t-1} 的独热嵌入的连级。

 在我们的方法中,GRU 被用作 RNN 单位。最后,通过

 预测当前步骤符号的分布,其中 W_{o} 和 b_{o} 是可学习的参数。

3.3 Loss Functions

 目标函数的损失由四个部分组成,

 其中 L_{RPN} 是 RPN 的损失,L_{or} 是从轴对齐矩形建议回归到定向矩形框的损失(获得定向矩形框的损失)。L_{bp} 是边界点的损失,计算为平滑-L1 损失。L_{recog} 为识别损失。

L_{bp} 计算如下,其中 ({x}'_{b,i}, {y}'_{b,i}) 是第 i 个预测边界点(默认点),其关联的目标边界点是 (\hat{​{x}'}_{b,i}, \hat{​{y}'}_{b,i}) 。

 在识别网络中,识别损失L_{recog}可以表示为

 

4、实验及结果 

 略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/363779.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023美赛C题Wordle二三问分布预测和难度分类预测

文章目录前言题目介绍人数分布预测首先建立字母词典,加上时间特征数据预处理训练和预测函数保存模型函数位置编码模型及其参数设置模型训练以及训练曲线可视化预测人数分布难度分类预测总结前言 2023美赛选了C题,应该很多人会选,一看就好做&…

电动汽车充放电的优化调度(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

深度学习无监督磁共振重建方法调研(二)

深度学习无监督磁共振重建方法调研(二)Self-supervised learning of physics-guided reconstruction neural networks without fully sampled reference data(Magnetic Resonance in Medicine 2020)模型设计实验结果PARCEL: Physi…

如何保证数据的安全?对称和非对称加密,身份认证,摘要算法,数字证书等傻傻分不清?波哥图解带你彻底掌握

支付安全 1.基础概念 明文:加密前的消息叫“明文”(plain text) 密文:加密后的文本叫“密文”(cipher text) 密钥:只有掌握特殊“钥匙”的人,才能对加密的文本进行解密,…

功能测试三年,是时候做出改变了

前言 测试行业3年多经验,学历大专自考本科,主要测试方向web,PC端,wap站,小程序公众号都测试过,app也测过一些,C端B端都有,除功能外,接口性能也有涉猎,但是不…

day32 多线程(上)

文章目录相关概念codeThreadTest01ThreadTest02 编写一个类,直接继承java.lang.Thread,重写run方法ThreadTest03 实现线程的第二种方法ThreadTest04 采用匿名内部类的方式ThreadTest05 获取线程名字ThreadTest06 sleep方法sleep面试题ThreadTest08 终止线…

不同路径-力扣62-java 动态规划

一、题目描述一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。问总共有多少条不同的路径&#xff1f…

H12-831题库(有详细的解析)

1.(单选)某工程师利用2台路由器进行IPv6业务测试,通过运行BGP4模拟总部与分支的互联互通。如图所示,某工程师抓包查看R1发出的update报文。关于该报文信息的描述,以下哪个说法是正确的? A.该报文描述的路由的下一跳地址为:2001:db8::2345:1::1 B.该报文…

基于Pytorch,从头开始实现Transformer(编码器部分)

Transformer理论部分参考知乎上的这篇文章 Transformer的Attention和Masked Attention部分参考知乎上的这篇文章 Transformer代码实现参考这篇文章,不过这篇文章多头注意力实现部分是错误的,需要注意。 完整代码放到github上了,链接 Trans…

ASE50N06-ASEMI低压MOS管ASE50N06

编辑-Z ASE50N06在TO-252-2L封装里的静态漏极源导通电阻(RDS(ON))为15mΩ,是一款N沟道低压MOS管。ASE50N06的最大脉冲正向电流ISM为200A,零栅极电压漏极电流(IDSS)为1uA,其工作时耐温度范围为-55~175摄氏度。ASE50N06…

2年手动测试,裸辞后找不到工作怎么办?

我们可以从以下几个方面来具体分析下,想通了,理解透了,才能更好的利用资源提升自己。一、我会什么?先说第一个我会什么?第一反应:我只会功能测试,在之前的4年的中我只做了功能测试。内心存在一种…

LDPC码的编译码原理简述

关于fpga调用ldpc IP core的相关参数问题可以看我的另一篇文章 LDPC码由Gallager在1962年提出,全称为 Low Density Parity-check Codes 低密度奇偶校验码 它的译码性能可以逼近Shannon信道容量限,广富盛名的Turbo码也被证明是LDPC码的一个特例。并且LDPC…

软件测试简单么,如何自学?

软件测试是不是简单其实需要自己学习了才知道,难易程度对于不同的人来说都是不一样的。都是需要实际去尝试了之后才知道。也要看是和谁对比,对于java这种来说肯定是容易多了。 软件测试其实算是互联网三大技术岗位中最轻松的工种,但是你学起…

idea中的Maven导包失败问题解决总结

idea中的Maven导包失败问题解决总结 先确定idea和Maven 的配置文件settings 没有问题 找到我们本地的maven仓库,默认的maven仓库路径是在\C:\Users\用户名.m2下 有两个文件夹,repositotry是放具体jar包的,根据报错包的名,找对应文…

重识html

html 重识html 万维网用url统一资源定位符标识分布因特网上的各种文档 各种概念 URL: 统一资源定位器 它是WWW的统一资源定位标志,就是指网络地址 在WWW上,每一信息资源都有统一的且在网上唯一的地址 网页: 由文字 图片 视频 音乐各种元素排列组…

面试热点题:stl中vector与list的优缺点对比、以及list的迭代器与vector迭代器的区别

vector的优点 下标随机访问 vector的底层是一段连续的物理空间,所以支持随机访问尾插尾删效率高 跟数组类似,我们能够很轻易的找到最后一个元素,并完成各种操作cpu高速缓存命中率高 因为系统在底层拿空间的时候,是拿一段进cpu&am…

软件测试5年,一路走来的艰辛路程

前言 不论你是什么时候开始接触测试这个行业的,你首先听说的应该是功能测试。通过一些测试手段来验证开发做出的代码是否符合产品的需求?当然你也有自己对功能测试的理解,但是最近两年感觉功能测试好像不太受欢迎,同时不少同学真的…

JavaEE简单示例——动态SQL之更新操作<set>元素

简单介绍: 在之前我们做的学生管理系统的时候,曾经有一个环节是修改学生的数据。我们在修改的时候是必须将student对象的三个属性全部填入信息,然后全部修改才可以,这样会造成一个问题就是在我们明明只需要修改一个属性的时候却要…

华为外包测试2年,不甘被替换,168天的学习转岗成正式员工

我25岁的时候,华为外包测试,薪资13.5k,人在深圳。 内卷什么的就不说了,而且人在外包那些高级精英年薪大几十的咱也接触不到,就说说外包吧。假设以我为界限,25岁一线城市13.5k,那22-24大部分情况…

干货|最全焊接不良汇总,你知道如何避免吗?

良好的焊接,是保证电路稳定持久工作的前提。下面给出了常见的8种焊接缺陷,看看你遇到过多少种?焊接中的常见问题一、锡珠形成原因:渣或杂质:在焊接过程中,如果焊接区域附近有过多的杂质或者脏污&#xff0c…