TPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器

news2025/1/16 3:59:09

aedd149a22571dfaf1bdb823663e38b0.gif

©PaperWeekly 原创 · 作者陈卓群

单位 | 清华大学

2408547da6c29a20ac114bd7a23cf1eb.png

论文标题:

Searching a High Performance Feature Extractor for Text Recognition Network

收录情况:

TPAMI

论文链接:

https://ieeexplore.ieee.org/document/9887897

代码链接:

https://github.com/AutoML-Research/TREFE

d1b9b4a20e6cc0acbbc04487808215d6.png

引言

文本识别(Text Recognition)是一项旨在从图像中提取文本字符串的技术,对于工业界和学术界都有着很大的吸引力。而文本所具有的形色各异的外观、大小、字体、背景、书写风格和排版,都使得 TR 成为了一项非常有挑战性的问题。如 Fig1 所示,传统的 TR 系统可以大致被分为三个部分:

1. 图像预处理模块,针对自然语言场景中的实际情况,把输入图像转化为一个更便于识别的形式。主要实现方式有图像校正、超分辨率和降噪;

2. 特征提取器,用来从文本图像中提取特征。目前大部分特征提取器的实现形式都是通过 CNN 和 RNN 的结合,CNN 从图像中提取视觉特征,然后通过 RNN 增强时序依赖特征,生成鲁棒的序列特征;

3. 识别头,用来输出字符序列。目前较为流行的做法是基于神经网络的 CTC、字符分割、基于注意力的序列到序列、基于注意力的并行解码等。

439cdc6714607ad58090c0e6d5a81a29.png

特征提取器在 TR 中发挥着关键的作用,并且占据着大量的数据计算和存储开销。但由于手动调参的成本较高,因此对于特征提取器的结构个性化方面探索较少。现有方法往往直接使用起初为其他任务设计的 CNN 和 RNN 网络(如 TABLE 1),包括用于图像分类的 ResNet 和用于机器翻译的 BiLSTM,并没有针对 TR 任务进行调优。

8b1cf0e8ac9ee691aa2e756b80648bf3.png

除此之外,TR 系统在部署到终端时,通常会有推理延迟的限制,现有的设计方案并没有考虑到这一点,在手动调整 TR 系统以适应延迟的同时,很难保证高精度的识别。 

近期研究表明,神经架构搜索(NAS)可以在图像分类、语义分割、目标检测等计算机视觉任务中产出良好的神经架构,受此启发,摒弃此前需要专家手动设计架构的方法,本文提议使用 one-hot NAS 来搜寻高性能的 TR 特征提取器。

具体来说,我们首先为视觉和序列特征提取器设计一个特定于 TR 任务的搜索空间。对于视觉部分,该搜索空间支持对卷积类型和下采样路径进行选择;对于序列部分,本文提议使用 Transformer 替代,其比 TR 任务中常用的 BiLSTM 具有更强的并发性,但是 Vanilla Transformer 很难优于 BiLSTM。因此,本文进一步探索了 Transformer 近期的发展,并搜寻 Transformer 的变体。 

由于合成的超网之巨大,本文提议使用两阶段 one-hot NAS 方法。在第一个阶段,受神经网络渐进逐层训练的启发,本文采用了一种贪婪的逐块训练的方式。在第二个阶段,摒弃进化算法或随机搜索,本文使用自然梯度下降以更高效地从超网中搜寻更精悍的架构,部署环境的资源限制也可以很好地在本阶段引入,导致最终选择出的架构更有可部署性。在一系列的标准数据集上的大量实验表明,合成的 TR 模型在准确性和推理速度上都优于现存 SOTA 模型。

10f576bd91e3fcb2c2657a332f4a68de.png

方法介绍

2.1 问题表述

视觉模型搜索空间

空间模型是一个卷积神经网络 (CNN),每一个卷积层 可以被表示为 ,其中 为输入图像张量,ct 是卷积类型, 是高度和宽度维度上的步长。下采样路径将图像与卷积运算一起下采样到特征图 (feature map),可以显著影响 CNN 的性能。

本文通过探索视觉模型的架构并自动搜索每一层中的 值。整个空间结构可以通过 和 ,其中 是卷积层数, 是候选卷积操作的集合, 是候选步长值的集合。我们假定视觉模型的输入尺寸为 和 的具体选择过程如下:

1. 令 ,保证垂直方向的下采样步长不超过水平方向,以避免使得相邻字符更难区分。此外,当 为 (2,1) 或 (2,2) 时,该层的分辨率会降低,因此将滤波器的数量加倍。

2. 包括卷积核尺寸为 和扩展因子为 的反瓶颈卷积 (MBConv) 层。

3. 我们使用大小为 1×W/4 的输出 feature map,由于空间模型的输入大小为 32×W,因此对于每个下采样路径,都有:

28116b11288219e7543df0bd112edae8.png

Figure 3 (a) 展示了视觉模型搜索空间的 层结构。每个蓝色的节点对应一个 1 层的 的 feature map 。每条绿色的边对应一个候选的卷积层 运算 ,而每条灰色的边对应 中一个候选的步长。一条连接从初始尺寸 ([32, W]) 到最后一个 feature map R 寸 的蓝色节点的路径表示一个候选视觉模型。

c6dbcc7d1b46575b1a3c91174c4ae977.png

序列模型搜索空间

对于自然语言处理系统中的序列模型,LSTM 已经逐渐被 Transformer 替代,Transformer 在并行性和提取长期上下文特征方面都更有优势。但是由于在命名实体识别和自然语言推理等任务上的性能可能不及 BiLSTM,直接应用 Vanilla Transformer 可能并不理想。

设每个变换层为 ,其中 是输入张量,rt 是变换层的类型。序列模型的结构定义为 ,其中 为候选层的集合, 为变换层的数量。受 Transformer 最新进展的启发,本文提议通过以下四个方面改进其设计:

1. Transformer 以长度为 的 维特征序列 为输入, 通过三个多层感知器 (MLP 被转换为 query , key 和 value 尺寸均为 。本文添加从上一层至当前层的残差路径,以促进注意力分数的传播,第 层(不包括输入层)的注意力分数可表示为:

7cb9af0d07098e5c9a6553a2f9357533.jpeg

2. 添加相对距离表征 Rel 以提高注意力分数 A 的距离和方向意识:

8a91ed437bae1641c257a5fb2428ba26.png

其中 是可学习的参数, 是第 个 query, 是第 个 key, 是 和 的相对位置,被定义为:

0d0f54985a1edafb9a69f7807b13e4f5.png

3. 在计算注意力时,舍弃换算系数,通过 计算;

4. 用门控线性单元(GLU)代替前向网络(FFN)中的 MLP:

28558ea0c3dc25155e82af3e5335e630.png

其中 x 为多头自注意力(MHSA)的输出,⊗ 为元素积符号,σ 为 sigmoid 函数,这使得 FFN 可以与预测相关的特征。 

对于 N 层序列模型,我们将 Figure 4 的 N 个副本附到 Figure 3(a)中的序列模型输出,在 Figure 3(b)中,每个蓝色的矩形代表一个 transformer 层,每个黑色节点表示该层上的设计选择。Figure 3(b)中沿着黑色节点连接的品红色路径构成了一个候选的序列模型。

资源约束

在部署至终端时,客观的资源限制可以被表示为:

1c0c6927483d095b6c9c57857152f292.png

其中 为网络权重为 ,由 决定特征提取器结构的 TR 模型, 为环境, 为资源的预算。为简单起见,这里只考虑了一个资源约束,多个资源限制的情况同理。

搜索问题

假设一个在视觉模型中有 层、在序列模型中有 层的特征提取器,令 为网络的训练损失, 为网络在验证集上的效果。则对目标架构 的搜索可以表示为:

c35240687e55c7d62a709226605f9a84.png

其中:

159902c0d9c15a1e469ac99f3177cffe.png

值得注意的是,(6) 是一个双层优化问题,解决起来成本非常高,尤其是训练每个候选架构 以获得权重 时,因此直接优化 (6) 是不现实的。

2.2 搜索算法

受最新进展启发,本文提议使用 one-shot NAS 来解决(6),通过仅训练一个超网来简化搜索。然而由于搜索空间巨大,单阶段的方法需要训练整个超网,这需要大量的 GPU 内存,因此本文提出使用两阶段方法。

在one-shot NAS中设计超网

超网设计有两个基本要求,应包括搜索空间中的所有候选,以及每个候选都可以被表示为超网中的一条路径。 

本文提出的超网有两个部分,视觉模型和序列模型。视觉部分(Figure 3(a))是一个 3D 网格,其中每条边决定了一个转换表征的运算,从 [32,W] 到 [1,W/4] 的连接路径表示下采样路径,运算的选择和下采样路径共同决定了 CNN。Figure 3(b) 展示了超网中的序列模型部分。

训练超网

最主要的挑战是如何充分且公平地训练超网中的所有候选架构,一个典型的解决方案是对架构进行均匀采样,然后进行训练,但在巨大的搜索空间中,均匀采样是无效的。

为了缓解这个问题, 本文提议将超网 (表示为 ) 划分为 个更小的块 并逐一优化他们。由于视觉模型比序列模型大得多,因此把整个序列模型看作一个块 ,把视觉模型分为 个大小相等的块 (Figure 3(a))。具体训练过程如 Algorithm 1 所示。

5774ea3eba38c7da2af535b132e17f65.png

搜索子网

超网中的路径对应特征提取器的架构,设从 Algorithm 1 返回的超网的训练权重为 ,由于约束 已经被超网结构隐式编码,且超网权重已被训练,问题 (6) 可简化为:

4df33a7d6f996c1669a2fce16df15c13.png

其中 为路径 的权重。

为了避免直接使用进化算法 (EA) 带来的早熟问题,本文考虑对 使用随机松弛,将 (7) 转化为:

0c953fec23c84acdb7daf3addb2c9012.png

其中 表示期望, 是搜索空间上的指数分布,从 中采样有助于探索更多不同的架构。

Algorithm 2 展示了搜索过程,为了优化 ,我们首先使用指数分布 对架构的小批量 进行采样。对于每个采样架构,测量其时延和验证集性能。与超网训练相比,这花费的时间可以忽略不计。不满足延迟要求的架构将被丟弃舍弃,采样的架构和相应的性能分数用于通过自然梯度下降更新 。具体来说,在第 次迭代时, 更新为:

5b216ecfe8f838e8055b1fad0bdacbd5.jpeg

429d387faeaaeff3830cebb28f1649a6.png

0c226825cdc77f74040762af8ce49de9.png

其中 是步长, 为 Fisher 信息矩阵, 为梯度,Algorithm 3 展示了整个训练过程。

b956bb7e237dc9e369cc9f6f7971035a.png

1cda02e66c4601e393787473596cb0b7.png


实验结果

本文将 TREFE 与 SOTA 方法在手写文本和场景文本识别任务上进行了对比,为了简单起见,没有使用任何词汇或语言模型。

场景文本识别:

5083817f31755e30a99ac684a043ec81.png

手写文本识别:

94d8df680f97b9bed5b0f94f241090ba.png

20a91c3024f0cf0ca155e89647d4b768.png

更多阅读

90062704fdd8e8656c71374a37f3ba7a.png

fcf9f198209a1eda944b59093652b403.png

b33eb0e070cddd2e36276108d87de329.png

5d9d4787bcdd1a6a2c70ea89e2d566cf.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9a1bfad2804dc6d8ab1d1d2590bdbfe3.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

5e16cbc3cde496704317188073968869.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/41914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTTPS(对称加密+非对称加密+证书)

目录 1. 加密和解密 HTTPS工作过程 2. 对称加密 3. 对称加密 4. 既然都有非对称加密了,那为啥还要有对称加密 5. 中间人攻击 6. 引入证书 HTTPS 也是一个应用层协议. 是在 HTTP 协议的基础上引入了一个加密层. HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在…

笔记本电脑恢复删除数据的5种方法

我们都知道笔记本电脑比台式电脑拥有方便携带的优势,但是不论是笔记本还是台式电脑,难免会出现数据丢失情况,如最近有位小伙伴,不小心将自己出差需要使用的工作资料误删了,那么问题来了,笔记本数据删除怎么…

Vuex的搭建与使用

Vuex 专门在Vue中实现集中式状态(数据)管理的插件 (Vue.use(Vuex)),对Vue应用中多个组件的共享状态进行集中式的管理(读、写),也是一种组件间通信的方式,且适用于任意组件间通信。 如果多个组…

git的使用规范及技巧总结

一、什么是Git? Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同&#x…

聚观早报 | 黑五电子产品销售额飙升;谷歌不满微软收购动视暴雪

今日要闻:黑五电子产品销售额飙升;谷歌不满微软收购动视暴雪;特斯拉海外充电站价格下降;欧盟对微软发起反垄断调查;小米13渲染图曝光黑五电子产品销售额飙升 据消息,Adobe数据和分析部门Adobe Analytics发布…

Navicat Premium 16 连接Oracle注意事项

起因 新同学使用的新版本的Mac电脑 但是装的W系统M芯片 发现 PLSQL Developer 并不兼容 导致无法连接到Oracle数据 就临时换成Navicat Premium 16进行连接 然后就出现了一系列问题 Oracle默认编码集 ZHS16GBK 该问题是Navicat Premium默认使用Navicat自带的instantclient_…

激光雷达发射的PCB布局

1、激光发射的电路如下图所示。 重点就是要考虑电容、GaN、激光器三部分的布局。 2>第一种布局方式 激光器、GaN、电容三者都在同一层上,放电的回路也都在顶层上,此时临近的第二层没有铺地。 用ANSYS仿真得到此时得回路电感为2nH左右。我们都以500M时得寄生电感来评估。…

面试官:介绍一下 Redis 三种集群模式

小码今天去面试。 面试官:给我介绍一下Redis集群, 小码:啊,平时开发用的都是单机Redis,没怎么用过集群了。 面试官:好的,出门右转不谢。 小码内心困惑:在小公司业务量也不大&…

操作系统

文章目录一,操作系统是什么二,操作系统的发展史1) 1945~1955年2) 1955~1965年:首个操作系统诞生3) 1964~1979年:多道程序系统诞生4) 1979~至今:网络操作系统和分布式操作系统快速发展三,操作系统的类别一&a…

静态HTML旅行主题网页设计与实现——联途旅游网服务平台网(39页)HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

KafKa C++实战

1 集群 1. Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的 server,负责处理消息读、写请求,存储消息,在kafka cluster这一层这里,其实里面是有很多个…

SpringBoot+Vue项目校园防疫管理系统

文末获取源码 开发语言:Java 使用框架:spring boot 前端技术:JavaScript、Vue.js 、css3 开发工具:IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库:MySQL 5.7/8.0 数据库管理工具:phpstudy/Navicat JD…

Apollo 应用与源码分析:Monitor监控-硬件监控-GPS

硬件架构图 可以看到左下角的“GNSS定位模块”其实是有IMU和GPS Antenna 组成的。 执行分析 代码 class GpsMonitor : public RecurrentRunner {public:GpsMonitor();void RunOnce(const double current_time) override; };void GpsMonitor::RunOnce(const double current_t…

为什么要把Linux机器加入到Windows AD/域控制器(Linux机器为什么要入域)?

文章目录1. 如何入域?2. 如何判断入域成功?3. 入域的效果(目的)是什么?4. 入域和SSSD之间是什么关系?1. 如何入域? sudo yum -y install oddjob oddjob-mkhomedir sssd samba-common-tools adcli \krb5-workstation o…

Java项目:jsp+servlet实现的新闻发布系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目分为前后台; 前台主要功能为: 首页、娱乐新闻、经济新闻、文化新闻、小道新闻、用户评价等; 后台主要…

HTML5学习笔记(五)

CSS3 多列布局 CSS3新增了一种布局方式——多列布局。使用多列布局,可以轻松实现类似报纸那样的布局。 多列布局的应用非常广泛,像各大电商网站、素材网站中常见的“瀑布流效果”。 column-count属性来定义多列布局的列数。 column-width属性来定义多列…

【云原生系列】第四讲:Knative 之 Eventing

目录 序言 1.基础介绍 2.组成要素 2.1 事件源(Event Source) 2.2 事件处理(Flow) 2.3 事件消费者(Event Consumer) 3.架构模式 3.1 Source to Service ​编辑 3.2Channels & Subscriptions …

思科配置SVI实现VLAN间路由

思科SVI配置 说明 SVI技术与单臂路由和传统VLAN间路由一样,都是解决多个VLAN间通信问题。 SVI技术利用了多层交换机(本文以三层交换机为例)。 示例拓扑 其中S1为三层交换机 S2的Fa0/2接口于VLAN 10下 S3的Fa0/2接口于VLAN 20下 PC 1地…

NH2-picolyl-azide|2168629-06-7|Amine azide Picolyl叠氮生物标记基团

【产品描述】 西安凯新生物科技有限公司​picolyl-azide-NH2含有叠氮基,叠氮基可以通过点击化学与炔烃、BCN、DBCO反应,生成稳定的三唑键。末端羧酸在活化剂(如EDC或HATU)存在下可与伯胺基反应,形成稳定的酰胺键。叠氮…

python基础之面向对象基础语法

文章目录一、面向对象基础语法1.dir内置函数:2.定义一个简单的类(只包含方法):二、实例演练3.面对对象练习:小明爱跑步需求:4.摆放家具练习:5.士兵突击,需求:6.私有属性和…