【超分】A Benchmark for Chinese-English Scene Text Image Super-resolution

news2024/11/20 19:43:47

中英文场景文本图像超分辨率的基准

摘要:场景文本图像超分(STISR,Scene Text Image Super-resolution)就是将低分辨率图像恢复为具有令人愉快的视觉和可读的文本内容。现有工作都是处理笔画简单的英文字符而不是复杂的中文字符。本文中,作者提出了一个真实场景下的中英文基准数据集,命名为Real-CE,目的是为了恢复低精度的中文字符。这个基准数据集拥有1935/783的真实的高精度-低精度的文本图像对(包括3378个文本行),训练/测试可使用2X,4X缩放的方式,并有细节性的标注,包括检测框和文本记录。此外,作者还设计了边缘增强的学习方法,这种方法提供了结构性的监督和特征区域,有效的重建了中文字符的密度结构。作者在提出的数据集上评估了已有超分方法,对比了使用边缘增强的损失函数的算法效果。代码和数据链接:https://github.com/mjq11302010044/Real-CE。

1.介绍

2.相关工作

3.Real-CE基准

        提出的数据集基准包括中文和英文的高清-低清图像对,评估协议有5个度量方法。

3.1 Dataset Construction(数据集构造)

        通过多个步骤重构了数据集,包括数据收集,登记( registration),文本裁剪和文本标注,如图2。

3.2  Dataset Statistics(数据集统计信息)

        作者整理的数据包含2X和4X放缩方式进行训练和测试,数据信息统计如表1,Real-CE中包含33789个文本行对子。其中24666为中文,剩下的为英文。

3.3  Evaluation Protocol(评估协议)

        在Real-CE数据集上评估STISR模型的性能,作者使用了5种度量,包括结构相似性指数测度(SSIM)【39】,峰值信噪比(PSNR),学习感知图像块相似性(LPIPS)【42】,得到的归一化编辑距离(NED)和单词准确性(ACC)。在这些度量方法中,PSNR,SSIM和LPIPS测试的误差是重建高清图像和真实结果的误差。特定的,PSNR和SSIM评估图像空间,LPIPS评估特征空间。ACC和NED使用文本识别模型来评估重建高清图像的精度。作者使用了预训练的CRNN【32,5】作为文本识别模型用于评估。ACC计算预测序列的单词级准确性。NED在预测的文本序列P和真实文本图像标签G计算方式如下:

NED(P,G)=1-\frac{​{ED(P,G)}{}}{max(|P|,|G|)},(1)

 ED(.)代表编辑距离计算,|P|和|G|分别表示预测标签和真实标签。因而,当NED值较大时,被预测的序列更加精确,更加逼近真实标签。当作者评估长文本,当我们测量长文本时,ACC指数可能不能完全反映字符级别的识别正确性,而NED可以以更细粒度的方式进行测量。

         在测试过程中,训练STISR模型在原始的LR文本区域重建HR的图像。文本行在重建HR图像时会被裁剪,保持原始比例,用于ACC和NED识别评估。评估处理如图4(b)。评估TextZoom的度量协议【35】(看图4(a)),训练和评估文本行使用固定尺寸和形状,作者的协议体以避免文本信息需要进行缩放操作。如图4(a)这种操作对中文处理不是很有话,由于低重建质量和识别精度。

4. 文本边缘增强STISR

        不同于英文字符,中文字符是由笔画构成(可参看【5】),有更多复杂的内部结构。因而,需要对中文文本的重建进行精细的设计。本节中,作者提出了一种边缘感知学习方法,使用边缘图作为输入,使用边缘感知作为监督。

4.1 Text Edge Map(文本边缘图)

        图像中的文本信息不可避免的混合有复杂的背景信息。这就弱化了文本结构的显著性,也在某种程度上影响着文本重建处理。文本边缘信息有助于处理问题,因为它有效引导了STISR模型,更好地注意到文本结构和笔画。

        作者使用了Canny边缘检测器【3】计算文本边缘图,在训练过程中用C表示。文本边缘图区域用1表示轮廓区域,0代表背景。因而,文本边缘图包含文本结构。图5中,可以看到字符的形状和结构,在LR-HR图像对中可能不够清晰,但是使用canny 边缘图之后,文本形状和结构被增强。作者计算LR和HR图像的边缘信息。LR边缘图像CLR和LR图像在通道维度上进行concat作为网络结构的输入,如图6所示,因为这种额外的输入,STISR模型可以学到更加强壮的精炼的文本结构特征表征。

4.2  Edge-aware Loss(边缘感知损失)

        作者基于计算的边缘特征图提出了边缘感知损失。首先,STISR模型输出用于重建HR文本图像\bar{I}_{H},估计的HR文本边缘特征图\hat{C}_{H}。被估计的文本边缘特征用于在训练阶段获得额外的监督,但是在测试阶段就不在需要。EA损失用于计算估计的文本边缘特征图和真实边缘图在像素级别和特征级别的损失。

        在像素级别,我们在图像区域使用L1损失用于估计HR边缘特征图\hat{C}_{H}。被估计的文本边缘特征用于在训练阶段获得额外的监督,但是在测试阶段就不在需要。EA损失用于计算估计的文本边缘特征图和真实边缘图在像素级别和特征级别的损失。

在像素级别,我们在图像区域使用L1损失用于估计HR边缘特征图\hat{C}_{H}和真实的HR图像的边缘特征图CH之间的损失。因此,EA损失用于像素级别损失,表示如下:

L_{EA}^{P}=|C_{H}-\hat{C}_{H}|, (2)

此外像素级别的监督,计算特征级别的EA损失L_{EA}^{F}:

L_{EA}^{F}=|F(\hat{I}_{H})\cdot F(\hat{C}_{H})-F(I_{H}).F(C_{H})|,(3)

        这里F表示预训练特征提取网络(本文中使用VGG19【34】)。F(\hat{I}_{H})F({I}_{H})表示估计的特征表征和真实HR的图像的特征表征。F(\hat{C}_{H})F(C_{H})分别表示估计的特征表征的文本边缘图和真实HR的文本边缘图。图像特征通过边缘特征进行element-wise操作进行加权(例如F(\hat{I}_{H})\cdot F(\hat{C}_{H}))增强结构区域。最终,L1损失用于在固执结构和真实结构中增强特征。可以再补充文档中查看细节分析。最后,与彩色图像张的L1损失和EA损失项一起,整个损失韩式L就计算如下:

L=L^{_{1}}+\alpha L_{EA}^{P}+\beta L_{EA}^{F}, (4)

其中\alpha\beta是平衡参数。

5. 实验结果

        本章节,作者使用提出的基准数据集,通过对比已有的STISR算法,验证了提出的EA loss可以提升STISR算法的性能。优化器使用Adam。当在Real-CE训练集上训练,epoch总数是400.学习率设置是2X10-4.在计算EA损失L_EA.作者使用了预训练VGG19【34】预训练中的Conv5-4。公式(4)中的参数alfa和bata分别设置为1和5X10-4.当计算基于识别的度量,作者首先从全文本图像中裁剪文本行,然后缩放高清文本行用于字符识别。

5.1  Effectiveness of Real-CE Dataset(Real-CE数据集的有效性)

        本章节中,作者展示了实验验证提出的Real-CE数据集超越现有真实SR数据集的优势,例如TextZoom【35】和RealSR【2】。TextZoom是用于英文超分算法的数据集,没有汉字字符。RealSR是为真实世界的自然图像超分辨率而构建。作者在三个数据集上评估了5个SOTA的SISR模型和4个SOTA的STISR模型。这5个SISR模型分别是SRRes【20】,RRDB【38】,EDSR【22】,RCAN【45】,和ELAN【44】,前四个是基于CNN的模型,最后一个是基于transformer的模型。四个STISR模型分别是TSRN【35】,TPGSR【25】,TBSRN【4】和TATT【26】,前两个是基于CNN的模型,后面2个是基于transformer的模型。

        所有的STISR和SISR模型分别使用Real-CE,TextZoom和RealSR数据集合训练,测试使用Real-CE。SISR模型一般支持任意的属于尺寸,原始的测试图片作为输入,PNSR,SSIM和LPIPS度量用于原始图像尺寸上。请注意,这是我们基准测试的默认评估协议,如3.3节描述。但是,大多数STISR模型【35,25,4,26】仅仅支持固定尺寸的输入。所以,开始的时候裁剪和缩放测试图片到固定的尺寸作为网络的输入,然后将网络输出与调整大小的真实图片作比较如:PNSR,SSIM和LPIPS。

        比较SISR和STISR模型的量化结果如表2。在TextZoom上训练的模型结果在基于图像度量和基于识别度量上获得了更差的结果。这是因为TextZoom训练集合中缺乏复杂的字符结构,因而训练的模型不能够处理复杂Real-CE测试集的中文字符。此外,使用TextZoom,超分辨模型只能够使用固定尺寸的数据进行训练,这就很难处理其他尺寸的字符。在RealSR【2】上训练的模型也获得了较差的结果,因为RealSR主要基于自然图像SISR。相比而言,STISR和SISR模型在Real-CE上训练获得了更好的文本恢复能力。此外,应当注意评估SISR的度量得分和STISR的度量的分方法是不一样的,SISR是将整图作为输入,而STISR是将文本行作为输入。

        图7可视化在SISR和STISR模型在三个数据集上训练后的SR结果。为了方便,作者输入不同的图像道不同的模型中,并使用更加复杂的评估方式。模型的文本恢复结果使用TextZoom非常模糊,并包含伪影。这也是因为TextZoom缺乏复杂的中文字符结构的训练样本。此外,TextZoom仅仅支持固定尺寸的训练和训练算法结构不能够泛化到其他尺寸的测试数据集上。在RealSR上的算法模型结果伪影较少,复杂笔画才会比较模糊。对比而言,在Real-CE数据上模型训练结果拥有更加清晰的边缘,在中英文字符上拥有更多的可读性。更多的可视化结果可以查看补充性材料。在合成的LR-HR数据集和Real-CE数据集上比较STISR,请查看补充材料。

5.2  Effectiveness of the EA loss(EA loss的有效性)

        作者使用不同的loss(L_{1},L_{EA}^{P},L_{EA}^{F}),通过测试SISR和STISR算法模型验证了EA损失的有效性。这里作者使用了三个SISR算法模型,包括SRRes【20】,RRDB【38】和ELAN【44】,和2个STISR模型,包括TBSRN【4】和TATT【26】,在实验中,评估结果和5.1节的一样。

        量化评估结果如表3,通过比较只使用L1损失,算法模型训练使用L1和L_{EA}^{P}强调了增强PSNR/SSIM得分。因为L_{EA}^{P}对图像边缘进行了像素级的监督,可以从而改进像素度量。但是,感知度量(如:LPIPS)的提升和识别度量也是有限的。通过增加L_{EA}^{F}损失训练,所有的模型在LPIPS和识别精度上得到了显著的提升,特别是4X结果上。这表明字符结构信息对文本易读性很重要。因为字符结构可以使用L_{EA}^{F}来增强,文本识别得到有效提升。

        通过使用RRDB模型,作者可视化了STISR使用不同损失时的结果,如图8.首先,只使用RRDB和L1算是训练结果与双线性插值相比,展示了性能有限的提升。通过L_{EA}^{P}损失训练,重建后的文本图像具有更清晰的字符边缘,得到了很大的增强。如图8(c)。通过进一步整合L_{EA}^{F}损失,有效提升了边缘清晰度和局部的对比对,有效的提升了中文文本内容的可视化,如图8(d)。此外,更多的结果可以查看补充性文档。

5.3 Failure Cases(失败的例子)

        作者提出的方法在某些情况下会失败:当字符图像非常模糊和字符结构很复杂,如图9所示。尽管输出边缘清晰,但是有些笔画却错了。这是因为细笔画在低精度的图像中非常模糊。这种情形下,可以合并语义信息以提供帮助文本修复,这将是我们未来的工作。

6.结论

        本文中,作者创立了中英文基准数据集,命名为Real-CE,可用于图像超分辨率(STISR)模型的训练。包括了1935张训练样本和783张测试样本。文本区域中包括33789行文本行,里面有24666行是复杂结构的中文文本。作者进一步提出了边缘增强(EA, edge-aware)学习方法用于重建中文文本,该方法用于计算文本边缘图,部署EA损失引导STISR模型学习星恋。实验结果正面使用Real-CE数据集训练可以使文字变得更加清晰,更加可读。EA学习策略可以有效的有效的提升图像质量。Real-CE数据集为研究者提供了一个基准,可供研究者研究中文文本图像的恢复方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1088446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Axure RP医疗在线挂号问诊原型图医院APP原形模板

医疗在线挂号问诊Axure RP原型图医院APP原形模板,是一款原创的医疗类APP,设计尺寸采用iPhone13(375*812px),原型图上加入了仿真手机壳,使得预览效果更加逼真。 本套原型图主要功能有医疗常识科普、医院挂号…

【JavaEE初阶】 volatile关键字 与 wait()方法和notify()方法详解

文章目录 🌲volatile 关键字🚩volatile能保证内存可见性🚩volatile 不保证原子性 🎋wait 和 notify🚩wait()方法🚩notify()方法🚩notifyAll()方法🚩理解notify 和 notifyAll &#x…

商贸进销存软件怎么选?

本文将为大家讲解:1、商贸企业进销存流程上的难点;2、商贸企业如何选择进销存系统? 在当今快速发展的商业环境中,有效的进销存(Inventory Management)管理是商贸企业成功的关键因素之一。然而,…

linux环境下使用lighthouse与selenium

一、安装谷歌浏览器、谷歌浏览器驱动、lighthouse shell脚本 apt update && apt -y upgrade apt install -y curl curl -fsSL https://deb.nodesource.com/setup_18.x | bash apt install -y nodejs apt install -y npm npm install -g lighthouse apt-get install -y …

AutoRunner自动化测试工具

AutoRunner自动化测试工具(简称AR)是泽众软件自主研发的自动化测试工具,也是一个自动测试框架,加载不同的测试组件,能够实现面向不同应用的测试。通过录制和编写测试脚本,实现功能测试、回归测试的自动化,自…

UE4中无法保存项目问题

系列文章目录 文章目录 系列文章目录前言一、解决方法 前言 取消:停止保存所有资产并返回编辑器。 重试:尝试再次保存资产。 继续:仅跳过保存该资产。 当我点击继续时,关闭项目,然后重新打开项目,发现之前…

代码随想录

前言 代码随想录算法训练营day04 (不会写数据结构的代码,对着力扣题解和代码随想录网站边敲学) 一、Leetcode24. 两两交换链表中的节点 1.题目 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值…

手部关键点检测1:手部关键点(手部姿势估计)数据集(含下载链接)

手部关键点检测1:手部关键点(手部姿势估计)数据集(含下载链接) 目录 手部关键点检测1:手部关键点(手部姿势估计)数据集(含下载链接) 1. 前言 2. 手部检测数据集: (1)Hand-voc1 (2)Hand-vo…

FMI标准:实现SkyEye与Simulink无需缝合的联合仿真

在汽车工业、航空、机电装备等领域存在着不同的应用、建模系统。在解决不同问题的过程中,为了仿真完整的系统,往往需要在不同的仿真程序之间进行交互,并且为了实现完整的调试,系统的集成必须确保来自不同供应商的仿真环境能够协同…

腾讯云 CODING 界面全新升级,代码仓库 Rebase 变基合并、批量复制事项等功能上线!

点击链接了解详情 金秋十月,腾讯云 CODING DevOps 焕新上线!本次更新,我们不仅推出了全新的用户界面,还推出了一系列重磅产品能力,满足广大用户的日常研发与协作所需。 以下是 CODING 新功能速递,快来看看是…

文件的操作

前言:哈喽小伙伴们好久不见,国庆假期已经结束,接下来我们还是要马不停蹄的投入到学习当中,只有尽快调整状态回归学习,才能弯道超车。 今天我们一起来学习C语言——文件操作。 本篇文章讲到的所有函数均需要头文件#inc…

国内ITSM发展的趋势

多年来,随着客户业务需求、工作文化、技术创新的不断变化以及新的IT环境的出现, IT支持也出现了新的变化,由单一的IT帮助台( IT help desk)逐渐转变为了综合性的IT服务台( IT service desk)&…

基于intel D4系列深度相机 (D455)的单点测距和两点距离测量(代码讲解超详细)

目录 1.简介 1.1 intel D4系列深度相机 (D455) 1.2结构光(Structured-light) 2.基于深度相机的单点测距和两点距离测量 2.1函数详解 2.2 全部代码 1.简介 1.1 intel D4系列深度相机 (D455) Intel RealSense D435、D455等D4系列: Intel D4系列深度相机是由英特…

有人因它丢掉offer!背景调查到底有什么魔力?

求职时,公司往往会对应聘者过往经历做一些背景调查——也被叫做背调。 据i背调人才研究院数据显示,2022年的求职失信占比仍然较高,有39.13%的候选人存在职业信用异常。而随着近些年来,整体就业市场和职业发展中竞争压力不断加剧&…

间歇性微服务问题...

在Kubernetes环境中,最近由于特定配置导致Pod调度失败。哪种 Kubernetes 资源类型(通常与节点约束相关)可能导致此故障,尤其是在未正确定义的情况下? 节点选择器资源配额优先级污点Pod 中断预算 已有 201 人回答了该…

【学习之路】Multi Agent Reinforcement Learning框架与代码

【学习之路】Multi Agent Reiforcement Learning框架与代码 Introduction 国庆期间,有个客户找我写个代码,是强化学习相关的,但我没学过,心里那是一个慌,不过好在经过详细的调研以及自身的实力,最后还是解…

A星寻路优化方案

1.存储常用位置间的路径信息(此优化方案一般用于地图较大,且起始点离终点较远情况下) 对于地图信息已知且各障碍位置固定的情况下,可以将常用的位置及其之间的路径信息保存,然后寻路时分别找到离开始点,结…

【JUC】原子操作类及LongAddr源码分析

文章目录 1. 十八罗汉2. 原子类再分类2.1 基本类型原子类2.2 数组类型原子类2.3 引用类型原子类2.4 对象的属性修改原子类2.5 原子操作增强类 3. 代码演示及性能比较:4. LongAddr原理5. LongAddr源码分析5.1 add()5.2 longAccumulate()5.3 sum() 6. 小总结6.1 Atomi…

【JUC】CAS原理

CAS原理 文章目录 CAS原理1. 概述2. 原理3. Unsafe4. CAS与自旋锁 1. 概述 compare and swap的缩写,中文翻译成比较并交换,实现并发算法时常用到的一种技术。它包含三个操作数一一内存位置、预期原值及更新值 执行CAS操作的时候,将内存位置的值与预期原…

和鲸 × 北中医:高规格、高并发,一场真正的人工智能分析应用临场实践考核

百舸争流,奋楫者先,2023 年,人工智能已逐渐成为引发千行百业产生颠覆性变革的前沿技术。随着人工智能时代的加速到来,我国政产学研各界对于创新型、复合型 AI 人才的能力要求正不断提升。 面对一批又一批激流勇进、乘风破浪的莘莘…