【文本SR:轻量级:残差注意力】

news2025/1/4 17:34:23

A Lightweight Deep Residual Attention Network for Single Image Super Resolution

(一种用于单幅图像超分辨率的轻量级深度残差注意力网络)

本文将稀疏编码技术应用于基于学习的文本图像超分辨率(SR)中,以提高光学字符识别(OCR)的准确性。对于单幅图像SR,我们创建了一个数据驱动的模型,具有深度残差注意力。深度残差注意力算法建立在一个新的深度架构,具有较高的代表性的能力。在所提出的方法的架构由一个残差网络和一个双注意力网络。通过使用通道注意和空间注意技术实现特征的重新校准。该模型使用残差图来恢复丢失的高频特征,并有助于克服较低的空间分辨率问题。

INTRODUCTION

在现代,数字化的必要性正在迅速增加。由于信息和通信技术(ICT)的增长以及手持设备的广泛可用性,人们通常更喜欢数字化内容而不是包括书籍和报纸在内的印刷材料。此外,利用自动化和人工智能等许多先进技术,更容易组织数字化数据并对其进行分析。因此,为了跟上目前的技术情况,有必要将所有印刷格式的当前信息转换为数字化形式。光学字符识别的主要任务是识别图像中的印刷文本。光学字符识别(OCR)帮助我们完成繁琐的数据数字化工作。OCR是计算机视觉中的一项重要任务,具有许多应用。可用于卡号识别、车牌识别、文档内容提取等。图1示出了OCR系统的不同阶段。在这里插入图片描述
在这里插入图片描述

图像遭受许多问题,如图像模糊、每单位面积较少的像素来传达细节、缺乏高频细节、图像中的噪声等。OCR的目标是输出一幅图像,用于准确的字符识别;因此,如果输入的文本图像是低分辨率的,则识别精度将是不可接受的。对于低分辨率输入图像,在执行OCR操作之前增加分辨率将是有用的。因此,图像获取过程涉及扫描文档并将其存储为必须应用识别的图像。因此,需要一些预处理,使得图像变得对于OCR识别嵌入的信息而言适度容易。这就像是根据场合打扮。图像的可读性应足以使OCR系统正确地解释信息。然而,图像的可读性可能较差有三个主要原因。
1)低分辨率图像缺乏高频细节,并且具有关于场景的不完整信息(不适定问题)。因此,图像中没有规则性。
2)图像拍摄不正确。它们可能会因各种异常而失真,包括阴影、闪光反射或运动、照明不足或对焦不当。例如,考虑拍摄太大而不能容纳在单个图像中的货币收据的照片,通常不可能捕获整个信息。结果,图像是在远离收据的地方拍摄的,因此降低了可读性(即,模糊或不完整的细节)。
3)图像可以被高度压缩。有时在忙碌时间下载图像期间,Web可能会自动降低分辨率,从而使其无法用于OCR。
虽然有几个原因为什么接收到的照片是低质量的,在许多情况下,图像仍然是清晰的从人类的角度来看。然而,在大约40%的情况下,人可以读取输入图像,但OCR无法提取完整的数据。对于OCR,我们提出了一个单一的图像超分辨率(SISR)在本文中的解决方案。通过增加输入图像的分辨率(其已被上述因素降低),其寻求改善OCR的输出。主要目标是提高图像分辨率,使其可以被人以及OCR读取。

Contributions

1)该方法利用通道注意和空间注意的概念实现特征的重新标定,并利用残差的概念保留高频细节。
2)有效增强图像中的高频细节,有助于提高OCR性能和其他实际应用。

RELATED WORK

为了提高计算效率并充分利用深度学习技术自动提高分辨率,研究人员通过在模型之后合并端到端可学习层来取代预定的上采样,从而在低维空间中执行大部分计算。LR输入图像被馈送到深度CNN中,而不增加该架构的分辨率,特别是后上采样SR,并且在网络的末端添加端到端可学习的上采样层。由于这种具有高计算成本的特征提取过程仅发生在低维空间中并且在最后上采样,因此计算和空间复杂度大大降低。因此,这个框架也演变成了最广泛使用的架构之一。

Residual Learning

He等人提出了使用残差而不是完整映射来学习的ResNet,从那时起SR模型已经广泛使用残差学习。残差学习技术可以基本上被分成全局残差学习和局部残差学习,如下文所述。
1) Global Residual Learning:
图像SR是当输入图像和输出图像高度相关时的图像-图像平移问题。研究人员试图只学习它们之间的残差或全局残差学习。在这种情况下,避免了学习从一个完整图像到另一个完整图像的复杂变换,有利于仅学习残差图以恢复丢失的高频信息。模型的复杂性和学习难度显著降低,因为残差几乎接近于零。因此,它被SR模型广泛应用。
2) Local Recurrent Learning:
局部残差学习用于解决持续扩展网络深度所导致的退化问题,降低训练难度,并增强学习能力。它相当于ResNet中的剩余学习。局部结果学习在文献[15]-[18]中得到了广泛的应用。

PROBLEM DEFINITION

Problem

图像超分辨率是在最小化质量损失的同时放大微小图像的过程,或者通过从低分辨率图像中捕获丰富的特征将其转换为高分辨率图像的过程。对于给定的低分辨率图像有许多解决方案,使得这个问题极具挑战性。这方面的应用包括卫星和航空图像的研究、医学图像处理、压缩图像/视频增强等。低分辨率图像y是从参考高分辨率图像获得的,如由⑴给出的:在这里插入图片描述

LR图像存在模糊、噪声、不适定(丢失信息)和低空间分辨率等问题。为了克服这些问题,提出了基于深度学习的架构以提高OCR性能。

Evaluation Method

两种常用的定性性能指标用于评估:PSNR和SSIM。这些是基于亮度。令X和X分别表示低分辨率输入图像和重建的高分辨率输出图像。在这里插入图片描述
结构相似性指数(SSIM)也用于测量图像之间结构的相似性,基于在亮度、对比度对M×N个像素的^X结构方面的独立比较。在这里插入图片描述

PROPOSED METHOD

拟议模型由三个部分组成:浅层特征提取(SFE)、深层特征提取(DFE)和恢复如图3所示。在算法1和2中,表示浅特征块和深特征块的流程在这里插入图片描述
在这里插入图片描述

Dual Attention (DA) Block

双注意(DA)块从卷积流中提取特征。这表明,需要一种机制来在特征图内沿着空间和通道维度共享信息,这是由DA块执行的。DA块会抑制不太有用的功能,只允许继续提供更多信息。.使用通道注意力和空间注意力技术,这个功能重新校准完成。根据图4、图5和图6,DA块由空间关注块和信道关注块组成。在算法3中,表示双注意力块工作。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通道注意分支使用挤压和激励操作来利用卷积特征图的通道间关系。为了对给定特征图的全局上下文进行编码,挤压操作跨空间维度应用全局平均池化(GAP),从而产生特征描述符。该特征描述符被呈现给两个卷积层、Sigmoid和激活操作输出的激励算子。使用激活层的输出重新缩放输入特征映射会导致通道注意分支的输出。
要利用卷积特征的空间依赖性,请使用“空间注意力”分支。为了重新校准输入图像的特征,空间注意力的目的是创建空间注意力图。“空间注意力”分支在连接结果以生成空间注意力图之前,沿着通道维度对输入要素独立执行“全局平均池化”和“最大池化”操作。为了创建空间注意力图,特征图被卷积,然后被激活。为了缩放输入特征图,采用该空间注意力图。
如算法6所示,DFE块的输出然后被给予重建块。在这里插入图片描述

Loss Function

在SR领域,图像恢复或重建通常使用回归损失和损失函数进行模型优化。在所提出的模型中,损失函数,即,像素丢失,测量两个图像之间的像素差异。所提出的损失函数,即L2(均方误差)如下所示。在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅析做好数据安全风险评估的重要性

一、被忽略的数据安全风险 快速问答 你知道公司内有多少数据资产吗? 这些数据资产中哪些数据更为重要? 如何保护公司数据资产,防止数据泄露&劫持等事件发生? 如果你一问三不知的话,也许你该好好思考数据安全这项…

数据库系统概论(三)数据库设计、数据库恢复技术、并发控制

作者的话 前言:总结下知识点,自己偶尔看一看。 一、数据库设计 数据库设计是指对于一个给定的应用环境,构造(设计)优化的数据库逻辑模式和物理结构,并据此建立数据库及其应用系统 1.1概述 1.1.1数据库设计…

mysql 简单定位慢查询并分析SQL执行效率

实际的日常开发工作中可能会遇到某个新功能在测试时需要很久才返回结果,这时就应该分析是不是慢查询导致的,如果确实有慢查询,就需要来学习怎么找到慢查询和怎么分析 SQL 执行效率? 定位慢 SQL 有如下两种解决方案: …

ClickHouse-简单了解

文章目录 前言数据库引擎数据表引擎Log 系列Integration 系列Special 系列MergeTree 系列 ClickHouse 数据类型ClickHouse 常用的函数 前言 什么是 ClickHouse?简单来说它是一个高性能,面向列的SQL数据库管理系统(DBMS)&#xff…

嵌入式知识分享——GDB程序调试方法说明

前 言 本指导文档适用开发环境: Windows开发环境:Windows 7 64bit、Windows 10 64bit Linux开发环境:Ubuntu 18.04.4 64bit 虚拟机:VMware15.1.0 U-Boot:U-Boot-2020.04 Kernel:Linux-5.4.70 Linux…

接口调用重放测试-业务安全测试实操(21)

接口调用重放测试。 接口调用遍历测试 接口调用重放测试 测试原理和方法 在短信、邮件调用业务或生成业务数据环节中,如短信验证码、邮件验证码、订单生成、评论提交等,对业务环节进行调用(重放) 测试。如果业务经过调用(重放) 后多次生成有效的业务或数据结果,可判断为存在…

PMP®证书增持 CSPM-2证书,哪里办理?

2023年6月起,持有PMP证书的朋友可以直接增持一个同等级证书CSPM-2,不用重新考试,不用重新学习,原PMP证书不影响正常使用,相当于多了一个国标项目管理领域的证书。 第一步准备资料 1、填写能力评价表 2、提供2张2寸蓝底…

在 Jetson Nano 上安装 ncnn 深度学习框架。

Install ncnn deep learning framework on a Jetson Nano. Introduction.RTTI.CMake 3.18.4.Dependencies.Benchmark.Introduction. 本页面将指导您在 Jetson Nano 上安装腾讯的 ncnn 框架。由于 ncnn 框架面向移动设备(例如 Android 手机),因此它不支持 CUDA。然而,大多数…

考虑储能的电价套利收益模型研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

C语言笔记-1 编译过程字节数

文章目录 C 基础语法注意 C 其他知识点编译过程编译器数据模型区别32/64位机器中,各数据类型所占位数assert() 断言(宏)用法总结与注意事项 C 基础语法 注意 if(a表达式) 判断的就是a的值,而不是判断这个赋值操作的成功与否。 查…

项目经理告诉你,项目管理的基本原则

张伟初升为项目经理,正面临着职业生涯中的挑战。他意识到项目经理的责任是复杂而艰巨的,因此在工作中经常犯错。他发现自己的表达不够清晰,思维混乱;花费大量时间制作的文字记录重点不突出,缺乏逻辑。这些问题破坏了他…

韶音open fit开放式耳机怎么样?和南卡OE Pro相比哪个值得入手的呢?

最近南卡新上线了一款南卡OE Pro,官方宣称佩戴上0压无感,是音质体验最好的耳机,究竟有没有这么好用呢?正好我手头上也有了南卡OE Pro,试用了几天,那么下面我就来给大家对比一下耳机圈内这两款热门的开放式耳…

AI智能服务未来可能的场景

一、产业结构 ChatGPT大模型技术变革加速人工智能产业的变迁 1.投资热 2.产业结构:硬件-云平台-智能应用-应用提供 智能服务产业未来会是一个从算力到服务分发全流程的结构 二、Al智能无处不在的未来,产业将如何演变? 1.技术:…

【正点原子STM32连载】 第四十二章 DS18B20数字温度传感器实验 摘自【正点原子】STM32F103 战舰开发指南V1.2

1)实验平台:正点原子stm32f103战舰开发板V4 2)平台购买地址:https://detail.tmall.com/item.htm?id609294757420 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html# 第四…

IEEE Vis会议内容整理

IEEE Vis 2017 IEEE 2017的VIS会议主题按论文的类型划分为三类:可视分析(VAST)、信息可视化(InfoVis)、科学可视化(SciVis)。因为可视化研究的涉及的方向越来越多,已超出了这三个主…

python爬虫学习简记

目录 页面结构的简单认识 爬虫概念理解 urllib库使用 爬虫解析工具xpath JsonPath Selenium requests基本使用 scrapy 页面结构的简单认识 如图是我们在pycharm中创建一个HTML文件后所看到的内容 这里我们需要认识的是上图的代码结构,即html标签包含了hea…

13、Nginx高级之高级模块(geoip_module)

一、ngx_http_geoip_module模块 ngx_http_geoip_module模块使用预编译的MaxMind数据库,根据客户端IP地址创建变量值 ,读取ip所在地信息。 当使用支持IPv6的数据库(1.3.12, 1.2.7)时,IPv4地址被查找为IPv4映射的IPv6地址。 默认情况下不构建此…

聚焦数字能源供给侧和需求侧,龙讯旷腾出席2023全球数字能源展

本月初,深圳市人民政府新闻办召开2023全球数字能源展新闻发布会,宣布本次展会将于6月29日-7月2日在深圳会展中心(福田馆)举办。此次展会将聚焦数字能源供给侧和需求侧,着力打造数字能源领域集专业性、实践性、国际性和…

打造智能公路工程:BIM+GIS可视化管理平台的应用

摘要: 本文研究了BIM技术在交通基础设施领域的应用现状,并探索了BIM与GIS技术的关键融合方法,研发了BIMGIS可视化管理平台,并通过实际项目应用验证方案的可行性。研究表明,BIM与GIS的融合技术具有广泛的应用价值&…

人人都能生成火爆全网的最不像二维码的二维码

最近有人展示了使用 Stable Diffusion 创建的艺术二维码。这些二维码是使用定制训练的 ControlNet模型生成的。 但是操作门槛有点高。 你需要 GPU,还需要学习如何使用 Stable Diffusion。 现在有一款非常无脑的产品,使用这个产品来创建艺术二维码&…