智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

news2025/1/15 16:55:20

本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了SOTA的结果,矫正结果数据已开源。

图1 现有矫正方法存在不足的情况. (a) 文档图像中存在大的环境边界 (b) 文档图像中不存在环境边界. 红色虚线高亮突出显示了部分形变的区域.

一、研究背景

对文档图像进行拍照经常受到透视形变和几何形变的干扰,这会影响文档图像的可读性和OCR系统的性能。现有基于深度学习的矫正方法主要关注于紧密裁剪的文档图像,而忽视存在大环境边界的文档图像和没有环境边界的文档图像(如图1所示),导致无法处理这类图像。最直接的方案是将所有这种情况包含在训练数据里面,但是发现效果并不理想。另一个解决方案是在矫正之前加入文档图像检测器将文档区域裁剪出来,但是对于没有环境边界的文档图像还是没办法解决。本文提出Marior用于解决该问题。其包含两个子模块:边界去除模块和迭代式内容矫正模块,边界去除模块先将所有情况的文档图像统一成去除环境边界的图像,内容矫正模块再专注于文档内容的矫正,以此将边界去除和内容矫正解耦开来,从而解决环境边界多样的情况,同时也能减轻网络的学习难度。

二、方法原理简述

图2 整体流程图

2.1 边界去除模块(MRM)

Mask预测:如图3所示。在DeepLabv3+的基础上增加一个边缘输出分支更好地指导网络学习。此外,考虑到文档图像的Mask有相对固定的模式(一个完整的连通域,接近四边形,相对直的边缘等),本文利用GAN将这种先验引入到模型当中。

图3 (a)Mask预测网络的结构;(b)引入先验信息的效果,可以看到先验信息的引入可以获得更好的Mask.

2.2 迭代式内容矫正模块(ICRM)

图5 (a)迭代式矫正模块(ICRM)的迭代方式;(b)迭代过程结束后的采样过程. 热力图的值表示偏移场的绝对值,即需要偏移的距离.

三、主要实验结果及可视化结果

表1 Mask预测模型有效性

表2 内容加权的L2 Loss 的有效性

表3 在DocUNet数据集上的定量比较. 为公平比较,除Marior外,其余方法在Origin子集(没有经过紧密裁剪,仍含有大环境边界的文档图像)上测试时先加入了一个文档检测器进行裁剪.

表4 在OCR_REAL数据集上的定量比较.

图7 在DocUNet数据集上的定性比较.由上到下分别为 (a) Input, (b) DocProj, (c) DewarpNet, (d)Method of Xie et al., (e) Marior (ours), and (f) Scanned Ground Truth. 其中1-3列是紧密裁剪的文档图像,4-5列是含有大环境边界的文档图像(除Marior外其余方法都先才采用检测器进行裁剪),6-7列是不包含环境边界的文档图像.

图8 与PiecewiseUnwarp和DocTr在DocUNet数据集上的定性比较. (a)从左到右分别为Input, PiecewiseUnwarp, Marior (ours)和Scanned Ground Truth. (b)从左到右分别为Input, DocTr, Marior (Ours)和Scanned Ground Truth.

图9 从左到右分别为(a) Input, (b) DocProj, (c) DocTr, and (d) Marior (Ours).

从表1和表2消融实验可以看出Mask预测网络以及内容加权L2 Loss的有效性。从表3和表4可以看出,随着矫正渐进式地进行,矫正性能不断提高,证明本文方法中边界去除初步矫正、迭代式内容矫正的有效性。从表3、图7和图8可以看出本文方法在紧密裁剪图像上与现有SOTA方法取得相当效果的同时,在其余环境边界情况下都能取得更好的效果(且不需要额外的检测器)。从表4和图9可以看到本文方法在取得好的矫正性能的同时在速度上也有优势。

四、总结及讨论

该论文创新性地提出了一种基于边缘去除和迭代式内容矫正的复杂文档图像校正,不仅在紧密裁剪文档图像上取得SOTA的矫正结果,还能处理含有大环境边界的文档图像以及不含环境边界的文档图像,填补了该领域在这方面的研究空白。

五、相关资源

  • Marior: Document Dewarping with Control Points Document Dewarping with Control Points论文地址: https://arxiv.org/abs/2207.11515

  • Marior: Document Dewarping with Control Points Document Dewarping with Control Points 项目地址: https://github.com/ZZZHANG-jx/Marior


原文作者:Jiaxin Zhang, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding

文章转载至: CSIG文档图像分析与识别专委会公众号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于webrtc多人音视频的研究(一)

众所周知,WebRTC非常适合点对点(即一对一)的音视频会话。然而,当我们的客户要求超越一对一,即一对多、多对一设置多对多的解决方案或者服务,那么问题就来了:“我们应该采用什么样的架构&#xf…

利用AirTest实现自动安装APK-跳过vivo手机安装验证

利用AirTest实现自动安装APK-跳过vivo手机安装验证 前言 最近在帮测试组看个问题,他们在自动化测试的时候,通过adb install 命令在vivo手机上安装apk的时候出现”外部来源应用,未经vivo安全性和兼容性检测,请谨慎安装“的提示页面…

仅需一行Python代码,为图片上版权!

哈啰,大家好,我是派森酱,一个Python技术爱好者。今天一个朋友跟我吐槽:前段时间,我辛辛苦苦整理的一份XX攻略,分享给自己的一些朋友,结果今天看到有人堂而皇之地拿着这份攻略图片去引流&#xf…

多项目同时进行时,做好进度管理很重要

进行多项目同时进行时,做好进度管理非常重要。最简单的方法是使用项目管理软件,可以帮助你组织和跟踪多项目的进度。 此外,需要定期审核每个项目的进度,并对项目进行必要的调整,以确保每个项目都能按时完成。 1、多项…

1579_AURIX_TC275_MTU中的ECC机理以及各种寄存器实现

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 这一夜的信息全是寄存器地址信息,在了解功能的时候都是非关键信息。后续的内容整理中,这部分类似的信息我都会跳过。 在这个系列的MCU中,ECC实现了单bit…

Angular CLI命令详解

Angular CLI自身操作 显示版本 ng version 或 ng v 这条命令除了显示当前的cli的版本号&#xff0c;还显示LOGO&#xff0c;运行环境等内容&#xff1a; 显示帮助 ng --help 或 ng <sub cmd> --help 比如&#xff1a; ng build --help 如果记不住命令&#x…

数据库,计算机网络、操作系统刷题笔记32

数据库&#xff0c;计算机网络、操作系统刷题笔记32 2022找工作是学历、能力和运气的超强结合体&#xff0c;遇到寒冬&#xff0c;大厂不招人&#xff0c;可能很多算法学生都得去找开发&#xff0c;测开 测开的话&#xff0c;你就得学数据库&#xff0c;sql&#xff0c;oracle…

BGP-路由反射器、联邦实验(1.11)

目标&#xff1a; 1、首先需要基于该与拓扑图对172.16.0.0/16进行子网划分&#xff1a; 题中一共需要八个网段的环回和一个骨干链路共8个网段&#xff1b; 172.16.0.0 20 骨干 再分为八个&#xff1a; 172.16.0.0 30 172.16.0.4 30 172.16.0.8 30 172.16.0.12 30 172.16.0.…

1、基本数据类型

目录 一、数值类型 1.整数类型 2.浮点数类型 3.复数 4.无穷量&#xff08;Inf&#xff09;和非数值量&#xff08;NaN&#xff09; 二、逻辑类型 一、数值类型 数值类型数据的分类&#xff1a; 注意&#xff1a;在未加说明与特殊定义时&#xff0c;MATLAB对所有数值按照…

如何myabtis使用注解对数据库进行操作呢?

引入&#xff1a; mybatis进行数据查询既可以通过配置xml文件&#xff0c;也可以通过注解&#xff0c;前几篇文章中&#xff0c;我们一直使用的都是通过配置xml文件&#xff0c;对于使用注解并没有详细的解释&#xff0c;只是简单的使用了以下&#xff0c;下面这篇文章&#x…

生命在于学习——信息收集的一些知识(一)

一、checklist 1、域名信息 &#xff08;1&#xff09;备案信息 在线查询&#xff1a; https://beian.miit.gov.cn/#/Integrated/index https://www.tianyancha.com/ http://cha.fute.com/index http://icp.chinaz.com/ 工具查询&#xff1a;无 &#xff08;2&#xff09;企…

事件总线 + 函数计算构建云上最佳事件驱动架构应用

作者 | 史明伟&#xff08;世如&#xff09; 距离阿里云事件总线&#xff08;EventBridge&#xff09;和 Serverless 函数计算&#xff08;Function Compute&#xff0c;FC&#xff09;宣布全面深度集成已经过去一年。站在系统元数据互通&#xff0c;产品深度集成的肩膀上&…

基于springboot+mybatis美术馆预约管理系统设计和实现以及文档报告

基于springbootmybatis美术馆预约管理系统设计和实现以及文档报告 博主介绍&#xff1a;5年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言…

为什么在Java7中Switch语句支持String而不支持long呢?

目录 Switch语句长啥样&#xff1f; Switch支持字符以及字符串的底层原理 为什么不支持long类型呢&#xff1f; Switch语句长啥样&#xff1f; public static void main(String[] args) {int num 1;switch (num) {case 1:System.out.println("a");break;case 2:S…

ArcGIS基础实验操作100例--实验89创建面要素的Voronoi

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台&#xff1a;ArcGIS 10.6 实验数据&#xff1a;请访问实验1&#xff08;传送门&#xff09; 空间分析篇--实验89 创建面要素的Voronoi 目录 一、实验背景 二、实验数据 三、实验步骤 &#xff08…

数组常用方法总结 (4) :slice / splice

slice 不会改变原始数组。返回内容为截取的内容。两个入参 arr.slice(start,end)&#xff0c;start 为截取开始位置&#xff0c;end 为截取停止位置。截取内容不包含 end。如果不传入参 end&#xff0c;则表示由 start 一直截取到数组的结尾。 <template><div class…

uniApp入门(一)

目录 一、项目准备 1.1、创建项目 1.2、创建页面 1.3、运行项目 1.4、pages.json文件的页面配置与全局配置 1.5、rpx单位 二、内置组件 2.1、基础内容 2.2、视图容器 2.2.1、scrollView 2.2.2、swiper 2.3、表单组件 2.4、路由跳转 2.5、配置tabBar导航菜单与ope…

基于微信小程序云开发的通用会议室预约小程序源码,通用会议室预约微信小程序源码

功能介绍 会议室是一个单位或部门的共用资源,但在使用的时候往往会遇到时间冲突、预约困难、不方便协调等问题。目前大部分公司是统一在公司群聊中预约&#xff0c;每次预约时&#xff0c;都需要翻一下聊天记录&#xff0c;了解是否有人预定以及预定时间等。如果冲突则需要找到…

北大硕士LeetCode算法专题课--动态规划和贪心算法

面试专题课&#xff1a; 北大硕士LeetCode算法专题课--递归和回溯_骨灰级收藏家的博客-CSDN博客 北大硕士LeetCode算法专题课-栈、队列相关问题_骨灰级收藏家的博客-CSDN博客 北大硕士LeetCode算法专题课--链表相关问题_骨灰级收藏家的博客-CSDN博客 北大硕士LeetCode算法…

<Python的函数(2)>——《Python》

目录 1.函数执行过程 2.链式调用 3.嵌套调用 4.函数递归 4.1 递归的概念 4.2 递归的优点 4.3 递归的缺点 5. 参数默认值 6. 关键字参数 7. 小结 1.函数执行过程 调用函数才会执行函数体代码. 不调用则不会执行. 函数体执行结束(或者遇到 return 语句), 则回到函数调…