Learning From Documents in the Wild to Improve Document Unwarping论文学习笔记

news2024/11/15 18:03:38

1 广告

论文2022年发表在SIGGRAPH顶会上。
预训练出来的模型有139M。
对文档的去扭曲变形效果在我们调研的深度学习模型里面算是最好的。
在这里插入图片描述

2 摘要

文档图像去扭曲是文档数字化和分析的重要内容。最先进的方法依靠纯合成数据来训练深度网络进行去扭曲。因此,经过训练的网络在测试真实世界的图像时具有泛化的局限性,经常产生不令人满意的结果。在这项工作中,我们建议通过在训练中加入真实世界的图像来提高文档的去扭曲性能。我们收集的野外文档(DIW)数据集包含5000个捕获的文档图像,在内容、形状和捕获环境方面有很大的差异。我们对所有DIW图像的边界进行注释,并使用它们进行弱监督学习。我们提出了一种新的网络架构,PaperEdge,用来训练合成和真实文档图像的混合。此外,我们识别和分析了用于文档去扭曲的常用评估指标,如MS-SSIM和局部失真(LD)的缺陷,并提出了一个更健壮和可靠的误差指标,称为对齐失真(AD)。结合合成和真实文档图像进行训练,通过综合定量评估和消融研究,我们在流行基准上展示了最先进的性能。

3 引言

与传统的纸质文档相比,数字文档更容易归档、编辑、签名和共享。如今,为了高效的工作流程,越来越多的物理文档被数字化。在2019冠状病毒病大流行期间,由于身体接触受到限制,数字文件对企业也发挥了至关重要的作用。无处不在的智能手机配备了高质量的相机,这使得为文件拍照成为数字化的标准方式。然而,由于纸张几何形状和拍摄条件的不控制,这些照片中的文件往往会失真。这些扭曲阻碍了从这些文档中提取信息,降低了可读性,并破坏了下游自动文档分析管道,如布局提取和光学字符识别(OCR),这些管道是为只处理文档扫描而构建的。
提出了模型驱动和数据驱动两种方法来解决文档修正问题。模型驱动方法利用显式几何模型来拟合变形的文档表面。它们通常涉及缓慢的优化步骤,以获得未扭曲的结果,这不适用于实时应用。最近,数据驱动的方法越来越受欢迎。这些方法训练一个无扭曲神经网络映射一个任意的文档图像到一个变形场,该变形场将变形的输入扭曲成一个矫正的,类似扫描的结果。这样的网络可以实现实时性能。
在数据驱动的环境中,训练数据在构建可重构的无扭曲网络方面发挥着核心作用。理想情况下,人们会希望为监督学习收集足够的现实世界训练数据:捕获的扭曲文档图像和基本真实变形(通常由一些图像扭曲函数表示)。然而,由于野外大规模精确三维重建和密集配准的困难,这类数据很难获得。以前的工作[Das et al. 2019;Ma等人。2018]利用真实扭曲场对合成文档图像进行训练。现有的数据合成方案可以形成一个具有已知扭曲场的平面文档。然后训练一个网络来从变形的图像中还原扭曲场,随后用于将图像“反扭曲”为平面文档。然而,由于几何和材料建模的复杂性,合成超逼真的弯曲、折痕和皱褶的文档纸是非常具有挑战性的。来自最先进的合成文档数据集的图像[Das et al. 2019]与真实世界的图像明显不同。事实上,我们还在补充材料中证明了合成数据集中存在数据冗余。更具体地说,在使用32,000个合成图像(整个数据集的32%)进行训练后,来自额外合成训练数据的性能改进变得微不足道。
我们建议通过引入PaperEdge来改进文档的去扭曲,这是第一个可以用真实文档图像训练的去扭曲模型。在之前的监督学习方法中融入真实图像并非易事[Li等人,2019;Markovitz et al. 2020],因为缺乏真实变形,这是很难获得现实世界的文档。PaperEdge支持从合成和真实世界的训练图像中学习:对于合成数据,我们使用真实变形以有监督的方式进行训练。对于没有真实变形的图像,我们利用文档边缘[Gumerov et al. 2004;Tsoi和Brown 2007]作为弱监督。文档边缘反映全局矩形形状变形;因此,可以作为训练信号。它们也可以直接使用现成的图像分割工具进行注释[Rother et al. 2004]。为了促进提出的训练方案,我们收集了野生文档(DIW)数据集,其中包含5000张文档照片及其边缘注释。
此外,我们还引入了一种基于纹理的扭曲模型来进一步提高结果。文档图像纹理为去扭曲提供了有价值的线索,因为文档内容通常是结构化的。由于边缘是有效的全局图像去扭曲,纹理是有效的恢复局部失真。我们提出了一种
自我监督学习策略[Gidaris等人,2018;Zhang等人。2019]训练纹理感知组件
。在实际操作中,我们用随机产生的变形扰动对每个训练样本进行增强,形成一个训练图像对。之后,我们使用这些对以连体方式训练网络[Koch et al. 2015]。
我们还证明了流行的定量评价标准,如MS-SSIM和局部失真(LD)并不是理想的评价文档图像的平直。我们证明(1)MS-SSIM对感知上可忽略的扰动非常敏感,(2)LD计算在无纹理区域上占了大量不重要的误差。为了解决这个问题,我们引入了对齐失真(Aligned Distortion, AD),这是一种用于评估文档去扭曲性能的更健壮的量化度量方法。
我们总结了以下研究成果:(1)提出了一种新的学习文档去扭曲的网络体系结构。该方法是第一种可以同时训练合成文档图像和相机捕获的随机文档图像的方法;(2)提出了一种鲁棒的文档解曲评价指标——对齐失真(Aligned Distortion, AD);(3)贡献了一个包含5000张野外文档图像及其边缘注释的文档数据集;(4)在所有评价标准下,我们在基准上实现了最先进的性能[Ma et al. 2018]。

参考文献

[1] 论文:Learning From Documents in the Wild to Improve Document Unwarping
[2] 源代码:https://github.com/cvlab-stonybrook/PaperEdge

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/57292.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为 Go 开发配置Visual Studio Code

在本快速入门中,你将安装和配置 Go for Visual Studio Code 扩展。 在 2020 年 Go 开发人员调查结果中,41% 的受访者选择Visual Studio Code作为他们最喜欢的 Go 编辑器。 这使得Visual Studio Code成为 Go 开发人员最常用的编辑器。 Visual Studio Co…

中间代码生成(Intermediate Code Generation)

中间代码生成(Intermediate Code Generation)申明语句的翻译类型表达式申明式语句翻译简单赋值语句的翻译数组引用的翻译控制流语句的翻译控制流语句及其SDT布尔表达式及其SDT控制流语句翻译的例子布尔表达式和控制流表达式的回填switch语句的翻译过程调…

游戏开发32课 typescript super

super 在类的方法中super就表示当前类的父类。 如果在子类中写了构造函数,在子类构造函数中必须对父类的构造函数进行调用。 例子 (function() { // 父类 class Animal { name: string; constructor(name: string) { this.na…

25. 答疑 - SAP OData 框架处理 Metadata 元数据请求的实现细节,前后端组件部署在同一台物理服务器

我的知识星球 里有一个朋友提出了 SAP OData 服务 metadata 缓存方面的疑问,本文就来详细说一说: jerry,啥时候有时间给介绍一下fiori的Metadata数据系统的处理机制吧。我现在在做的一个项目,用rap开发的。rap开发的service binding,在maintain service注册时,开始注册的…

简单的个人博客网站设计 静态HTML个人博客主页 DW个人网站模板下载 大学生简单个人网页作品代码 个人网页制作 学生个人网页设计作业

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

TEE安全系统SMC深入理解

1、TEE背景在文章开始之前提几个问题:Android手机中至少运行着几个操作系统OS?如何进入安全操作系统?异常等级和安全操作系统之间的关系?SMC调用的实质、约定及流程是什么?随着智能手机的普及,手机上数据的…

R语言中ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型用于预测时间序列数据

原文链接:http://tecdat.cn/?p5919在本文中,我将介绍ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型如何用于预测时间序列数据(点击文末“阅读原文”获取完整代码数据)。使用滞后算子计算滞后差分…

[附源码]计算机毕业设计JAVA校园网学生成绩查询系统

[附源码]计算机毕业设计JAVA校园网学生成绩查询系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM …

Android面试题——高级开发面试题二

一 面试题概述 回答自己理解的java虚拟机、gc机制Java多线程、线程池集合原理(hashmap,list)java虚引用封装、继承、多态的理解activity生命周期安卓activity和fragment数据传递Handler内存泄漏、内存溢出、内存抖动 原因及解决办法ANR原因以及解决办法性能优化、卡顿优化事件…

xshell与xftp

目录 1.什么是xshell 2.下载xshell与xftp 3.安装与操作xshell 4.什么是xftp 5.安装与操作xftp 6.xshell与xftp互联 1.什么是xshell Xshell是一个强大的安全终端模拟软件,它支持SSH1,SSH2, 以及Microsoft Windows平台的TELNET协议。. …

[Camunda BPMN进阶] 电商订单流程设计与调试

目录 摘要 基于BPMN的软件设计思想 电商订单流程业务场景 基本订单流程BPMN设计 1.最基本流程设计 2. 添加超时未付款自动取消功能 3. 添加15分钟付款提醒 4. 添加用户取消订单事件 进阶订单流程BPMN设计 1. 使用并行网关执行任务 2. 将具有相同事件分支的任务合并…

基于PHP+MySQL月子中心管理系统的设计与实现

月子中心管理系统是信息时代的产物,月子基本是每个适龄女子都会经历的一个特殊时期,尤其是在中国对月子的重视程度尤其的重要,只有让产妇和婴儿受到精心的照顾才能够让产妇更好的康复,才能够让婴儿更好的成长,所以越来越多的人关注到了月子期间的养护问题,为了能够让更多的月子…

安卓APP源码和报告——学生信息管理系统

学生信息管理系统APP演示视频《移动开发技术II》实践考核方案 适用网络工程(网络软件开发)2018级 一、考核内容: 环境配置及移动开发生命周期、控件的使用、用户界面设计、数据存储与访问、广播、服务、网络编程、蓝牙应用等知识点。 二、…

canal同步MySQL的binlog数据时踩了个大坑

背景 在同步MySQL数据到ES的场景中,选择了canal组件同步数据。 问题描述 在同步的时候发现canal-adapter中canal-adapter/conf/es7/product.yml 配置文件中sql 语句连表查询的时候会出现无法更新Elasticsearch 中数据的情况,而且日志没有提示异常&…

python使用opencv画圣诞树和画小星星函数

画星星函数: #img 图片 #x y 坐标 #size 大小 def darw_star(img,x,y,color,size40):poly_linenp.array([[x, y-size], [xint(size/4), y-int(size/4)], [xsize, y-int(size/4)],[xint(0.375*size),yint(size/4)],[xsize,ysize],\[x,yint(0.625*size)],[x-size,ysi…

分布式定时调度:xxl-job 万字详解

一.定时任务概述 1.定时任务认识 1.1.什么是定时任务 定时任务是按照指定时间周期运行任务。使用场景为在某个固定时间点执行,或者周期性的去执行某个任务,比如:每天晚上24点做数据汇总,定时发送短信等。 1.2.常见定时任务方案…

基于web的家电维修系统/家电维修管理系统

摘 要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的系统管理应运而生,各行各业相继进入信息管理时代&a…

生物素标记甾体化合物/多杀菌素探针分子/壳聚糖/聚乙二醇偶连基团为华生物提供

生物素标记的甾体化合物探针将D-生物素酰氯与胺反应,合成了新型生物素探针标记的甾体衍生物,经检测这些衍生物对某些肿瘤细胞株有较好的抗肿瘤活性,且对正常细胞株(HEK293T)没有明显的毒害作用。 生物素标记的多杀菌素探针分子,经检测验证,生物素标记多…

Python多字段排序函数——cmp_to_key()【LeetCode50天刷题计划寒假特别版(Day 1 — 最大数(11.40-12.20)】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言使用方法例子一、题目最大数示例提示二、思路三、代码前言 python标准模块functools中的cmp_to_key可以将一个cmp函数变成一个key函数,从而支持自定…

第二证券|支持多子女购房、提高公积金贷款额度、发放限时补贴

近来,多地购房支持方针密集出台。 12月1日,安徽安庆发布住所公积金新政,对多子女家庭首次请求住所公积金借款购买自住住所,最高借款额度添加10万元。 11月30日,江西九江也优化多子女家庭住所公积金事务,进…