文档矫正算法：DocTr++

文档矫正算法：DocTr++

news2026/2/14 2:39:05

文档弯曲矫正（Document Image Rectification）的主要作用是在图像处理领域中，对由于拍摄、扫描或打印过程中产生的弯曲、扭曲文档进行校正，使其恢复为平整、易读的形态。

一. 论文和代码

论文地址：https://arxiv.org/abs/2304.08796
代码地址：https://github.com/fh2019ustc/DocTr-Plus

二. 原理简介

论文提出了一种新的数据处理方式，解决了以前文档矫正只能处理带有边界信息的完整文档，文章通过数据处理定义了三种类型的训练数据。（a）包含完整文档边界，（b）包含部分文档边界，（c）不包含文档边界。
在这里插入图片描述
算法框架如下：对于任意弯曲的文档，作者首先通过CNN抽取特征，然后通过transformer结构进行编码和解码，最后用Flow Head预测偏移场，用偏移场矫正弯曲图片。

网络架构如下图所示：

首先, 在畸变特征编码器中，DocTr++采用自注意力机制捕获形变文档的结构特征，并构建多尺度编码器，进行特征提取和融合。其中，编码器由三个子模块组成，每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征，又能获得低分辨率具有高层语义信息的特征。
接下来，矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列（Learnable Queries），输出解码后的表征用于后续坐标映射矩阵的预测。其中，可学习的矫正提示向量序列零初始化，并加上固定的位置编码。

三. 实验细节

input：288x288
output：288x288
learning rate：1e-4
实验结果如下：
在这里插入图片描述

四. 总结

DocTr++突破了现有多数矫正方法的场景局限性，能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果，DocTr++采用了一种多尺度编解码器结构，构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。

五. 博主点评

优点：该论文是2023年的IEEE，在当时的指标上达到了SOTA；
缺点：后处理过于简单，对于无边界的文档，处理后mask以外的区域没有填补，跟商用矫正算法还存在较大差距。

欢迎技术交流：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2160034.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

AI辅助编码工具如何影响着程序员开发群体

AI辅助编码工具如何影响着程序员开发群体

AI辅助编码工具的出现对程序员开发群体产生了深远的影响，有一些初步基础的程序员，可以借助AI工具的加持，生产效率大大提升，达到中高级程序员的水平。这些影响可以从多个角度来分析： 提高开发效率： AI工具…

阅读更多...

跳蚤市场小程序|基于微信小程序的跳蚤市场(源码+数据库+文档)

跳蚤市场小程序|基于微信小程序的跳蚤市场(源码+数据库+文档)

跳蚤市场小程序目录基于微信小程序的饮品点单系统的设计与实现一、前言二、系统功能设计三、系统实现管理员功能实现商品信息管理商品订单管理论坛管理用户管理 5.1.5 新闻信息管理用户功能实现四、数据库设计 1、实体ER图 2、具体的表设计如下所示&a…

阅读更多...

毕业设计选题：基于ssm+vue+uniapp的英语学习激励系统小程序

毕业设计选题：基于ssm+vue+uniapp的英语学习激励系统小程序

开发语言：Java框架：ssmuniappJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：M…

阅读更多...

STM32引脚输入

STM32引脚输入

文章目录前言一、看原理图二、开始编程1.开启时钟2.配置GPIOA.0 上拉输入3.读取 GPIOA.0 引脚 GPIOA_IDR 0位上是1（按键松开），输入就是高电平，否则就是低电平（按键按下） 三、完整程序四测试效果总结前言…

阅读更多...

Spring MVC的应用

Spring MVC的应用

目录 1、创建项目与maven坐标配置 2、核心配置 3、启动项目测试 4、不同请求参数在controller的配置 4.1 servlet API 4.2 简单类型 4.3 pojo类型 4.4 日期类型 4.5 restful风格4种操作类型 4.5.1 GET：获取资源 4.5.2 POST：新建资源 4.5.3 P…

阅读更多...

【Godot4.3】自定义数列类NumList

【Godot4.3】自定义数列类NumList

概述数列是一种特殊数组。之前写过等比、等差数列、斐波那契等数列的求取函数。今天就汇总到一起，并添加其他的一些数列，比如平方数、立方数、三角形数等。这里我首先采用以前比较喜欢的静态函数库的写法，然后在其基础上改进为基于类继承…

阅读更多...

基于飞腾平台的OpenCV的编译与安装

基于飞腾平台的OpenCV的编译与安装

【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适…

阅读更多...

ChatGPT 推出“Auto”自动模式：智能匹配你的需求

ChatGPT 推出“Auto”自动模式：智能匹配你的需求

OpenAI 最近为 ChatGPT 带来了一项新功能——“Auto”自动模式，这一更新让所有用户无论使用哪种设备都能享受到更加个性化的体验。简单来说，当你选择 Auto 模式后，ChatGPT 会根据你输入的提示词复杂程度，自动为你挑选最适合的AI模…

阅读更多...

解密 Python 的 staticmethod 函数：静态方法的全面解析！

解密 Python 的 staticmethod 函数：静态方法的全面解析！

更多Python学习内容：ipengtao.com 在 Python 中，staticmethod 函数是一种装饰器，用于将函数转换为静态方法。静态方法与实例方法和类方法不同，它们不需要类实例作为第一个参数，也不需要类作为第一个参数，因…

阅读更多...

只用几行代码，不依赖任何框架？SMTFlow 轻松实现前端流程图

只用几行代码，不依赖任何框架？SMTFlow 轻松实现前端流程图

只用几行代码，不依赖任何框架？SMTFlow 轻松实现前端流程图！ 在前端开发中，如果你需要一个简单好用的流程图设计工具，SMTFlow 绝对是你的不二之选！本文将介绍 SMTFlow 的核心功能、特点以及如何快速上手。工…

阅读更多...

C++中set和map的使用

C++中set和map的使用

1.关联式容器序列式容器里存储的是元素本身，如vector、list、deque 关联式容器即，容器中存储<key，value>的键值对，树型结构的关联式容器主要有四种：map、set、multimap、multiset。他们都使用平衡搜索树(即红…

阅读更多...

项目实战：lngress搭建Nginx+WP论坛+MariaDB

项目实战：lngress搭建Nginx+WP论坛+MariaDB

1. 网站架构本次部署形式完全舍弃 Docker，将所有应用都置于Kubernetes，采用 Deployment 而非单 Pod 部署，稳定性得到升级。 2. 部署 MariaDB [rootk8s-master ~]# mkdir tdr [rootk8s-master ~]# cd tdr/ （1）定义 …

阅读更多...

Flowable7.0.1框架严重bug，流程跳转到指定节点导致流程中断

Flowable7.0.1框架严重bug，流程跳转到指定节点导致流程中断

一、Bug描述使用7.0.1版本的 moveActivityIdsToSingleActivityId 或 moveExecutionsToSingleActivityId实现节点跳转，程序不会报错，但是act_ru_task 没有生成新的任务，导致流程中断，这是相当严重的bug。经过多次测试&#xff…

阅读更多...

【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

note 现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法这篇综述将现有研究按照三个维度进行分类：进化生成器（Evolutionary Generators）、卓越追求（Excellent Pursuit）、现实全景（Realis…

阅读更多...

LeetCode讲解篇之75. 颜色分类

LeetCode讲解篇之75. 颜色分类

文章目录题目描述题解思路题解代码题目描述题解思路我们可以将最终结果看成连续的三个区间，第一个区间内全是0，第二个区间内全是1，第三个区间内全是2 ，其中这三个区间的长度都可以为0 我们可以将不断扩张我们记录0区间的右…

阅读更多...

滴滴开源项目分享来啦～

滴滴开源项目分享来啦～

活动：参与开源项目，获得精美礼品活动时间：2024年09月23-2024年10月23 活动详情请查看： ❤️🌟 Who is using XIAOJUSURVEY？ Issue #64 didi/xiaoju-survey GitHub 活动奖品： 不管你是…

阅读更多...

基于单片机多点无线温度监控系统设计

基于单片机多点无线温度监控系统设计

本设计STC89C52RC单片机作为主控芯片，能够远程监控多个位置的温度变化。使用一个主机来接收和监控三个从机收集到的温度信息，利用DS18B20温度传感器采集温度信息，采用GL24S无线通讯模块将数据传输给主机进行接收，信息显示在主机连…

阅读更多...

DesignMode__unity__抽象工厂模式在unity中的应用、用单例模式进行资源加载

DesignModeunity抽象工厂模式在unity中的应用、用单例模式进行资源加载

目录抽象工厂模式思维导图接口（抽象类） 工厂接口抽象产品类抽象武器接口抽象人物接口具体工厂和具体产品具体工厂 （1）产品接口，生成具体人物 （2）武器接口，生成具体…

阅读更多...

搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(五)-聚合

搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(五)-聚合

聚合聚合基于Query结果的统计，执行过程是搜索的一部分，Onesearch支持0代码构建聚合，聚合目前完全在引擎层 0代码聚合上图是聚合的配置，包括2个pdm文档聚合统计 termsOfExt term桶聚合，统计ext，如&…

阅读更多...

JavaWeb——前端工程化（3/3）：Vue项目开发流程（index.html、main.js和根组件之间的联系）

JavaWeb——前端工程化（3/3）：Vue项目开发流程（index.html、main.js和根组件之间的联系）

Vue项目开发流程上篇我们介绍了工程化的 Vue 项目，将 Vue 项目启动起来并访问到了首页面。接下来，我们来分析如何访问到 Vue 项目的首页面，也就是 Vue 项目的开发流程。现在访问的页面是 Vue 项目默认的首页 index.html，它是在…

阅读更多...

推荐文章

最新文章