别忘记我:通过局部-全局内容建模进行文本擦除方法

news2025/1/12 0:03:30

本文简要介绍了发表于ECCV 2022的论文“Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context”的相关工作。该论文针对文本擦除中存在的复杂背景修复的问题,提出了CTRNet,它利用局部和全局的语义建模提升模型的背景还原能力,它设计了Low-level Contextual Guidance(LCG)和High-level Contextual Guidance(HCG)去挖掘不同的语义表征,然后通过Local-Global Content Modeling(LGCM)进行局部与全局的特征建模,从而提升文本擦除的能力。

一、研究背景

文本擦除在近几年得到了越来越多的关注,这项技术在隐私保护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用;而且在教育、办公领域,文本擦除可以用于文档还原。因此,文字擦除不仅仅是给自然场景中的文字打上马赛克这样简单,而是要考虑在擦掉文字的同时保持文本区域背景的原特征,这就为这个任务带来了挑战。目前已有的工作如EraseNet[1],PERT[2], MTRNet++[3]等都是直接通过image-to-image的方式,它们对复杂文本背景的恢复效果并不是非常好,前景与背景经常存在明显的差异。本文受到Image Inainting领域相关工作[4][5]的启发,提出了一个通过挖掘不同语义表征去指引文本擦除的模型CTRNet,它设计了两种不同的语义表征,并通过局部-全局的特征建模提升了模型的性能。

二、方法介绍

本文提出了一个全新的两阶段文本擦除网络CTRNet,它设计了两种不同的语义表征作为擦除指引,其中文本图像的Structure作为Low-level Contextual Guidance,而深层语义特征作为High-level Contextual Guidance;得到两种表征后,再通过Local- Global Content Modeling(LGCM)进行局部与全局的特征建模,最终再通过解码器得到最终的擦除结果。CTRNet的流程图如图1所示。

图1 CTRNet整体结构流程图

图2 数据示意图

2.1 文本感知分支与Soft Mask

CTRNet是一个两阶段的模型,即先进行文本检测得到文本位置,然后再根据检测结果对图片中各个文本进行擦除。该模型使用的是PAN [6]进行文本检测,在实现过程中,PAN会和整个擦除网络一起进行优化。此外,考虑到常规的0-1 Mask(Hard Mask)会在前景与背景的边界有明显的不连续问题,我们提出在训练和前向的过程中用Soft Mask代替原本的Hard Mask。示意图如图2(b),(c)所示。

2.2 Low-level Contextual Guidance(LCG)

图3

2.3 High-level Contextual Guidance

除了Low-level的结构语义先验外,我们还加入了HCG。在图像翻译以及图像修复的任务中,Perceptual/Style Loss验证了高层语义监督的有效性,因此我们认为这些语义可以作为额外的先验直接用于特征的解码与最终结果的生成,于是便在CTRNet中结合了一个HCG模块去学习并利用高层的语义特征。

2.4 Local-global Content Modeling (LGCM)

当模型进行文本擦除并合成相应背景的时候,除了参考本身的文本区域内容外,还需要利用区域周围以及整图各部分的信息作为参考。结合CNN提取局部特征的能力以及Transformer的全局建模能力,本文设计了LGCM模块,结构如图3(b)所示。其中CNN block进行下采样,而后Transformer-Encoder则是捕获全局像素之间的长距离关联,最后再通过上采样得到最终建模后的特征。此外LGCM模块还通过SPADE操作(图1中的Incor)结合了HCG得到的高层语义特征作为先验。

如图1所示,LGCM是一个迭代式的结构,CTRNet一共级联了8个LGCM模块。最终得到的特征用于解码得到最后的文本擦除结果。

2.5 损失函数

Perceptual/Style Loss

Adversarial Loss

三、实验

实验主要是在SCUT-EnsText以及SCUT-Syn两个公开数据集上进行。此外本文还采集了一个In-house的试卷数据集进行实验验证CTRNet的泛化性。

A. 对于各模块的消融实验结果如表1所示,可视化对比如图4所示

表1

图4

B. 与之前SOTA方法的对比实验结果如表2与图5所示—SCUT-EnsText

表2

图5

C. 与之前SOTA方法的对比实验结果如表3与图6所示—SCUT-Syn

表3

图6

D. 此外,还进行了与一些Image Inpainting方法的对比,结果如表4和图7所示

表4

图7

E.还在in-house手写试卷数据集上验证了CTRNet的有效性,如图8所示。

图8

四、总结与讨论

本文针对文本擦除中复杂背景的恢复问题提出了CTRNet,通过设计了两种不同形式的监督使得模型能学习到不同的语义表征,然后通过一个LGCM模块进行局部全局的特征建模并有效结合学习到的语义表征,以此在解码的时候能同时利用文本区域和整图其他区域的信息并恢复更加自然、合理的文本背景。在各个数据集上的实验也验证了该模型的有效性。

五、相关资源

论文地址:https://link.springer.com/chapter/10.1007/978-3-031-19815-1_24

代码地址:https://github.com/lcy0604/CTRNet

六、参考文献

[1] Liu, Chongyu, et al. "EraseNet: End-to-end text removal in the wild." IEEE Transactions on Image Processing 29 (2020): 8760-8775.

[2] Wang, Yuxin, et al. "PERT: A Progressively Region-based Network for Scene Text Removal."arXiv preprint arXiv:2106.13029 (2021).

[3] Tursun, Osman, et al. "MTRNet++: One-stage mask-based scene text eraser."Computer Vision and Image Understanding 201 (2020): 103066.

[4] Liu, Hongyu, et al. "Rethinking image inpainting via a mutual encoder-decoder with feature equalizations."European Conference on Computer Vision. Springer, Cham, 2020.

[5] Ren, Yurui, et al. "Structureflow: Image inpainting via structure-aware appearance flow."Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[6] Wang, Wenhai, et al. "Efficient and accurate arbitrary-shaped text detection with pixel aggregation network." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[7] Xu, Li, et al. "Structure extraction from texture via relative total variation."ACM transactions on graphics (TOG) 31.6 (2012): 1-10.

[8] Zhang, Wendong, et al. "Context-aware image inpainting with learned semantic priors."Proceedings of the International Joint Conference on Artificial Intelligence, 2021.


原文作者: Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen, Fengjun Guo, and Kai Ding

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/170057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一个 go-sql-driver 的离奇 bug

文|郝洪范京东技术专家Seata-go 项目共同发起人微服务底层技术的探索与研究。本文 3482 字 阅读 7 分钟对于 Go CURD Boy 来说,相信 github.com/go-sql-driver/mysql 这个库都不会陌生。基本上 Go 的 CURD 都离不开这个特别重要的库。我们在开发 Seata-g…

LabVIEW将现有数据文件映射至TDMS数据文件格式

LabVIEW将现有数据文件映射至TDMS数据文件格式在某些情况下,可能无法使用TDMS文件格式,例如客户或供应商指定必须使用某种格式存储数据。有些传统仪器可能会自动使用某种自定义格式提供数据输出文件。此外,已经用某种方式收集的传统测量数据无…

PyQt6快速入门-自定义Widget

自定义Widget 文章目录 自定义Widget1、准备工作2、重写paintEvent事件3、Position策略4、更新显示5、绘制条形框5.1 绘制计算5.2 绘制条形框6、自定义样式7、添加鼠标交互能力8、完整代码QPainter是Qt中所有小部件绘制的基础。在本文中,详细介绍如何构建一个全新的自定义 GUI…

vue文本点击样式设置

vue文本点击样式设置嘚吧嘚干就完了光标边小手文本域样式修改hover语法语法一语法二语法三语法四学以致用,效果实现嘚吧嘚 相信当家在写代码的过程中,文本的点击事件是常有的吧,如历史搜索记录、页面跳转等。本次就就分享一下文本点击样式设…

从CES的亚马逊云科技展台,看云计算如何改变汽车行业

当云计算技术被广泛运用于智能汽车的制造,会给整个汽车行业带来怎样的变革?CES 2023汽车展区:亚马逊云科技展台成为焦点作为全球规模最大、影响力最为广泛的国际消费电子展,CES 2023于近日在美国拉斯维加斯圆满落下帷幕。在这场汇…

数据结构和算法的基本概念和基本术语(数据,数据元素,数据项,数据对象)

目录 一、数据结构的研究内容 1.1学生信息管理系统 1. 2人机对弈问题 1. 3最短路径问题 二、基本概念和术语 2.1数据,数据元素,数据项,数据对象 2.1.1 数据(Data): 2.1.2 数据元素(Data Element)&a…

关于elasticsearch一些基本操作

哈喽~大家好,这篇来看看关于elasticsearch一些基本操作。 🥇个人主页:个人主页​​​​​ 🥈 系列专栏: 【微服务】 🥉与这篇相关的文章: SpringCloud Se…

Import语句基础

1 问题 在 Java 中,如果给出一个完整的限定名,包括包名、类名,那么 Java 编译器就可以很容易地定位到源代码或者类。import 语句就是用来提供一个合理的路径,使得编译器可以找到某个类。 2 方法 1.import导入声明可分为两种: 1&a…

【每日一道智力题】之 轮流取石子(简单的尼姆博弈)

题目:一共有N颗石子(或者其他乱七八糟的东西),每次最多取M颗最少取1颗,A,B轮流取,谁最后会获胜?(假设他们每次都取最优解)。解答:结论&#xff1a…

告诉大家几个好用的功能

功能一:打开通知面板/月历面板 WinN的作用是调出通知面板,由于Windows 11将月历与通知面板合在了一起,因此它的另一项功能,就是——打开月历。 功能二:WindowsW:启用小组件面板 如果我们需要用到系统自带的小组件&am…

WC2023游记

今年,我势必打破铜牌魔咒 Day -?~? 虽然已年及高二,但WC的讲课还是没有听懂多少,这段时间,北师大还有一名E队来我校训练,我只能感慨:“如果一个选手比你强,还比你小,那你就再也打…

51 种 AI 工具,生活、编程、内容创建都应该使用它

AI 正在席卷全球 🔥🔥🔥 它具有无限的潜力,并将改变我们的生活,让生活变得更美好。这项技术将迅速改进,您今天可以使用许多工具来提高您的工作效率,帮助您完成工作,为您提供有关许多…

单网口ubuntu主机配置virt-manager传统桥接bridge网络

单网口ubuntu主机配置virt-manager传统桥接bridge网络 虚拟机的网络桥接bridge模式往往需要物理宿主机有两个网口,一个网口1连接外网配置ip,另一个网口2空闲不配置ip,在virt-manager里配置虚拟机的网卡绑定网口2,从而实现虚拟机桥…

81.门控循环单元(GRU)以及代码实现

1. 关注一个序列 做RNN的时候,处理不了太长的序列,因为把整个序列信息全部放在隐藏状态中,所有东西都放进去,当时间步很长的话,隐藏状态就会累积太多东西,就可能对很前面的信息不那么容易抽取出来了。 所…

Aftermath:一款针对macOS的免费开源事件响应框架

关于Aftermath Aftermath是一款针对macOS的事件响应框架,该工具基于Swift语言开发,是一款完全免费且开源的网络安全事件响应框架。 在Aftermath的帮助下,广大研究人员可以轻松收集并分析受感染主机的数据。除此之外,在理想情况下…

“深度学习”学习日记。误差反向传播法--Affine/Softmax层的实现

2023.1.17 Affine层: 在神经网络的正向传播中,为了计算加权信号的总和,使用矩阵乘积运算。 比如: import numpy as npx np.arange(6).reshape(2, 3) # (2,3) w np.arange(6).reshape(3, 2) # (3,2) b np.arange(4).resha…

LeetCode083_83. 删除排序链表中的重复元素

LeetCode083_83. 删除排序链表中的重复元素 一、描述 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 示例 1: 输入:head [1,1,2] 输出:[1,2]示例 2&#xff1…

虚拟机或Linux安装Nginx及本地指定虚拟机域名

安装必要工具和依赖 yum -y install wget gcc gcc-c pcre pcre-devel zlib zlib-devel openssl openssl-devel -----------------------------------废话开始------------------------------------------------- 上面这句话的意思:以下当废话 yum ---在线安装命令 inst…

82.长短期记忆网络(LSTM)以及代码实现

1. 长短期记忆网络 忘记门:将值朝0减少输入门:决定不是忽略掉输入数据输出门:决定是不是使用隐状态 2. 门 3. 候选记忆单元 4. 记忆单元 5. 隐状态 6. 总结 7. 从零实现的代码 我们首先加载时光机器数据集。 import torch from torch imp…

基于python手撕实现BP 神经网络实现手写数字识别(不调库,附完整版本代码)

本项目使用python实现全连接网络和梯度优化 方向传播并且实现了 手写数字识别项目: 神经网络 model 先介绍个三层的神经网络,如下图所示输入层(input layer)有三个 units( 为补上的 bias,通常设为 1)