Python 全栈体系【四阶】(五十三)

news2024/9/22 11:39:42

第五章 深度学习

十二、光学字符识别(OCR)

2. 文字检测技术

2.3 DB(2020)

DB全称是Differentiable Binarization(可微分二值化),是近年提出的利用图像分割方法进行文字检测的模型。前文所提到的模型,使用一个水平矩形框或带角度的矩形框对文字进行定位,这种定位方式无法应用于弯曲文字和不规范分布文字的检测。DB模型利用图像分割方法,预测出每个像素的类别(是文字/不是文字),可以用于任意形状的文字检测。如下图所示:

在这里插入图片描述

左图:原图;右图:检测结果,红色部分为预测成文字的像素区域,蓝色为非文字像素区域
2.3.1 基本流程

在这里插入图片描述

DB之前的一些基于图像分割的文字检测模型,识别原理如上图蓝色箭头所标记流程:

  • 第一步,对原图进行分割,预测出每个像素的属于文本/非文本区域的概率;

  • 第二步,根据第一步生成的概率,和某个固定阈值进行比较,产生一个二值化图;

  • 第三步,采用一些启发式技术(例如像素聚类)将像素分组为文本示例。

DB模型的流程如上图红色箭头所示流程:

  • 第一步,对原图进行分割,预测出每个像素的属于文本/非文本区域的概率。同时,预测一个threshold map(阈值图)

  • 第二步,采用第一步预测的概率和预测的阈值进行比较(不是直接和阈值比较,而是通过构建一个公式进行计算),根据计算结果,得到二值化图。在计算二值化图过程中,采用了一种二值化的近似函数,称为可微分二值化(Differentiable Binarization),在训练过程中,该函数完全可微分;

  • 第三步,根据二值化结果生成分割结果。

2.3.2 标签值生成

在这里插入图片描述

对于每个经过原始标记的样本(上图中第一张图像),采用Vatti clipping algorithm算法(一种用于计算多边形裁剪的算法)对多边形进行缩放,得到缩放后的多边形作为文字边沿(如上图中第二张图像绿色、蓝色多边形所示)。计算公式:

D = A ( 1 − r 2 ) L D = \frac{A(1 - r^2)}{L} D=LA(1r2)

其中,D是收缩放量,A为多边形面积,L为多边形周长,r是缩放系数,设置为0.4. 根据计算出的偏移量D进行缩小,得到缩小的多边形(第二张图像蓝色边沿所示);根据偏移量D放大,得到放大的多边形(第二张图像绿色边沿所示),两个边沿间的部分就是文字边界。

2.3.3 模型结构

Differentiable Binarization模型结构如下图所示:

在这里插入图片描述

模型经过卷积,得到不同降采样比率的特征图,经过特征融合后,产生一组分割概率图、一组阈值预测图,然后微分二值化算法做近似二值化处理,得到预测二值化图。传统的二值化方法一般采用阈值分割法,计算公式为:

B i , j = { 1 , i f   P i , j ≥ t 0 , o t h e r w i s e (1) B_{i, j} = \begin{cases} 1,\quad if \ P_{i,j} \ge t \\ 0, \quad otherwise \end{cases} \tag{1} Bi,j={1,if Pi,jt0,otherwise(1)

上式描述的二值化方法是不可微分的,导致在训练期间无法与分割网络部分一起优化,为了解决这个问题,DB模型采用了近似阶跃函数的、可微分二值化函数。函数定义如下:

B ^ i , j = 1 1 + e − k ( P i , j − T i , j ) \hat B_{i, j} = \frac{1}{1+e^{-k(P_{i,j} - T_{i, j})}} B^i,j=1+ek(Pi,jTi,j)1

其中, P i , j P_{i,j} Pi,j表示预测概率, T i , j T_{i, j} Ti,j表示阈值,两个值相减后经过系数 K K K放大,当预测概率越大于阈值,则输出值越逼近1。

在这里插入图片描述

标准二值化函数与可微分二值化函数比较。SB:standard binarization其梯度在0值被截断无法进行有效地回传。DB:differentiable binarization是一个可微分的曲线
# 可谓分二值化函数示例
import math

P1 = 0.6 # 预测概率1
P2 = 0.4 # 预测概率2
T = 0.5  # 阈值
K = 50

B1 = 1.0 / (1 + pow(math.e, -K * (P1 - T)))
print("B1:", B1) # B1:0.9933  趋近于1

B2 = 1.0 / (1 + pow(math.e, -K * (P2 - T)))
print("B2:", B2) # B2:0.00669 趋近于0
2.3.4 损失函数

DB模型损失函数如下所示:

L = L s + α × L b + β × L t L = L_s + \alpha \times L_b + \beta \times L_t L=Ls+α×Lb+β×Lt

其中, L s L_s Ls是预测概率图的loss部分, L b L_b Lb是二值图的loss部分, α \alpha α β \beta β值分别设置为1和10. L s L_s Ls L b L_b Lb均采用二值交叉熵:

L s = L b = ∑ i ∈ S l y i l o g x i + ( 1 − y i ) l o g ( 1 − x i ) L_s = L_b = \sum_{i \in S_l} y_i log x_i + (1 - y_i) log(1-x_i) Ls=Lb=iSlyilogxi+(1yi)log(1xi)

上式中 S l S_l Sl是样本集合,正负样本比例为1:3.

L t Lt Lt指经过膨胀后的多边形区域中的像素预测结果和标签值之间的 L 1 L1 L1距离之和:

L t = ∑ i ∈ R d ∣ y i ∗ − x i ∗ ∣ L_t = \sum_{i \in R_d} |y_i ^* - x_i ^*| Lt=iRdyixi

R d R_d Rd值膨胀区域 G d G_d Gd内的像素索引, y i ∗ y_i ^* yi是阈值图的标签值。

2.3.5 涉及到的数据集

模型在以下6个数据集下进行了实验:

  • SynthText:合成数据集,包含80万张图像,用于模型训练
  • MLT-2017:多语言数据集,包含9种语言,7200张训练图像,1800张验证图像及9000张测试图像,用于模型微调
  • ICDAR 2015:包含1000幅训练图像和500幅测试图像,分辨率720*1280,提供了单词级别标记
  • MSRA-TD500:包含中英文的多语言数据集,300张训练图像及200张测试图像
  • CTW1500:专门用于弯曲文本的数据集,1000个训练图像和500个测试图像,文本行级别标记
  • Total-Text:包含各种形状的文本,及水平、多方向和弯曲文字,1255个训练图像和300个测试图像,单词级别标记

为了扩充数据量,论文采用了随机旋转(-10°~10°角度内)、随机裁剪、随机翻转等策略进行数据增强。

在这里插入图片描述

对各种形状的文本实例的一些可视化结果,包括弯曲文本、多向文本、垂直文本和长文本行。对于每个单元,右上角是阈值映射;右下角是概率图。
2.3.6 效果
  • 不同设置结果比较,“DConv”表示可变形卷积。“P”、“R”和“F”分别表示精度、召回率和F度量。

在这里插入图片描述

  • Total-Text数据集下测试结果,括号中的值表示输入图像的高度,“*”表示使用多尺度进行测试,“MTS”和“PSE”是Mask TextSpotter和PSENet的缩写

在这里插入图片描述

  • CTW1500数据集下测试结果。括号中的值表示输入图像的高度。

在这里插入图片描述

  • ICDAR 2015数据集下测试结果。括号中的值表示输入图像的高度,“TB”和“PSE”是TextBoxes++和PSENet的缩写。

在这里插入图片描述

  • MSRA-TD500数据集下测试结果。括号中的值表示输入图像的高度。

在这里插入图片描述

  • MLT-2017数据集下测试结果。“PSE”是PSENet的缩写。

在这里插入图片描述

2.3.7 结论
  • 能有效检测弯曲文本、不规范分布文本
  • 具有较好的精度和速度
  • 局限:不能处理文本中包含文本的情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1702214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基线管理概述

一、基线概念 ①安全基线 ②安全基线与英文排版的基线类似,是一条参考标准线。 ③安全基线表达了最基本需要满足的安全要求。 ④安全基线表达了安全的木桶原理木桶原理:一只木桶盛水的多少,并不取决于桶壁上最高的那块 木块,而恰恰取决于…

怎么图片转excel表格免费?介绍三个方法

怎么图片转excel表格免费?在日常工作中,我们经常需要将图片中的表格数据转化为可编辑的Excel格式。幸运的是,市面上有多款软件支持这一功能,并且部分软件还提供免费使用的选项。本文将为您详细介绍几款可以免费将图片转换为Excel表…

2023全国大学生数学建模竞赛ABC题(代码+论文)

文章目录 (1)2023A定日镜场的优化设计(2)2023B多波束测线问题(3)2023C蔬菜类商品的自动定价与补货决策(4)论文和代码链接 (1)2023A定日镜场的优化设计 matlab…

IDEA 中导入脚手架后该如何处理?

MySQL数据库创建啥的,没啥要说的!自行配置即可! 1.pom.xml文件,右键,add Maven Project …………(将其添加为Maven)【下述截图没有add Maven Project 是因为目前已经是Maven了!&…

Java EE-Spring AOP 面向切面编程

Spring AOP https://www.cnblogs.com/joy99/p/10941543.html 超级详细版:Chapter 6. 使用Spring进行面向切面编程(AOP) AOP 原理 面向切面 ( Aspect Orient Programming ) 面向切面编程,是面向对象编程(OOP) 的一种补充。 在…

考公事业编

一天时间就能考完。上午行测 ,下午申论。 省考国考基本一模一样。 行测基本都是客观的题目。都是选择题。 130道选择。很多计算都是初中题目。 申论是主观题。 行测申论 行测:

学校智慧公厕的有线与无线方案,怎样去选择才合适

在当今数字化时代,学校也在积极引入智慧公厕系统,以提升校园环境的舒适度和管理效率。然而,面对智慧公厕的有线与无线方案,如何做出合适的选择成为了一个关键问题。 一、智慧公厕无线方案优势 首先来看无线方案。如前文所述&#…

实用篇| huggingface网络不通

之前文章《Transformer原理》中介绍过,Transformers 是由 Hugging Face 开发的一个包,支持加载目前绝大部分的预训练模型。随着 BERT、GPT 等大规模语言模型的兴起,越来越多的公司和研究者采用 Transformers 库来构建应用。 Hugging Face是一家美国公司…

web网络安全知多少

web安全性包括: 客户端脚本安全和服务器端应用服务器 客户端脚本安全: ● 跨站脚本攻击(XSS ) ● 跨站点请求伪造(CSRF) ● 点击劫持(ClickJacking) ● HTML 5 安全性 服务端应用安全: ● 注入攻击 ● 文件上传漏洞 ● 认证与会话管理 ● 访问控制 ● DDos攻击 个人意识和个人…

数据结构复习指导之红黑树

目录 红黑树 考纲内容 知识框架 复习提示 1.红黑树的定义 2.红黑树的插入 3.红黑树的删除 归纳总结 红黑树 考纲内容 (一)查找的基本概念 (二)顺序查找法 (三)分块查找法 (四&#xff…

探索自动化办公的新境界:批量操作与智能管理

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、自动化办公的必要性与价值 二、基础操作与自动化脚本 三、Python在自动化办公中的应用…

android-mvp模式

mvvm可以理解成使用databing的mvp模式,modleview 通过接口让view和Presenter层解耦 从图中就可以看出,最明显的差别就是view层和model层不再相互可知,完全的解耦,取而代之的presenter层充当了桥梁的作用,用于操作view…

Android - failed to set system property

记录一次疏忽,起因是我需要在自定义的 receiver 中保存 property 方便,方便在三方 app 中使用,结果直接崩溃了,虽然结果保存成功了,但是这种情况也是无法接收的,错误日志如下: M006082 05-25 1…

rust语言初识

程序设计实践课上水一篇ing 来源:rust基础入门-1.初识rust-酷程网 (kucoding.com) rust作为一名新兴语言,与go又有些许不同,因为它的目标是对标系统级开发,也就是C、C这两位在编程界的位置。比如我们最常用的windows系统&#x…

【Qt】数据库(一)SQLITE创建、增删查改

填坑1&#xff1a;如何连续插入 汇总SQlite语句 创建表格&#xff1a;create table <table_name> (f1 type1, f2 type2,…); 增&#xff1a;insert into <table_name> values (value1, value2,…); 改&#xff1a;update <table_name> set <f1value1>,…

聚观早报 | Bot Fit已完成开发;新一代H6将开启预售

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 5月27日消息 Bot Fit已完成开发 新一代H6将开启预售 苹果上架iPhone 14官翻机 谷歌正台积电合作开发芯片 比亚迪…

预防侵权知识丨什么是图形商标?怎么用产品图片进行图形商标查询检索?

图形商标查询检索是跨境电商预防侵权中重要的一环&#xff0c;但是有很多卖家对图形商标不太了解&#xff0c;也不知道怎么进行图形商标的查询检索。所以&#xff0c;我们一起来看下。 一、什么是图形商标 图形商标是商标的一种&#xff0c;指的是由几何图形或其它事物图案构…

idea上传git命令

git init git remote add origin git add . git commit -m "标题" git push -u origin master

linux 安装chrome浏览器

一、下载安装包 下载地址&#xff1a;https://download.csdn.net/download/k0307x1990y/89349171 二、安装流程 [rootlocalhost ~]# rpm -ivh *.rpm [rootlocalhost ~]# yum -y localinstall google-chrome-stable_current_x86_64.rpm [rootlocalhost ~]# 三、修改配置文件…