Python 全栈体系【四阶】（五十三）

news2026/2/13 3:43:27

第五章深度学习

十二、光学字符识别（OCR）

2. 文字检测技术

2.3 DB（2020）

DB全称是Differentiable Binarization（可微分二值化），是近年提出的利用图像分割方法进行文字检测的模型。前文所提到的模型，使用一个水平矩形框或带角度的矩形框对文字进行定位，这种定位方式无法应用于弯曲文字和不规范分布文字的检测。DB模型利用图像分割方法，预测出每个像素的类别（是文字/不是文字），可以用于任意形状的文字检测。如下图所示：

在这里插入图片描述

左图：原图；右图：检测结果，红色部分为预测成文字的像素区域，蓝色为非文字像素区域

2.3.1 基本流程

在这里插入图片描述

DB之前的一些基于图像分割的文字检测模型，识别原理如上图蓝色箭头所标记流程：

第一步，对原图进行分割，预测出每个像素的属于文本/非文本区域的概率；
第二步，根据第一步生成的概率，和某个固定阈值进行比较，产生一个二值化图；
第三步，采用一些启发式技术（例如像素聚类）将像素分组为文本示例。

DB模型的流程如上图红色箭头所示流程：

第一步，对原图进行分割，预测出每个像素的属于文本/非文本区域的概率。同时，预测一个threshold map（阈值图）
第二步，采用第一步预测的概率和预测的阈值进行比较（不是直接和阈值比较，而是通过构建一个公式进行计算），根据计算结果，得到二值化图。在计算二值化图过程中，采用了一种二值化的近似函数，称为可微分二值化（Differentiable Binarization），在训练过程中，该函数完全可微分；
第三步，根据二值化结果生成分割结果。

2.3.2 标签值生成

在这里插入图片描述

对于每个经过原始标记的样本（上图中第一张图像），采用Vatti clipping algorithm算法（一种用于计算多边形裁剪的算法）对多边形进行缩放，得到缩放后的多边形作为文字边沿（如上图中第二张图像绿色、蓝色多边形所示）。计算公式：

$\frac{A(1 - r^2)}{L}$

其中，D是收缩放量，A为多边形面积，L为多边形周长，r是缩放系数，设置为0.4. 根据计算出的偏移量D进行缩小，得到缩小的多边形（第二张图像蓝色边沿所示）；根据偏移量D放大，得到放大的多边形（第二张图像绿色边沿所示），两个边沿间的部分就是文字边界。

2.3.3 模型结构

Differentiable Binarization模型结构如下图所示：

在这里插入图片描述

模型经过卷积，得到不同降采样比率的特征图，经过特征融合后，产生一组分割概率图、一组阈值预测图，然后微分二值化算法做近似二值化处理，得到预测二值化图。传统的二值化方法一般采用阈值分割法，计算公式为：

$B_{i, j} = \begin{cases} 1,\quad if \ P_{i,j} \ge t \\ 0, \quad otherwise \end{cases} \tag{1}$

上式描述的二值化方法是不可微分的，导致在训练期间无法与分割网络部分一起优化，为了解决这个问题，DB模型采用了近似阶跃函数的、可微分二值化函数。函数定义如下：

$\hat B_{i, j} = \frac{1}{1+e^{-k(P_{i,j} - T_{i, j})}}$

其中， $P_{i,j}$ 表示预测概率， $T_{i, j}$ 表示阈值，两个值相减后经过系数 $K$ 放大，当预测概率越大于阈值，则输出值越逼近1。

在这里插入图片描述

标准二值化函数与可微分二值化函数比较。SB：standard binarization其梯度在0值被截断无法进行有效地回传。DB：differentiable binarization是一个可微分的曲线

# 可谓分二值化函数示例
import math

P1 = 0.6 # 预测概率1
P2 = 0.4 # 预测概率2
T = 0.5  # 阈值
K = 50

B1 = 1.0 / (1 + pow(math.e, -K * (P1 - T)))
print("B1:", B1) # B1:0.9933  趋近于1

B2 = 1.0 / (1 + pow(math.e, -K * (P2 - T)))
print("B2:", B2) # B2:0.00669 趋近于0