论文解读 | [CVPR2020] ContourNet：向精确的任意形状场景文本检测迈出进一步

news2025/7/16 20:08:09

1 研究背景和目的

1.1 主要贡献：

1.2 两个挑战：

2 ContourNet

3 方法论

3.1 Adaptive-RPN

3.2 LOTM

3.3 点重定位算法

4 实验和结果

论文地址：ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

1 研究背景和目的

场景文本检测是一项在复杂背景中检测文本区域并用边界框标记它们的任务。在这篇文章中，作者提出了一种不区分尺度的自适应区域建议网络（AdaptiveRPN），通过仅关注预测和地面真实边界框之间的联合交集（IoU）值来生成文本建议。一个新的局部正交纹理感知模块（LOTM）在两个正交方向上对提案特征的局部纹理信息进行建模，并用一组轮廓点表示文本区域。

1.1 主要贡献：

1、我们提出了一种新的FP抑制方法，通过在两个正交方向上对局部纹理信息进行建模，这是一种更直接的方法，与以前的方法相比，计算量更少。

2、所提出的自适应RPN有效地处理了大规模方差问题，并实现了文本区域的更精细定位，这可以很容易地嵌入到现有方法中。

1.2 两个挑战：

第一个挑战是误报（FP）

第二个挑战是场景文本的大规模变化

2 ContourNet

ContourNet 主要由三部分组成：自适应区域建议网络(Adaptive-RPN)、局部正交纹理感知模块(LOTM) 和点重定位算法。

自适应区域建议网络(Adaptive-RPN)：首先通过自动学习文本区域上的一组边界点来生成文本建议，这些边界点指示文本实例的空间扩展。Adaptive-RPN 的训练对象由预测和图像真实边界框之间的 loU 值驱动。与传统的 RPN 方法相比，Adaptive-RPN 对场景文本的大规模变换不敏感，并且可以自动考虑文本区域的形状信息，以实现更精细的定位。

局部正交纹理感知模块(LOTM)：为了捕获文本轮廓区域中的不同纹理特征。LOTM 以两个正交方向上(水平/垂直)对建议特征的局部纹理信息进行建模，并用两个不同热力图中的轮廓点表示文本区域，其中任一热力图仅对特定方向上的纹理特征做出响应。

点重定位算法：通过同时考虑两个正交方向的响应，有效地过滤具有强单向或弱正交激活的预测。以这种方式，文本区域被检测并用一组高质量的轮廓点表示。

3 方法论

3.1 Adaptive-RPN

图2 红点是提案边界框预定义的一组点，绿点是细化点(最后真实边界框的点)，皇上虚线表示回归的偏移量(红点-->绿点)

Adaptive-RPN 只关注预测边界框和真实边界框之间的 loU 值，这是一种比例不变的度量，并使用一组预定义点 P={( $x_{l}, y_{l}$ )} $^{n}_{l=1}$ (1个中心点，n-1 个边界点)来代替建议表示的4维向量。并通过公式1细化这一组预定义点(红点)为真实边界点(绿点)

可以细化表示为：

其中{ $\Delta x_{l}, \Delta y_{l}$ } $^{n}_{l=1}$ 是到预定义点的预测偏移量， $w_{c}$ 和 $h_{c}$ 是当前边界框建议的宽度和高度。

如图2所示，预测的偏移量用于处理当前提案边界框中n个预定义点的局部细化。然后，我们使用下面方程的max-min函数将这些细化点与4个极值点绑定，以表示预测的边界框(Ground-truth bounding box)。其中，中心点 $({x}', {y}')$ 用于规范化边界框（例如，如果 $x_{tl} > {x}'$ ，则 $x_{tl} = {x}'$ ）

3.2 LOTM

图3、LOTM(左)，点重定位算法(右)

如图3所示，LOTM 包含两个分支(水平/垂直) 。在水平方向上，在特征图上滑动大小为 1×k 的卷积核，来模拟水平方向上的局部纹理信息，它只关注 k 范围区域中的纹理特征。而垂直方向上通过大小为 k×1 的卷积核来模拟垂直方向上的纹理特征。k 是超参数，用于控制纹理特征感受野的大小。最后，实施两个 Sigmoid 层，将两个方向上的热图标准化为[0, 1]。这样就可以在两个正交方向上检测文本区域，并在两个不同的热图中用轮廓点表示。

3.3 点重定位算法

Point Re-scoring Algorithm(点重定位算法)用来进一步处理来自 LOTM 的两个热图。如下算法所示，首先通过非最大抑制(NMS)处理不同热图中的点，以实现紧密表示。然后抑制具有强单向或弱正交响应的预测，最后选择两个热图中具有不同响应的点作为候选。最后，文本区域就可以用这些高质量轮廓点组成的边界框表示。