论文阅读：Syntax-Aware Network for Handwritten Mathematical Expression Recognition

news2026/2/11 19:12:23

论文阅读：Syntax-Aware Network for Handwritten Mathematical Expression Recognition¹

主要观点：

1、提出将语法信息纳入编码器-解码器网络的方法。使用一组语法规则，用于将每个表达式的LaTeX标记序列转换为解析树；用深度神经网络将标记序列预测建模为树遍历过程。

2、该方法可以有效地描述表达式的语法上下文，减小HMER的结构预测误差。和现有的WAP和WAP-TD相比，考虑语法规则。

在这里插入图片描述

Figure 1. Comparison of different architectures: (a) An encoder-decoder framework WAP (b) A tree decoder DWAP-TD © Our model Syntax-Aware Network (SAN)

算法原理：

基本规则

1)遵循标准的阅读顺序:从左到右，从上到下。

2)利用相邻符号之间的空间关系。对于一对相邻的HME符号，总共有九种可能的关系(左、右、上、下、左下、右下、左上、右上、内)。由于约束1)，我们去掉了“左”和“下左”，保留了其余7种关系来处理我们实现中所有的MEs情况。尽管ME可能对应于不同的LaTeX序列，但由于这两个约束，语法规则生成的语法树是相同的。

数学描述

算法由元组表示：
$G=(N,\Sigma,R,S,{\Gamma},C,D),$
$N$ ：非终止符，包括起始符 $S$ 和拓展符 $E$ ；

$\Sigma$ ：终止符；

$R$ ：产生式规则；

${\Gamma}$ ：关系；

$C$ ：编码器；

$D$ ：解码器；

产生式规则

产生式规则可以表示成：
$\alpha\rightarrow\beta, \\ \alpha\in {N},\beta\in(\Gamma\cup N\cup\Sigma)^{*}.$
asterisk: represents the Kleene star operation²

$R$ 有两条生成规则：

规则1： $S$ 可以在后面产生任意的终止符；或者 $E$ 扩展符；或者空字符 $\epsilon$
$S\rightarrow\sigma S|E|\epsilon,$
$\sigma$ ： $\sigma\in\Sigma$ ；

$∣$ ：任选的意思；

规则2： $E$ 为每种类型的关系产生字符串，然后拼接起来；字符串后面可以跟 $S$ 或者空字符串；
$E\to[((\gamma_1)S|\epsilon),\ldots,((\gamma_7)S|\epsilon)],\quad\text{}$
$\gamma_i\in\Gamma$ ：在关系中的第 $i$ 种；

表达规则图示

图3示出了具有产生式规则的表达式的可能解析过程。为了直观地理解这些规则，可以把S看成一个表达式，把E看成一个可扩展的结构。假设一个表达式可以包含多个可扩展结构，而每个可扩展结构可以扩展为多个具有空间关系的表达式。此外，产生式规则与以输入图像和父节点的上下文状态为条件的概率相关。具体来说，条件概率定义为：
$p(\alpha\rightarrow\beta|c(\alpha),X)=D_{\alpha\rightarrow\beta}(c(\alpha),E(X)),$
$X$ :输入图像；

$E (X)$ ：编码器的输出；

$c (α)$ 是 $α$ 的上下文状态(将在第3.2节中详细介绍)， $D α \to β (\cdot)$ 是对应于产生式规则的解码器的输出；

在这里插入图片描述

Figure 3. (a) A possible parsing procedure of $\sum_{i}^{n}a$ and (b) the parse tree. In the figure, the strings refer to non-terminal symbols in blue, terminal symbols in red, relations in yellow, and empty in grey.

基本流程

在这里插入图片描述

如算法1所示，给定SAN参数和输入图像，使用堆栈实现树遍历。具体来说，所实现的栈可以保证训练过程按照语法树的遍历顺序进行。同样，预测过程也是通过逐步堆叠来实现的。编码器获取输入图像并对其进行下采样。然后根据语法规则，确定表达式及其可扩展结构;同时，解码器计算并选择概率最高的产生式规则。因此，生成具有可扩展结构的新表达式，并更新LaTeX序列中图像的解析树。一旦找到解析树，就可以通过预先顺序遍历树来获得识别结果。

符号感知解码器

在这里插入图片描述