这个是我自研的, 与百度PaddleOCR的方式略有不同。
数据的格式:
相当于一个目标检测有两类,分别是table和cell。
在预测值和标签中要先把根据位置关系所有的cell划分到不同的table中。
另外cell标签中还有起止位置
比如
四个数字代表行和列,0 0 0 0 代表从第0行到第0行,从第0列到第0列
我们的标签和预测值的cell都是排序好的
顺序是这样排的
与字符的编辑距离类似,可以把一个cell当作一个字符,
一个table相当于这样的格式
【
【0 0 0 0】【0 0 1 3】【1 1 0 0】【1 1 1 3】……
】
删除一个cell,需要的操作数为该cell的跨行列之和,插入一个cell也类似。
替换一个cell的操作数包括两部分,一部分是cell大小操作数,另一部分是位置操作数。
cell大小的操作数是二者跨行列之和的差值,
cell的位置操作数是 二者行位置操作数和列位置操作数之和。
行位置操作数,先计算行起点差值与终点差值,两个差值的的最小值。
列位置操作数同理。