1. 引言
本文重点介绍如何利用传统的图像处理的方法来进行OCR字符切分,进而可以用分割后的单个字符做相应的后续任务,虽然现在计算机视觉依然是卷积神经网络的天下,但是对于一些相对简单的落地场景传统方案还是很有效的。
闲话少说,我们直接开始吧!
2. 基本概念
OCR
: 全称 Optical Character Recognition
, 光学字符识别
Segmentation
: 是指在图像处理领域中将整张图像分解为多个子部分以进行进一步处理的过程。
OCR Segmentation
: 是指将包含文本的图像分解成多个小部分,以识别背景中的文本。
本文主要通过Python
中的计算机视觉处理库OpenCV
来实现上述过程。
3. 读入图像
一旦我们拥有了包含文本的数字图像,或者通过扫描仪扫描某些文档并将其存储为数字图像,接着就可以开始下一步,即预处理。这里我们将使用以下图像作为例子,如下所示。
myImage= cv2.imread('pngImgs/t20.png')
cv2.imshow('Text Image', returnImage)
cv2.waitKey(0)
结果如下:
4. 图像二值化
在我们开始分割文本图像之前,有几个步骤,这些步骤如下:
灰度化:将输入图像转换为灰色图像,使系统能够轻松识别图像中的不同形状并去除相关颜色信息。
grayImg = cv2.cvtColor(myImage, cv2.COLOR_BGR2GRAY)
结果如下:
二值化:这意味着将灰度图像转换为二值图像,换句话说,二值化后的图像将只包含两个值:[0,1]或黑白。
ret, thresh = cv2.threshold(grayImg, 0, 255, cv2.THRESH_OTSU | cv2.THRESH_BINARY_INV)
结果如下:
5. 形态学操作
接着我们可以选择并使用多种算法从上述二值图像中提取信息,例如直方图均衡、傅立叶变换、形态学等。
在这个应用程序中,我们决定选择形态算法来提取所需的信息。
代码如下:
horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (18, 18))
dilation = cv2.dilate(thresh1, horizontal_kernel, iterations=1)
结果如下:
6. 查找轮廓
接着我们需要找到轮廓线,这样我们才能将图像与背景逐行分离。
horizontal_contours, hierarchy = cv2.findContours(dilation, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
for cnt in horizontal_contours:
x, y, w, h = cv2.boundingRect(cnt)
rect = cv2.rectangle(im2, (x, y), (x + w, y + h), (255, 255, 255), 1)
得到结果如下:
7. 单词和字符分割
接着我们通过以下步骤对裁剪出的轮廓子图进行单词分割:
1-预处理(灰度、阈值),
2-形态学算法,
3-找到边界并绘制它们,
4-进入单个字符分割
进而我们将对输出图像中的每个单词再次重复相同的步骤进行单个字符的分割:
1-预处理(灰度、阈值),
2-形态学算法,
3-找到边界并绘制它们,
4-停止
最终我们得到的结果如下:
上图中的绿色框为可能的单词框,蓝色框为可能的包含字符的框,黑色框为找到的潜在的包含外轮廓的最小外接矩形框。
8. 其他示例
我们将上述处理过程应用于其他图像,得到结果如下:
9. 结论
本文重点介绍了在传统图像处理中,如何利用常见的形态学方法进行字符轮廓查找进而切分字符的样例,并给出了相应的代码实现。对于一些字符分布简单,字符间隔较大的场景下,可以取得一定的效果;由于是传统方案,改方法的泛化性还是非常局限的,后续可以考虑使用神经网络的方法来实现更加鲁棒的算法。
代码链接: 戳我