0 介绍
地址:https://learnopencv.com/deep-learning-based-document-segmentation-using-semantic-segmentation-deeplabv3-on-custom-dataset/
文档扫描是一个背景分割问题,可以使用多种方法解决。 它是计算机视觉广泛使用的应用程序之一。 在本文中,我们将文档扫描视为语义分割问题。 我们将使用 DeepLabv3 语义分割架构在自定义数据集上训练文档分割模型。
图1 使用语义分割架构的文档扫描仪 DeepLabv3 – PyTorch [TL;DR]
以前,我们探索了经典的计算机视觉技术,以努力使管道自动化。 查看帖子“使用 OpenCV 的自动文档扫描器”,我们在其中创建了一个完全使用 OpenCV 的文档扫描器。 但是,如文件所述; 在某些情况下观察到缺陷。 失败的原因是我们对文档的结构和位置以及背景变化的假设存在偏见。
在本文中,我们将在自定义数据集上训练语义分割模型以改进结果。 创建文档分割模型的步骤如下。
- 收集数据集和预处理以通过强大的增强来提高鲁棒性。
- 在 PyTorch 中构建自定义数据集类生成器以加载和预处理图像掩码对。