图像和文本统一识别(UNIT)是一种尝试将图像识别和文本识别任务统一到单一模型中的技术。这种方法的目标是提高模型在处理包含文本信息的图像时的效率和准确性,从而使模型能够更好地理解和处理视觉内容中的文本信息。
使用的技术:
- 视觉编码器:UNIT框架首先使用一个经过图像识别任务预训练的视觉编码器,通常是Vision Transformers(ViTs)这类在图像识别任务中表现优异的模型。
- 语言解码器:引入一个轻量级的语言解码器用于预测文本输出,这使得模型能够在处理图像的同时,识别和理解图像中的文字内容。
- 视觉解码器:为了防止在增加文本识别功能时损害原始的图像识别能力,引入了一个轻量级的视觉解码器,帮助模型在增加新能力的同时保持原有的图像处理能力。
训练过程:
- 尺度内部预训练阶段:UNIT在这一阶段通过多尺度输入学习,启用基本的识别能力,这有助于模型在处理不同尺寸和分辨率的图像时保持性能。
- 尺度间微调阶段:模型通过尺度交换数据的方式进行微调,增强其在不同分辨率下的鲁棒性,这使得UNIT可以更好地适应不同的应用场景。
意义:
- 提高效率和准确性:通过将图像和文本识别合并为一个统一的框架,可以减少处理时间并提高识别的准确率。
- 应用广泛:UNIT的应用不仅限于常规的OCR和文档问题答询(DocQA)任务,还可以扩展到更广泛的文档相关任务,如自动表单解析、票据识别等。
- 维持图像识别能力:在增强文本识别的同时,保持核心的图像识别能力,使得模型在处理纯图像内容时的性能不受影响。
图像和文本统一识别技术(UNIT)标志着在深度学习和计算机视觉领域向更高效、更智能的多模态识别系统的重要步骤。
论文作者:Yi Zhu,Yanpeng Zhou,Chunwei Wang,Yang Cao,Jianhua Han,Lu Hou,Hang Xu
作者单位:Huawei Noah’s Ark Lab; Hong Kong University of Science and Technology
论文链接:http://arxiv.org/abs/2409.04095v1
内容简介:
1)方向:图像和文本统一识别
2)应用:文档相关任务(如OCR和DocQA)
3)背景:现有的视觉编码模型如Vision Transformers(ViTs)在图像识别任务中表现优异,但无法同时支持文本识别,这限制了其在全面视觉理解中的应用。
4)方法:本文提出了UNIT,一个旨在将图像和文本识别统一到单一模型中的训练框架。UNIT从一个经过图像识别任务预训练的视觉编码器开始,引入了一个轻量级的语言解码器用于预测文本输出,以及一个轻量级的视觉解码器以防止原始图像编码能力的灾难性遗忘。训练过程分为两个阶段:在尺度内部预训练阶段,UNIT通过多尺度输入学习统一的表示,以启用基本的识别能力;在尺度间微调阶段,模型引入了不同于最常用分辨率的尺度交换数据,以增强尺度鲁棒性。UNIT保留了原始视觉编码器的架构,使其在推理和部署时无需额外成本。
5)结果:实验结果表明,UNIT在多个基准测试中显著优于现有方法,在文档相关任务(如OCR和DocQA)上表现出色,同时在自然图像上的性能也保持不变。这表明UNIT能够在增强文本识别能力的同时,保持其核心的图像识别能力。