OCR两篇革命之作

news2024/9/20 20:42:11

DocOwl2

参考 阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

mPLUG-DocOwl 2聚焦多页文档理解,兼顾效果和效率,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果。

仅用324个token表示文档图片也能还原出图片的文字信息和布局信息,验证了当下多模态大模型几千的文档图片视觉表征存在较大的token冗余和资源的浪费。

mPLUG团队会持续优化DocOwl并进行开源,同时希望DocOwl 2能抛砖引玉,让更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码问题,欢迎大家持续关注和友好讨论!

论文:
https://arxiv.org/abs/2409.03420

代码:
https://github.com/X-PLUG/mPLUG-DocOwl

在 OCR-free文档理解领域,例如mPLUG-DocOwl2模型所使用的方式,旨在通过直接使用多模态大型语言模型(MLLMs)来理解文档图像,从而绕过传统的OCR步骤。这种方法与先应用OCR提取文本,然后执行问答形成对比。

以下是为什么无OCR文档理解可以优于两步骤OCR然后QA过程的原因:

效率:OCR引入了额外的步骤,例如文本提取和格式化,这可能会减慢过程。像DocOwl2这样的模型直接使用文档的原始视觉特征,将其压缩为同时保留布局和文本的标记,从而降低单独OCR过程的开销。

上下文保留:OCR可能在保持文档布局和结构方面遇到困难,特别是在具有表格、图表或多列等混合内容的复杂文档中。无OCR方法处理整个文档图像,保持视觉和布局上下文,这对理解内容的语义含义至关重要。

标记效率:在像DocOwl2这样的无OCR方法中,视觉标记用于表示文档特征,这些模型经过优化以处理更少的标记同时保留重要的文档信息。这降低了内存使用量并加快了推理时间,使多页文档处理更加可行。

更适合复杂文档:OCR在处理手写文本、质量不佳的扫描或包含许多图表等视觉元素的文档时可能失败。OCR-free方法通过视觉语言建模处理文档,绕过这些挑战,从而在此类文档上提高了问答准确性。

通过直接关注多页和多图像理解而不是通过OCR,像DocOwl2这样的模型在减少计算需求并提高处理视觉复杂文档的能力的同时,实现了最先进的性能。

GOT OCR

参考 一个端到端的 OCR 模型,炸裂开源!

项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

模型下载: https://huggingface.co/ucaslcl/GOT-OCR2_0

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。

🚀 项目特点

① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。

② 多样化输入输出:支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。

③ 长文本处理能力: 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。

④ 高级功能: 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。

OCR 识别效果
公式:
在这里插入图片描述
大段文字:
在这里插入图片描述
提取文字:
在这里插入图片描述

提取某一坐标的文字:
在这里插入图片描述
论文:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2146154.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

离散制造 vs 流程制造:锚定精准制造未来,从装配线到化学反应,实时数据集成在制造业案例中的多维应用

使用 TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量替代 OGG, Kettle 等同步工具,以及基于 Kafka 的 ETL 解决方案,「CDC 流处理 数据集成」组合拳,加速仓内数据流转,帮助企业…

使用雷达速度因子进行越野导航的鲁棒高速状态估计

使用雷达速度因子进行越野导航的鲁棒高速状态估计 Morten Nissov 1 , 2 ^{1,2} 1,2, Jeffrey A. Edlund 1 ^{1} 1, Patrick Spieler 1 ^{1} 1, Curtis Padgett 1 ^{1} 1, Kostas Alexis 2 ^{2} 2 和 Shehryar Khattak 1 ^{1} 1 摘要 在复杂环境中实现机器人自主性以用于关键…

【限流算法】

文章目录 介绍算法原理适用场景令牌通算法实现限流算法 介绍 令牌桶算法是网络流量整形(Traffic Shaping)和速率限制(Rate Limiting)中最常使用的一种算法。典型情况下,令牌桶算法用来控制发送到网络上的数据的数目&a…

第6天:趋势轮动策略开发(年化18.8%,大小盘轮动加择时)

原创内容第655篇,专注量化投资、个人成长与财富自由。 轮动策略是一种投资策略,它涉及在不同的资产类别、行业或市场之间进行切换,以捕捉市场机会并优化投资组合的表现。 这种策略的核心在于识别并利用不同资产或市场的相对强弱&#xff0c…

[数据集][目标检测]智慧养殖场肉鸡目标检测数据集VOC+YOLO格式3548张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3548 标注数量(xml文件个数):3548 标注数量(txt文件个数):3548 标注…

医学数据分析实训 项目九 糖尿病风险预测

文章目录 综合实践二 糖尿病遗传风险预测一、分析目标二、实现步骤三、数据准备四、特征工程五、模型构建六、性能度量七、提交要求 综合实践任务二 糖尿病遗传风险预测代码(一)数据准备(二)特征工程(三)模…

Selenium通过ActionBuilder模拟鼠标操作直接移动到指定坐标的注意事项

在目前(2024-09-18)得Selenium官方手册中,模拟鼠标操作基本上都是通过ActionChains完成的,唯独有一动作,是通过ActionBuilder完成的。 而前者ActionChains,主要是通过offset,也就是坐标偏移量来…

【Prometheus】jmx_prometheus_javaagent监控java应用

目录 一、概述 1.1 promethues简介 1.2 JMX Exporter简介 二、监控SparkHistoryServer实现 一、概述 1.1 promethues简介 promethues采集数据的方法很多,常用的是通过各种exporter去主机采集,然后有些程序是没有相关的exporter,所以有些时候会通过脚…

信息学奥赛报考指南

近年来,信息学奥林匹克竞赛(NOI)越来越受到家长和学生的重视。这项竞赛不仅能培养孩子的编程与算法思维,还为优秀的选手提供了进入国内顶尖大学的保送资格,并有机会参加国际级赛事。因此,许多家长都希望了解…

设计图纸加密方法知多少?小编给你讲清楚

一、对称加密 使用对称加密算法,对设计图纸进行加密。对称加密使用相同的密钥进行加密和解密,确保只有持有正确密钥的人能够解密文件。 二、非对称加密 使用非对称加密算法,进行设计图纸的加密。非对称加密使用公钥加密、私钥解密的方式&a…

机械设备产品资料方案介绍小程序系统开发制作

设备产品资料介绍小程序系统,是一家工业机械设备生产厂家为了更好的服务客户而定制开发的一套小程序系统,让用户通过小程序就可以了解公司产品介绍的详细参数、售后服务和产品操作手持等。 该小程序系统里面主要开发的功能模块有: 1、产品目…

如何在算家云搭建DynamiCrafter(图生视频)

一、模型简介 DynamiCrafter 是一种(文本-)图像到视频/图像动画的方法,旨在从条件图像和文本提示中生成短视频片段(约 2 秒),可以将静止图像转换为动画。它使用了一种称为视频扩散先验的技术,可…

探索Facebook的黑暗面:数字化社交的双面剑

Facebook作为全球最大的社交平台,改变了我们的沟通和互动方式。虽然它带来了便利,但也存在不少隐忧。本文将探讨Facebook的负面影响,包括隐私问题、信息操控、心理健康危机及社交表面化等。 一、隐私问题:数据收集的隐忧 Facebo…

优思学院|如何从零开始自己学习六西格玛?

优思学院为学习六西格玛管理的学员,精心推荐了几本由浅入深、系统全面的书籍,帮助大家从入门到精通,逐步掌握六西格玛这一强大的管理工具。无论你是刚接触六西格玛的初学者,还是想在专业领域提升的高级学员,这几本书都…

硬件(驱动开发概念)

驱动程序开发 裸机驱动(无操作系统) Linux驱动 以计算机技术为基础,在软件和硬件层间可以被剪裁的专业硬件计算机系统 SOC:片上系统 Kernel:内核 x86 (CISC:complex instruction set computer 复杂指令…

IEEE Electronic Library(IEL)数据库文献检索下载介绍及个人获取IEEE文献途径

一、数据库介绍 IEEE(The Institute of Electrical and Electronics Engineers,电气电子工程师学会)是目前全球最大的非营利性专业技术学会,在全球160多个国家拥有超过45万名会员。IEEE在电气电子、计算机、半导体、通讯、电力能…

24年蓝桥杯及攻防世界赛题-MISC-3

21 reverseMe 复制图片,在线ocr识别,https://ocr.wdku.net/,都不费眼睛。 22 misc_pic_again ┌──(holyeyes㉿kali2023)-[~/Misc/tool-misc/zsteg] └─$ zsteg misc_pic_again.png imagedata … text: “$$KaTeX parse error: Undefined…

方法:批量提取PPT幻灯片中图片

处理包含大量图片的PPT(PowerPoint)幻灯片已成为许多专业人士的日常任务之一。然而,手动从每张幻灯片中逐一提取图片不仅耗时耗力,还容易出错。为了提升工作效率,减少重复劳动,探索并实现一种高效批量提取P…

STM32F407单片机开发入门(二)STM32F407VET6单片机详解

文章目录 一.概要二.单片机型号命名规则三.STM32F407系统架构四.STM32F40VET6单片机启动流程五.STM32F40VET6单片机主要外设资源六.开发过程中查看芯片数据手册的必要性1.单片机外设资源情况2.STM32F407单片机内部框图3.STM32F407单片机管脚图4.STM32F407单片机每个管脚功能5.单…

球类目标检测系统源码分享

球类目标检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…