2.4K star的GOT-OCR2.0:端到端OCR 模型

news2024/11/17 11:56:03

GOT-OCR2.0是一款新一代的光学字符识别(OCR)技术,标志着人工智能在文本识别领域的重大进步。作为一款开源模型,GOT-OCR2.0不仅支持传统的文本和文档识别,还能够处理乐谱、图表以及复杂的数学公式,为用户提供了更加全面和高效的解决方案。

产品功能及特点

  • 多语言支持:GOT-OCR2.0主要支持中文和英文字符识别,并能够通过进一步的微调扩展到更多语言。这种灵活性使其适用于国际化应用,满足不同用户的需求。
  • 场景文本识别:该系统能够处理自然场景中的文本识别任务,例如街道标志、广告牌上的文字等。这一功能使得GOT-OCR2.0在各种实际应用中表现出色。
  • 文档OCR:GOT-OCR2.0能够处理文档中完整页面的文字识别,无论是纯文本文档,还是含有表格、公式等复杂内容的文档。这一功能极大地方便了文档数字化和信息管理。
  • 格式化文本OCR:该系统支持将光学文档中的文本直接转换为Markdown、LaTeX等格式,保持复杂文档的原始排版和格式。这使得后续编辑和排版工作更加高效。
  • 动态分辨率处理:GOT-OCR2.0采用动态分辨率技术,支持对超高分辨率图像(如大幅海报、拼接PDF页面)进行OCR处理,确保在图像过大时仍能保持较高的识别准确性。
  • 多页OCR:该系统能够批量处理多页文档,例如长篇PDF文件或包含多张图片的OCR任务,显著提升了处理效率。这对于需要大量文档处理的用户尤为重要。公式、表格与图表识别除了基本文本识别,GOT-OCR2.0还能够识别和处理文档中的数学公式、化学分子式、表格及图表等复杂结构,并将其转换为可编辑格式(如LaTeX或Python字典格式),满足更专业的需求。
  • 格式化输出:该系统支持生成多种格式化输出,包括Markdown、TikZ、SMILES、LaTeX等,以结构化方式输出识别到的字符,例如表格、数学公式和分子结构等,使得信息传递更加清晰。
  • 性能与架构:GOT-OCR2.0采用了集成的vision encoder和decoder设计,能够同时处理多种类型的OCR输入,从而极大提高信息传递效率。其模型大小仅为1.43GB,相较于其他AI模型而言较小,但性能却非常强大,特别适合需要处理高复杂度OCR任务的用户。该模型还引入了local attention机制,有效解决了全局注意力机制在高分辨率图像中的内存消耗问题。

高性价比GPU资源:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_toutiao

识别效果展示

截屏文本识别/文档识别/乐谱识别/图表识别

89ee3ceaabfa746038c8bf3051b476cc.jpeg

OCR2.0评测

a284a825825a6cb91cd2d7454930bee5.jpeg

总结

GOT-OCR2.0作为AI 2.0时代的重要产品,通过端到端设计、一体化架构和对多场景复杂内容的识别能力,为用户提供了精准、高效的OCR解决方案。无论是在文档数字化、场景文本识别还是复杂数据处理方面,它都展现出卓越的性能,是开发者和研究人员不可或缺的工具。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168147.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用ssm实现基于JavaWeb的个人健康信息管理系统

TOC ssm701基于JavaWeb的个人健康信息管理系统jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化&#x…

大模型如何赋能智慧城市新发展?

国家数据局近期发布的《数字中国发展报告(2023)》显示,我国数据要素市场化改革步伐进一步加快,数字经济规模持续壮大,数字技术应用场景不断拓展。这一成就的背后是数字技术广泛应用,数字技术不仅影响着老百…

12.系统架构分析师应该懂的项目管理知识

进度管理 进度管理就是采用科学的方法,确定进度目标,编制进度计划和资源供应计划,进行进度控制,在与质量、成本目标协调的基础上,实现工期目标。具体来说,包含以下过程: 活动定义:…

智算中心动环监控:构建高效、安全的数字基础设施@卓振思众

在当今快速发展的数字经济时代,智算中心作为人工智能和大数据技术的核心支撑设施,正日益成为各行业实现智能化转型的重要基石。为了确保这些高性能计算环境的安全与稳定,卓振思众动环监控应运而生,成为智算中心管理的重要组成部分…

小红书,努力成为小红书

【潮汐商业评论/原创】 Lisa作为时尚达人,小红书就是她成长路上的「电子闺蜜」,“想买衣服了,去小红书搜一下;晚饭不知道吃什么,去小红书搜搜看;最近我又小红书上在研究MBTI。” “离了小红书真是不能活&…

[笔记]数据结构

文章目录 堆排序215 数组中第k个最大元素 堆排序 堆排序方法对于记录数较少的文件并不值得提倡,但对n较大的文件还是有效 运行时间主要耗费在: 建立初始堆调整建立新堆 反复筛选 筛选算法进行的关键字比较次数至多为: 2 ( k − 1 ) 2(k-1)…

9.26作业

C 面试题 1,什么是虚函数?什么是纯虚函数? 虚函数:父子类中,在父类中的函数需要在子类中进行重写,重写后父子类空间中使用的都是重写后的函数,该函数就是虚函数,虚函数的声明需要在函数前加virtual。 纯虚函数&…

Trace纳米侦查无人机技术详解

纳米无人机,作为微型无人机的一种,通常指尺寸和重量都非常小的无人机,其重量一般不超过几百克,甚至更小。这类无人机由于体积小、重量轻,具备高度的隐蔽性和灵活性,在军事侦察、环境监测、搜救行动等领域具…

数值计算 --- 平方根倒数快速算法(上)

平方根倒数快速算法(上) --- 向Greg Walsh致敬&#xff01; 写在最前面 --- 一场关于平方根倒数快速算法作者的讨论&#xff1a; 上图中的这段代码出自一个早期的3D游戏<雷神之锤>的源代码&#xff0c;它实现的功能就是计算一个数x的平方根的倒数&#xff1a; 这段代码之…

如何投IEEE论文(Transactions on Cybernetics为例)

文章目录 0. 建议先看看投稿要求1.下载对应的论文模板2.进入提交论文信息的界面3.填写论文中必要的信息3.1 Article Type3.2 Upload Manuscript3.3 Title3.4 Abstract3.5 Authors3.6 Author Details3.7 Math Organizations3.8 Additional Information3.9 Final Review 终审 0. …

计算1 / 1 - 1 / 2 + 1 / 3 - 1 / 4 + 1 / 5 …… + 1 / 99 - 1 / 100 的值,打印出结果

我们写这道题的时候需要俩变量接受&#xff0c;一个总数一个分母&#xff0c;我们发现分母变化是有规律的从1~100循环。 #include<stdio.h> int main() {int i 0;int tag 1;double sum 0.0;for (i 1; i < 101; i){if (i % 2 0){sum sum - 1.0 / i;}else{sum s…

实力!云起无垠荣获“创业邦2024年AIGC创新企业及产品创新”双奖

近日&#xff0c;国际创新生态服务平台创业邦郑重发布 “2024 年 AIGC 创新企业及产品创新榜单”。云起无垠凭借卓越的企业能力与突出的产品创新&#xff0c;成功入选 “2024 年 AIGC 创新企业 100 强” 以及 “2024 年 AIGC 产品创新 100 强”。 本次评选采用内部初审与外部专…

深入分析MySQL事务日志-Undo Log日志

文章目录 InnoDB事务日志-Undo Log日志2.1 Undo Log2.1.1 Undo Log与原子性2.1.2 Undo的存储格式1&#xff09;insert类型Undo Log2&#xff09;delete类型Undo Log3&#xff09;update类型Undo Log 2.1.3 Undo Log的工作原理2.1.4 Undo Log的系统参数2.1.5 Undo Log与Purge线程…

【Linux 报错】vim 保存文件时出现 E45: ‘readonly‘ option is set (add ! to override)

一、错误原因 该错误表明当前你尝试保存的是一个 只读文件&#xff0c;该文件权限设置为只读&#xff0c;具有只读的标识 系统为了防止你意外修改该只读文件&#xff0c;因此会阻止对只读文件的保存&#xff08;他怕你修改了你还保存&#xff0c;破坏了只读属性&#xff09; …

媒界:2025河南台球及配套设施展会3月举办

立足中原&#xff0c;辐射全国&#xff0c;壹肆柒中国国际台球产业博览会3月在郑州盛大举办&#xff1b; 2025中国&#xff08;郑州&#xff09;国际台球产业博览会&#xff08;壹肆柒台球展&#xff09; The 2025 China (Zhengzhou) International Billiards Industry Expo …

2021年的burpsuite安装。

安装burpsuite 很简单的。 1.要有java环境&#xff0c;也就是jdk&#xff0c;并且jdk版本要与burpsuite要对应。&#xff08;如果你的bp安装不起&#xff0c;可能是你的jdk版本不对&#xff09; 2.就是按照我都步骤走就行。 3.下载完文件之后&#xff0c;全程离线操作 说明一下…

spring boot 项目如何使用jasypt加密

1.首先&#xff0c;添加jasypt依赖 <dependency><groupId>com.github.ulisesbocchio</groupId><artifactId>jasypt-spring-boot-starter</artifactId><version>2.1.0</version></dependency> 2.然后winr&#xff0c;cmd调出窗…

Rapid品牌SSL证书通配符单域名申请窍门

RapidSSL最初以FreeSSL的名称引入数字世界&#xff0c;于2003年诞生&#xff0c;扎根于以技术为中心的加利福尼亚州山景城。如今&#xff0c;它是GeoTrust旗下一家值得骄傲的子公司&#xff0c;其战略定位是满足市场对经济高效的SSL证书解决方案的需求。 Rapid属于Geotrust品牌…

Redis篇(初识Redis)

目录 一、数据库 二、NoSQL 三、认识Redis 三、关系数据库与非关系数据库对比 1. 结构化与非结构化 2. 关联和非关联 3. 查询方式 4. 事务 5. 存储方式 6. 扩展性 7. 总结 7.1. 图形梳理 7.2. 表格梳理 7.3. 优缺点 关系型数据库 非关系型数据库 四、再次认识R…

LeetCode142. 环形链表 II(2024秋季每日一题 28)

给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;评测系统内部使用整数…