古籍数字化平台中的OCR:这个平台更精准

news2025/1/15 17:49:33

在浩瀚的历史长河中,古籍作为中华民族的文化瑰宝,承载着无数先人的智慧与心血。然而,由于岁月侵蚀、保存不当等多种原因,许多珍贵的古籍面临损坏、失传的危机。为了守护这些无价之宝,云聪研发团队倾力打造了一款尖端的OCR(光学字符识别)系统,旨在提升古籍数字化校编的效率,让千年文化得以传承。

在研发这款OCR系统的过程中,云聪博士团队深知每一份古籍的珍贵与独特性。他们克服了技术上的种种挑战,力求在确保准确识别的同时,最大化地保留古籍的原貌和独特风格。正是这份执着与坚守,让云聪OCR系统在业界脱颖而出,成为古籍数字化校编领域的翘楚。

本模块支持私有化部署,API调用。

一、技术核心

1、识别核心

OCR精校工厂内置云聪科技最新研发的高性能文字识别引擎,其中《国标GB2312 汉字编码字符集》常用汉字6,763个,平均识别率达99.9%以上,《国标GB18030-2000中文编码字符集》繁体异体汉字27,533个,中文汉字平均识别率达95%以上。另外多语言版本英文、日文、韩文的识别率居国内主流水平。

2、逐字横排校对

云聪OCR精校工厂支持将竖版繁体文字转换为横版繁体文字,单个文字上下一对一进行逐字校对,支持全程快捷键键盘操作,符合现在的阅读习惯,大大提高校对效率。

3、复杂版面分析

云聪OCR精校工厂的内置复杂版面识别引擎,凭借其卓越的AI技术,对上下栏古籍、批注栏、竖版报纸以及简体中文报纸等各类版面,都能进行精准的版面分析。

4、阅读顺序

云聪OCR精校工厂拥有强大的内置版面阅读顺序引擎,能够精准解析古籍筒子页、半筒子页、三栏稿本、上下栏古籍、批注栏等多种复杂格式。同时,对于竖版报纸和简体中文报纸等复杂版面,也能进行有效的阅读顺序分析。

5、集字校对(内测中)

在云聪OCR精校企业版中,利用集字校对功能,多篇文档的相同字符图像得以集中展示,一目了然。这一功能大大减轻了校对人员的视觉负担,避免陷入繁琐的上下文判断,从而提高校对效率和准确性。

二、识别因素

云聪OCR的识别泛化能力能够适应大部分页面歪斜、透光、透字的情况,但是OCR识别效果好坏,关键看图像清晰度。简单来说,图像越清楚,OCR识别的准确率就越高。具体影响因素有:

1、分辨率:扫描时,图像的分辨率最好设置在DPI 300或以上,这样能保证OCR识别的效果。

2、亮度、对比度:页面亮度、对比度要适中,太亮、太暗、光斑、阴影等都可能影响OCR的准确率。

3、颜色:平台可以识别全彩图、灰度图、黑白图等。一般来说,黑白图的识别效率更高,但如果处理不当,也可能导致识别错误。

4、页面歪斜:轻微的页面歪斜、扭曲、梯形失真,平台可以忽略,但文字倾斜超过10°时,识别错误率就会高。所以,如果图像页面有问题,建议先进行预处理。

5、污损、模糊:页面上的透光、透字、彩点、黑边、污点等,都可能导致文字识别异常。

总之,清晰、标准是OCR识别的关键。

三、布局分析

古籍智能整理平台主要服务对象是繁体竖排的古籍,包括筒子页和半个筒子页的图像。这些古籍的文本输出顺序是从右至左、从上到下。但平台也能处理其他类型的文献,如经卷、文书、卷轴等,只要它们的版面布局和古籍相似。

不过,对于一些特殊的页面布局,平台可能无法完美处理。比如:

1、当页面过长或过宽时(超过3000像素),可能会出现识别异常。

2、针对上下分栏的页面,系统会认为页面存在 水平分隔线 ,文本输出顺序如下图:

3、横排页面,请在上传时选择横版页面:

4、倾斜的页面在校编校编工作时会有文字倾斜的情况,但不影响识别精度。

总的来说,要想获得更好的OCR效果,还是得保证图像的质量和版面布局的规范。

四、文字与字体

  1. 古文字

系统主要识别的是楷书、隶书,不支持甲金篆等古文字。

  1. 生僻字处理

为了提高综合识别效果,系统针对GB18030-2000中文编码字符集中常见的20000个繁体字体有较好的识别能力,但是其他7000个左右使用率极低的生僻字,系统暂时未做处理。如果需要处理这些生僻字,可以使用系统提供的全字库字符查询工具来帮助你录入。

  1. 符号与非汉字字符

虽然系统可以识别常见的句号,逗号,但对于现代新式标点、空格、书名号等等,以及其他的非汉字语言文字,暂时还无法识别。

  1. 印刷字体

系统对明清的方体字(也称硬体字、匠体字、宋体字)、宋元以来的软字体,如颜体、欧体、柳体、赵体等均有有较好的识别效果;对标准楷体写刻本和名家手写上板的精刻本等,也有良好的泛化能力。一般来说,笔画清、字形厚的字体识别效果好;而笔画细、连挤挨的字体效果较差了。

  1. 手写字体

系统对以楷宋体书写的写本、稿本、抄本有较好的适应性。但对于行书、草书风格文字,识别效果还有待优化。

五、其他元素

1、批校

天头位置整齐的批校,系统可以单独处理,不会影响正文的顺序。但行间整齐的批校可能会被当作普通文字行。而那些挖改、涂改、勾乙则会对识别结果产生较大影响。

2、注释

对于古籍中的小字注释,系统有较好的处理能力。但如果是连续的多行小字或更小的注释,因为大小差异不明显,可能会被误识别为普通的双行小注。

3、表格

现在的系统对于表格的处理能力还不够强大。如果表格的栏线不明显,或者与文字靠得太近,还有那些模糊的行列关系和合并的单元格,都可能导致表格识别效果不佳。

4、插图

有时候,页面中的插图可能会被误识别为文字。同样,插图里的文字如果和线条混在一起,就很容易被识别错误或者遗漏。

最后,从技术核心到识别能力,云聪OCR系统无不展现了科技与文化的完美结合。在未来的日子里,云聪团队将继续深耕于古籍数字化领域,用科技为文化遗产保驾护航,让千年文明焕发新的光彩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1623316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用QTcpSocket

(1)客户端每隔10ms向服务器发送一次数字字符串&#xff0c;从0开始。 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QTcpSocket> #include <QLabel> #include <QTimer> namespace Ui { class MainWindow; }class Mai…

11 - 在k8s官方文档上,经常搜索不到内容的问题

使用k8s官方文档时&#xff0c;会出现首页可以正常打开&#xff0c;但是输入搜索关键字之后&#xff0c;搜索不到内容的情况&#xff0c;如下图&#xff1a; 这是由于相关搜索组件被墙的原因&#xff0c;处理方法如下&#xff1a; 谷歌浏览器&#xff1a; 火狐浏览器&#x…

Epic游戏商店再送大作,兽人必须死3即将免费领取

Epic游戏商店再送大作&#xff01;兽人必须死3即将免费领取 圣诞节过后&#xff0c;Epic游戏商店一直在送出精心制作的小游戏或者在小圈子里备受热议的作品。虽然之前送过的游戏如《天外世界》和《幽灵行者》等名气不小&#xff0c;但对于一直在“白嫖”的玩家们来说&#xff0…

采用php vue2 开发的一套医院安全(不良)事件管理系统源码(可自动生成鱼骨图)

采用php vue2 开发的一套医院安全&#xff08;不良&#xff09;事件管理系统源码&#xff08;可自动生成鱼骨图&#xff09; 医院安全&#xff08;不良&#xff09;事件管理系统采用无责的、自愿的填报不良事件方式&#xff0c;有效地减轻医护人员的思想压力&#xff0c;以事件…

【Go语言快速上手(四)】面向对象的三大特性引入

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:Go语言专栏⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多Go语言知识   &#x1f51d;&#x1f51d; GO快速上手 1. 前言2. 初识GO中的结构…

记内网http洪水攻击,导致网页无法访问一事

事由 最近两日&#xff0c;部分同事在访问税纪云平台时&#xff0c;登录跳转页面频繁转圈、要么就是出现无法连接的错误提示。 无法访问此页面 已重置连接。 请尝试: 检查连接 检查代理和防火墙 运行 Windows 网络诊断经过以下几方面的排查&#xff0c;无果。 后续通过检查…

【Node.js】02 —— Path模块全解析

&#x1f31f;Node.js之Path模块探索&#x1f308; &#x1f4da;引言 在Node.js的世界中&#xff0c;path模块就像一把万能钥匙&#x1f511;&#xff0c;它帮助我们理解和操作文件与目录的路径。无论你是初入Node.js殿堂的新手&#xff0c;还是久经沙场的老兵&#xff0c;理…

Docker容器概念介绍与基本管理

前言 在软件开发和部署环境中&#xff0c;使用 Docker 等容器技术可以帮助团队实现快速、一致、可靠的应用程序部署&#xff0c;提高开发效率和应用程序的可移植性。 目录 一、虚拟化产品介绍 1. 云服务模型 1.1 IaaS 1.2 PaaS 1.3 SaaS 1.4 DaaS 2. 产品介绍 2.1 虚…

【八股】Spring篇

why Spring? 1.使用它的IOC功能&#xff0c;在解耦上达到了配置级别。 2.使用它对数据库访问事务相关的封装。 3.各种其他组件与Spring的融合&#xff0c;在Spring中更加方便快捷的继承其他一些组件。 IoC和DI &#x1f449;IOC是Inversion of Control的缩写&#xff0c;“…

Nginx 四层和七层代理区别、配置

四层&#xff1a;通过报文中的目标地址和端口&#xff0c;加上负载均衡设备设置的服务器选择方式&#xff0c;决定最终选择的内部服务器&#xff0c;使用tcp、udp协议。 七层&#xff1a;"内容交换"&#xff0c;通过报文中真正有意义的应用层内容&#xff0c;加上负…

ETLCloud平台组件模版的使用技巧

ETL工具介绍 在ETLCloud平台中配备了各种不同的组件、模板、规则&#xff0c;用户可运用不同类型的组件来实现想要的业务流程。接下来直接进入平台组件模板的使用技巧说明吧。 使用技巧 1.组件复制 平时在使用的时候&#xff0c;如果遇到要用到一个组件&#xff0c;需要再来…

创建一个空的maven项目,整合SpringBoot和Redis

创建一个空的maven项目&#xff0c;整合SpringBoot和Redis 创建空的maven项目 在最新版的idea中创建maven项目的时候会让选择模板 如下图&#xff1a; 我们选择quickstart快速开始模板&#xff0c;quickstart快速开始模板创建的maven项目里面什么都不带&#xff0c;只有一个…

【机器学习】集成学习---投票法(Voting)

一、引言 集成学习&#xff08;Ensemble Learning&#xff09;是机器学习领域中的一种重要策略&#xff0c;它通过结合多个模型的预测结果来提高整体性能。在单个模型容易过拟合或欠拟合的情况下&#xff0c;集成学习能够通过综合多个模型的优点来减少这种风险&#xff0c;从而…

javaWeb项目-房屋房租租赁系统功能介绍

项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&#xff1a;Vue、ElementUI 关键技术&#xff1a;springboot、SSM、vue、MYSQL、MAVEN 数据库工具&#xff1a;Navicat、SQLyog 1、JSP技术 JSP(Jav…

企业如何创建自己的维基百科词条?难吗?

维基百科词条创建与编辑概述 &#xff08;Wikipedia&#xff09;是全球网络上最大且最受大众欢迎的参考工具&#xff0c;其内容丰富、更新及时&#xff0c;被广泛应用于学术研究、商业决策和普通大众的查询需求。词条的创建与编辑对于很多人来说可能是一个挑战&#xff0c;但实…

echarts树图-实现拓扑图效果

使用echarts树图来实现拓扑图效果&#xff0c;其效果如下&#xff1a; 代码如下&#xff1a; const data {name: XXX公司,children: [{name: 网络主机,children: [{name: 普通路由器,children: [{name: 智能网关},{name: 192.168.1.0/24}]}]},{name: 企业路由器},{name: 三…

Linux 系统IO函数之lseek函数

lseek函数 要点&#xff1a; off_t lseek(int fd, off_t offset, int whence); seek 寻找 man 2 lseek标准C库的函数 #include <stdio.h> int fseek(FILE *stream, long offset, int whence);Linux系统函数 #include <sys/types.h> #include <unistd.h> off…

深度解析 Spring 源码:揭秘BeanFactory 之谜

文章目录 一、认识BeanFactory1.1 BeanFactory的概述1.2 BeanFactory与 ApplicationContext的区别 二、BeanFactory源码解读2.1 BeanFactory 接口2.1.1 getBean()2.1.2 containsBean()2.1.3 isSingleton() 2.2 DefaultListableBeanFactory 类2.2.1 registerBeanDefinition()2.2…

书生·浦语大模型实战营之Llama 3 高效部署实践(LMDeploy 版)

书生浦语大模型实战营之Llama 3 高效部署实践&#xff08;LMDeploy 版&#xff09; 环境&#xff0c;模型准备LMDeploy chatTurmind和Transformer的速度对比LMDeploy模型量化(lite)LMDeploy服务(serve) 环境&#xff0c;模型准备 InternStudio 可以直接使用 studio-conda -t …

mmcv bug记录

图像分类任务要用到mmcv框架&#xff0c;记录遇到的问题 1. Can‘t import build_from_cfg from mmcv. 解决命令&#xff1a;pip install openmim && mim install mmcv-full 2. python分布式训练 解决方案&#xff1a; 租用多张A40卡&#xff0c;执行下述命令&…