AI+OCR赋能古彝文数字化—让经典重新跳动

news2024/11/30 9:36:10

1️⃣ 彝文与古彝文概况

文化是一个民族社会历史发展到一定程度的产物,代表着文明发展的程度,而文字是文化的一种载体,文字的出现是社会进入文明阶段的重要标志之一,其生动记录着一个民族的智慧成果,深刻反映着一个民族的发展历史,集中体现这一个民族的文化。


中国远古时代的彝族,是相当庞大的部落族群,其生息的区域,从西部、西南部往中原地区延伸到东海之滨,以刻划文字和十月太阳历为标志,可追溯达万年历史的古彝人,对世界本源、人类发展史的认识,都达到了极高的程度,中国的文明史时序,由此向前推进了一大步。

古彝文字义对照图(网络资料+邵文苑供图)

邵文苑:古彝文数字化项目发起人,上海大学社会学院人类学民俗学研究所讲师

彝文是彝族先民在长期的生产、生活实践中长期孕育、逐步提炼的文化产物,在漫长的历史发展之中薪火相传,生生不息。而古彝文指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。彝文起源于何时,尚未有官方的定论,有学者认为,原始古彝文的创制和出现时间大致可推算为7000—10000年或以上。

以国内外相关考古研究与学术研究成果为参照,以世界古文字珍稀遗产评鉴体系为依据来评价古彝文:

  • 文字生命力:古彝文出现时间大致可推断为七千到一万年或以上,彝文经过漫长的岁月洗礼仍保留着大量的原生性特征;

  • 文字影响力:中国29个省市自治区都发现了古彝文刻划符号,具有极大影响力;

  • 文字文化力:古彝文文献数量较多、体量较大、底蕴深厚、内容丰富、体制完善而成熟;

  • 文字传承力:彝族人口众多,生活地域广袤,有深厚的文化地域,为古彝文的传播提供了广泛而稳定的群众基础。

综上所述,古彝文中蕴藏着彝族数千年灿烂文明成果,是中华民族传统文化的重要组成部分,具有鲜明的民族个性和顽强的生命力,古彝文是彝族、中华民族乃至世界的文化瑰宝,建立古彝文OCR识别模型,可以很好地完成古彝文文献的识别预处理操作,缩短古文典籍研究周期。对古彝文的数字化保护有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护

2️⃣ 古彝文数字化的重难点分析

2.1、古彝文典籍残缺难以识别

彝文的传承一直以手抄的形式为主,由族中的毕摩代代相传,由于战火与自然风蚀的洗礼,很多彝族文献遭到破坏和流失,存在缺失、污渍、笔墨污染、模糊、印章噪声干扰,目前, 从各地收藏单位收集到彝文古籍文献来看,纸质文件存在泛黄变脆,甚至出现残边、虫蛀等损毁问题; 一些碑刻、木刻的古彝文也由于长期的侵蚀,字迹出现了模糊, 腐蚀等情况,这对古彝文典籍修复、文本检测、文字识别带来极大困难。

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

📔传统的文字图像修复和识别📔,专业研究人员是通过语境信息和感知信息进行,即利用图像周围的像素以及综合标准文字中的各个特征要素来完成字符推演,而计算机很难具备人的语境信息,且古彝文没有标准文字库让计算机参照学习。

2.2、缺乏成熟的古彝文训练样本集

建立一个古彝文样本库是古彝文识别成功的关键因素,直接决定识别的效果,文字的认知需要很多的背景知识,这些是人类在一定环境中长期积累形成,很难系统地加以描述和组织,当前对古彝文的研究主要集中在对古彝文文献的整理上,再加上彝文字没有被数字化,也没有预留的Unicode编码区段,缺乏成熟可用的古彝文样本库和语料库,故常规OCR识别方法高度依赖人工,几乎需要专业人员逐字标注,导致古籍数字化无法形成规模效应,总体进程缓慢。

毕节市彝文文献翻译研究中心展示汉译书稿(邵文苑供图)

在🎓人才方面🎓,具备古彝文语言专业知识的计算机技术人员极度缺乏,计算机技术相对薄弱的文献语言知识领域的专家与缺乏文献语言专业知识的计算机技术领域专家两者之间不能进行完美的沟通合作,难以突破技术层面以及知识层面的重重难题,更遑论少数民族语料库的建设,这不仅对于文献语言知识领域专家有着更多的要求,对于计算机专业技术领域专家更是充满挑战。

2.3、古彝文字体多变 笔画复杂

古彝文典籍时常出现加字、替字、整句倒置、文字方向不统一等现象,更是给文字定位造成挑战,再加上古彝文从未经过统一,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。比如:

表示“种类”的彝文字的四个变体(邵文苑供图)

这样的变体字大量存在,在彝文已经相对规范的汉译本中就有15%的变体字,原稿中就更多了,古彝文每个字的异体写法少则两三个,多则几十种,除此以外,彝文还存在一些汉文所没有的笔画,比如横飘、横回交,有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字:

两个形似、但音义完全不同的彝文字(分别为“酒”、“仪礼”,邵文苑供图)

这些笔画相近的字符不仅给OCR识别模型的建立造成困难,而对于参与校注的初学者来说也是一大阻碍。

3️⃣ AI + OCR = 古彝文典籍数字化

3.1、OCR识别——古彝文典籍数字化的核心技术

古彝文典籍数字化可以将古籍内容转换成计算机可处理的数字,以达到存储、检索、传递、再生、利用等目的,并且可以进行内容检索,快速下载打印和复制还原,也可以提供印刷出版或制作电子版图书,通过网络还能实现远程传送、专题展览,打破地域性资源的空间和时间的限制,被最大限度地使用,从而实现“资源共享”。

古彝文典籍数字化的价值并不止步于学术研究,随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机。

光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术,包括:版面分析、图像分割、文本检测、文字识别等技术过程。古籍数字化尝试由来已久,但古籍文字字类多、字体多样,外加流传过程中出现的各类损坏难度大、成本高。OCR是古籍数字化的核心技术,是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。

先进的OCR识别技术可以提供很高的并发处理能力,针对大量古籍图像,快速输出结果文件,保证研究进度,在保证古籍识别准确率能够达到较极高的水平的同时,降低后期校对的人工投入,OCR识别核心技术主要由以下几个部分组成:

  1. 🚲图像预处理:主要包括二值化,噪声去除,倾斜较正,古文字常见的载体——龟壳和青铜器的表面都会不同程度地存在弯曲、反光、凹凸不平的情况,古彝文典籍存在缺失、污渍、笔墨污染、模糊等噪声干扰,首先要将拍摄到的图片素材在技术上进行“拉平”等矫正处理,并做好对于阴影、噪点的处理;

  1. 🚗版面分析、字符分割:将文档图片分段落,分行,然后将每行的彝文字符单独提取出来,切分是否准确对于文字特征提取和分类识别将最终影响识别结果;

  1. 🚄特征提取:古彝文字体多变 笔画复杂的问题,导致很多字只有一笔一划的差别,存在许多相似字、变体字,这对描述字符特征提出了更高的要求——系统必须使得两个相似字的类内差距尽可能的小,类间差距尽可能的大。

  1. 🚀字符识别:根据提取的特征识别字符。常用的算法有模板匹配算法、支持向量机、贝叶斯分类算法和人工神经网络。

3.2、四字节编码系统——古彝文典籍数字化的坚实基石

上海大学彝文研究员研制的一种四字节编码系统,理论上可描述四省区所有异体字、变体字之间的细微差异,为每一个彝文字分配一个编码,好像每个人都有独一无二的身份证号那样。在此基础上建立的数据库,能较容易地找出误用字和混用字,而且输出平台保留了原稿与编码的联系,可以方便地定位某位缮写员的书法,为将来开发多样化的字体做准备。

这种四字节的编码,可以描述每个变体和形近字符之间的细微差别,由此建立便于机器学习的数据样本。合合信息技术研发团队吸取上海大学古彝文研究专家及其所在院系深厚的人文社科学术底蕴,以及前期积累的编码工作成果,准确掌握文字研究方面的痛点,细化目标拆解,建立更精准、更符合研究需求的彝文古籍电子数据库。

合合信息携手上海大学推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创。

3.3、合合信息AI智能文字识别技术——古彝文典籍数字化的万能钥匙

合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题,其与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉。

智能文字识别技术主要包含了智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理三个核心技术层。就古文的识别而言,通常会涉及到行业存在两大典型难点,一个是图像的优化处理,再者是古文字的识别。

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

  1. 针对图像质量差的问题,彝文古籍经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍、墨色深浅不一、字符间距和行距大小不一的情况。合合信息采用智能文字识别技术对图像质量进行增强,提升文字识别效率与准确性。

  1. 🌟针对版式多样的问题,汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,积累了大量经验,这为古彝文识别提供了相当可靠的技术支持。

  1. 🏁针对异体众多的问题,未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难。合合信息智能文字识别技术采用AI模型深度训练学习深层语言特征,有助于应对文字识别中“理解、认知”层面的难题。

  1. 💫针对手写识别难的问题,古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,合合信息智能引入AI技术构建模型,弥补本项目训练样本不足

4️⃣ 智能文字识别技术——合合信息让经典重新跳动

古文的研究,是合合信息用智能文字识别技术促进中华文化传承、文化保护的社会责任体现,这也对提高技术整体识别率,赋能更广泛的大众应用非常有价值。不止在古彝文,此前合合信息便在甲骨文、金文领域进行研究,并基于“AI+OCR”融合下的智能文字识别技术,在解决古籍版式检测图像处理文字识别难题上取得了亮眼成果。

在2022年世界人工智能大会上,合合信息将智能文字识别技术应用到了一篇镌刻在西周青铜鼎面的的钟鼎文(金文)识别上,可谓难度颇高,在没有人工干预的状态下,钟鼎文从内凹状态被拉平,并被转译成简体字,“克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”等原本连在一起的复杂语句,也经过“AI断句”功能自动处理后被区分开来,方便大众理解。

在钟鼎文的处理过程中,合合信息重点展示了智能文字识别技术的应用,通过以“弯曲矫正”为代表的智能图像处理,基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心技术层,向曲面、模糊、阴影、非常规文字影响下的识别难题发起挑战,精准实现复杂场景中的多语言识别。

一些参观者在展区还使用合合信息旗下产品“扫描全能王app”,用“拍图识字”功能一键扫描识别竖排繁体古籍《桃花源记》。面对破损、皱褶的古籍,该功能通过图像文字效果增强,进一步将古籍内容提取出来,赋予更多人清晰、平整的古籍阅读体验。

不仅如此,合合信息专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术,还为全球C端用户和多元行业B端客户提供身份证、票据数字化、PS篡改检测、报表OCR识别、切边增强、曲面矫正、阴影处理、印章检测等智能图像处理产品及服务。

合合信息还将重点关注自然语言处理领域,不断精进AI“读懂”古文的能力,去实现更多理解层面的事情,以此更好地促进学术研究效率提升,并通过降低古文理解门槛,在文旅、文创领域触达更广泛的社会群体,让传统文化焕发新的生机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/152355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity 3D 环境特效||Unity 3D 游戏场景设计实例

Unity 3D 环境特效 一般情况下,要在游戏场景中添加雾特效和水特效较为困难,因为需要开发人员懂得着色器语言且能够熟练地使用它进行编程。 Unity 3D 游戏开发引擎为了能够简单地还原真实世界中的场景,其中内置了雾特效并在标准资源包中添加…

mmLab系列使用方法

mmLab系列使用方法环境搭建mmdetection检查数据集运行部署mmdeploy环境搭建使用mmOCRmmsegmentation环境搭建 Windows最推荐安装方法: 首先需要查好自己gpu的CUDA版本,根据版本到pytorch官方网站查找对应的pytorch版本(!!!只查找不下载!)ht…

Mybatis源码分析(七)MapperMethod的INSERT分析

目录一 INSERT 语句1.1 参数的对应解析convertArgsToSqlCommandParam1.2 ID获取对应的MappedStatement1.3 MappedStatement交给执行器执行1.4 不同的执行器获取不同的StatementHandler1.5 根据参数获取BoundSql1.6 执行器配置参数处理器ParameterHandler1.7 拿到StatementHandl…

人工智能-http协议和静态服务器

目录1、HTTP协议1.1 网址1.2 http协议的介绍1.3 http请求报文1.4 http响应报文1.5查看http协议的通信过程2、静态web服务器程序开发2.1 搭建python自带的静态web服务器2.2 静态web服务器-返回固定页面数据1、HTTP协议 1.1 网址 网站又称为U…

【报错】assert failed: xQueueSemaphoreTake queue.c:1545 (( pxQueue ))

🌱 hi,最近开始写嵌入式,碰到蛮多新的问题,也调bug到凌晨五点过。欢迎关注我,一起讨论交流 开发环境 在VScode中使用Arduino,开发板ESP32S3 报错代码 使用队列接收服务器消息,FIFO依次处理消…

ROS1学习笔记:参数的使用与编程方法(ubuntu20.04)

参考B站古月居ROS入门21讲: 参数的使用与编程方法 基于VMware Ubuntu 20.04 Noetic版本的环境 文章目录一、概念图讲解二、创建功能包三、参数命令行的使用方法:rosparam显示某个参数值:rosparam get设定某个参数值:rosparam set将…

linux小程序—进度条(动态演示)

文章目录1. \n与\r的区别1. linux环境下2. windows环境下2. 缓冲区问题1.\n的情况2.\r的情况3. \n与\r的情况对比4. 使用fflush函数观察\r情况5. 不为\n与\r的情况3.进度条的实现1. printf 打印字符问题1. 修改前2.修改后2 . 注意事项3. 整体实现1. makefile(自动化编译工具&am…

一篇文章教会你Linux下《常用操作指令》

基本指令首言ls(查看目录)pwds(显示用户当前所在目录)cd(改变工作目录)mkdir(创建目录)rmdir(删除目录)touch (新建文件或更新文件时间&#xff0…

【Python】获取视频弹幕并生成词云

目录一、摘要二、获取目标视频cid三、获取视频弹幕xml文件四、处理弹幕文件五、生成词云六、完整参考代码一、摘要 就是那个大家都用的弹幕视频网站,不写名字了,写了老是不能通过。 获取视频的弹幕文件(xml),并生成如图…

认真分享一个让我变厉害的小建议

很多朋友,加我好友之后,第一句话通常是:我想提高英语,有什么资料推荐? 这要看你学英语的目的了。 我们学英语是为了什么? 理由可能很多,我就说个最俗的目的吧,为了发财。 想发财应向谁学习&…

代码随想录第31天|● 455.分发饼干 ● 376. 摆动序列 ● 53. 最大子序和

455.分发饼干 大尺寸的饼干既可以满足胃口大的孩子也可以满足胃口小的孩子,那么就应该优先满足胃口大的。 这里的局部最优就是大饼干喂给胃口大的,充分利用饼干尺寸喂饱一个,全局最优就是喂饱尽可能多的小孩。 可以尝试使用贪心策略&#xf…

[ 数据结构 ] 最小生成树(MST)--------普里姆算法、克鲁斯卡尔算法

0 修路问题 有胜利乡有 7 个村庄(A, B, C, D, E, F, G) ,现在需要修路把 7 个村庄连通各个村庄的距离用边线表示(权) ,比如 A – B 距离 5 公里问:如何修路保证各个村庄都能连通,并且总的修建公路总里程最短? 思路: 将 10 条边&a…

Java常用工具类方法(上)

1. Collections首先出场的是java.util包下的Collections类&#xff0c;该类主要用于操作集合或者返回集合&#xff0c;我个人非常喜欢用它。1.1 排序在工作中经常有对集合排序的需求。看看使用Collections工具是如何实现升序和降序的&#xff1a;List<Integer> list new…

揭秘链动2+1商业模式玩法

链动21模式主要是打造裂变团队的同时又能快速地将平台销售额提升起来&#xff0c;链动模式可以说颠覆传统的分销&#xff0c;算是一个创新更能吸引用户&#xff0c;稳住会员&#xff0c;拓展新客户的商业模式。 链动21模式有两个身份&#xff0c;分别是代理和老板 【代理商】…

Java高手速成 | 高质量代码编写最佳实践

程序员之间交流时&#xff0c;会经常使用非程序员无法理解的行话&#xff0c;或者使用令操不同编程语言的程序员理解起来比较模糊的行话。 但是&#xff0c;那些操相同编程语言的程序员理解起来不会产生什么问题。 这有时也取决于程序员所掌握知识的渊博程度。 一个新手或许不理…

以 Animated Drawings APP 为例,用 TorchServe 进行模型调优

内容导读 上节介绍了 TorchServe 模型部署调优的 5 个步骤&#xff0c;将模型部署到生产环境中。本节以 Animated Drawings APP 为例&#xff0c;实际演示 TorchServe 的模型优化效果。 本文首发自微信公众号&#xff1a;PyTorch 开发者社区 去年&#xff0c;Meta 凭借 Animate…

win系统重装系统后提示 BitLocker(磁盘加密)密钥查找及如何关闭

文章目录前言如何找到恢复秘钥&#xff0c;解锁磁盘1、打开链接&#xff1a;[https://support.microsoft.com/zh-cn/help/4026181/windows-10-find-my-bitlocker-recovery-key](https://support.microsoft.com/zh-cn/help/4026181/windows-10-find-my-bitlocker-recovery-key)2…

Nuxt3+ElementPlus构建打包部署手记

文章目录为何选Nuxt.js?工程package.json参考目录结构页面之间的关系几个主要命令动态组件获取后台数据SSR打包方式部署参考文档为何选Nuxt.js? 在前后端分离出现之前&#xff0c;传统的web页面都是服务端渲染的&#xff0c;如JSP、PHP、Python Django&#xff0c;还有各种模…

06【Filter】

文章目录06【Filter】一、过滤器简介1.1 Filter概述1.2 Filter的使用1.2.1 Filter快速体验1.2.2 XML配置Filter1.2.3 Filter的拦截规则1.3 Filter的生命周期1.3.1 Filter生命周期介绍1.3.2 Filter生命周期相关方法1.3.3 FilterConfig类1.4 Filter的拦截方式1.4.1 REQUEST1.4.2 …

Linux系统编程——管道

文章目录一、管道1.管道的特质2.管道的用法——pipe函数3.管道的读写行为4..管道的优劣二.实战练习&#xff1a;实现ls | wc -l 指令三、fifo实现非血缘关系进程间通信一、管道 1.管道的特质 实现原理: 内核借助环形队列机制&#xff0c;使用内核缓冲区实现。 特质: 1.伪文件…