智能文字识别技术推动彝文识别弘扬中华文化

news2024/11/20 2:36:46

前言

  • 谈起图像识别自己颇有感触,因为之前的两段工作经历都和图像识别密切相关;之前一家公司的主营业务就是将历史上珍贵文献进行数字化;上家公司自己负责图像识别模块相关的工作;不但使用了第三方平台产品而且进行了自建,所以对图像识别中的难点有深入且全面的了解;
  • 在工作过程中研究并分析线上大量真实case,遇到很多识别错误情况,如:拍照时光线角度问题,手机本身像素低,身份证磨损严重等;
  • 之前的博文《图像识别平台建设之路(自建+三方产品)》中提到在上家公司中进行了图像识别自研及几家调研的平台对比情况,其中在调研的过程中就看到了一家优秀的公司合合信息;一直在关注这家公司的一些动态,发现该公司最近携手上海大学进行了彝文古籍研究,由于少数民族语言识别一直是一个比较大的难题,故引起自己兴趣;于是找到相关的资料进行仔细研读;下面为大家分析一下其中的一些黑科技。

一图总览

在这里插入图片描述

古彝文识别的价值

作为世界六大古文字之一的,古彝文记录了几千年来人类发展历史。对于传统文化的研究有着非常重要的价值;彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护
在这里插入图片描述

传统古彝文识别的步骤&缺陷

传统分析古彝文识别的步骤

  • 获取古彝文原籍(其实并不容易获取)
  • 拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接
  • 接下来要对这些古籍进行断句和翻译,为了保护古籍,翻译家依照复印件来完成日常的翻译工作。如果彝语是译者的母语,他就可以自己将语句分开,加上国际音标;母语不是彝语的译者还需要在母语者的帮助下记音,再用汉语逐字直译,最后用流畅的汉语对整句话进行意译,这种方法称之为“四行法”,是丁文江和罗文笔翻译《爨文丛刻》时开创的,目前,彝文字还没有被数字化,还没有预留的Unicode编码区段,所以在印刷出版时需要由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成我们最终看到的四行体彝汉文对译

传统分析古彝文识别的缺陷

原籍难获取

原籍通常在布摩(彝族祭司)祖传书籍,一般来说他们是不愿意卖,布摩以卖书为耻辱,有的人在入葬时要求与自己的经书一同火化;
政府专员以及研究者需要反复动员和劝说,并且需要与古彝文传承人建立良好的关系,方能取得对方的信任与支持

翻译过程繁琐

获取原籍—>破损,粘连的原籍需要重新拼接—>断句和翻译

耗时长

《西南彝志》一共26卷,建国初首先由罗国义、王兴友两位先生进行汉译,用了10年时间。但这个开创性的译本由于诸多限制存在一定纰漏,所以毕节地区的第二代彝文翻译家王运权、王仕举等先生从上世纪八十年代开始主持修订校正工作,一共用了17年时间完成再版

古彝文识别难点

缺乏成熟手写样本库

彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响
在这里插入图片描述

笔画相近

其中彝文相关规范的汉译本中就有15%的变体字,原稿中就更多了;
在这里插入图片描述

有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字(左侧为酒 右侧为 仪礼 )
在这里插入图片描述

字符集庞大

未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难

字体字形变化较多

和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足

无统一标准

通过以上几点分析可以看出古彝文相比汉语来说一个非常难识别的点在于古彝文没有统一的标准

古彝文智能识别

优势

自动化

相比于传统的识别,自动化可以极大的节省人力物力;其中上海大学携手合合信息推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创

识别率高

相比于传统的识别智能识别率会越来的越高,之前有的古彝文研究员要花一整天时间(8小时以上)才能找到某个字在某本书里的全部样例。现在用机器来辅助识字后,平均差不多20个有代表性的样例,就可以达到较高的识别率,所以整个过程的人工付出只要30分钟就可以了。从8小时到30分钟,效率有显著提高。

累积效应

累积大数据,加之深度学习不断累积,使得古彝文的识别越来的越准确,形成增长飞轮;
合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。
虽然古彝文的识别研究尚处于起步阶段,但在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。
合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情:甲骨文和古彝文追溯源头都属于骨刻文,文字自骨刻文起,后发展出甲骨文、金文、小篆、隶书、楷书等,文字间的识别有相通之处,此次与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

关键技术的解析

交叉验证

交叉验证在图像识别,语音识别中作为重要的辅助手段对识别的准确率提高十分的有效;
比如:身份中前两位模糊不清,但是可以识别到地址,根据地址反推出身份证前两位;

智能图像处理

合合信息智能图像处理可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件

深度学习

合合信息基于深度学习的复杂场景文字识别可适应多语言、多版式、多样式等复杂场景,以进行文字提取;
文字识别高度依赖深度学习这一人工智能技术,深度学习可以对数据集中的示例进行归纳,进而做出识别。其中,数据集被称为训练数据,深度学习算法使用训练数据进行训练,生成可完成识别任务的深度学习模型。

自然语言处理

合合信息领先的自然语言处理(NLP)技术,对识别出的结果进行语义理解;NLP 可以简化并驱动古彝文识别流程自动化,利用 NLP,可以更好地分析古彝文数据,进而识别;其中在识别文字时一般会经过以下几步:
分词:将原始的文本切分为每个字或词
词袋模型:将识别到的文档视为无序的字或词的集合
无效词的删除:比如识别到的 的 等无效词进行删除
词干提取和词形还原:词干提取和词形还原可将字词映射至其词干形态,是预深度学习模型的关键步骤
词性标注和句法分析:词性 标注是指为每个字词标注词性(例如名词、动词、形容词等)的过程,句法分析则旨在识别字词如何组合成为短语、子句和整个语句

三大技术最强应用

国内外有很多家利用AI、OCR等技术对古籍进行数字化;我对这些公司的产品进行了调研,其中发现在这个领域深耕多年的合合信息不仅实战经验丰富积累深厚,而且与上海大学展开深入合作(合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对古彝文识别这些挑战)

总结

  • 在研究这些图像领域重大突破时,自己对图像识别有了更加全面深入的了解,并不断发现问题解决问题,不断成长;
  • 术业有专攻,合合信息这种成熟的平台在该领域深耕16年,有丰富的经验可以赋能开发者的业务,弘扬中华传统文化;
  • 中国已于2021年宣布实现全面小康,追求精神层面的富足是下一阶段的目标,对古彝文等古语言的保护是其中重要的一环。随着国学和非遗越来越热,我们有理由相信古彝文献和口传史诗所记载的那个的世界,无论是南诏古国、夜郎古国还是巴蜀古国,都可以通过传统媒体(诗朗诵、电影、音乐剧)和新兴媒体(元宇宙、IP主题乐园、浸入式戏剧)拓展文化体验的维度,将文字记载的历史作更富有魅力的呈现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式相关内容介绍—UML

统一建模语言(Unified ModelingLanguage,UML)是用来设计软件的可视化建模语言。它的特点是简单、统一、图形化、能表达软件设计中的动态与静态信息。 UML从目标系统的不同角度出发,定义了用例图、类图、对象图、状态图、活动图、时序图、协作图、构件图、…

经过2022年这大环境,我学会了如何管理我的领导

2022年这大环境,可以说是我干软件开发这些年来,经历的最残酷的一年,所以做为职场软件开发一员的我,不得不修炼一下真本事。 很多时候不是你不努力,不是你连mysql连的不溜,不是你布局页面布局的不精细&#…

16.Isaac教程--Codelets详解

Codelets详解 ISAAC教程合集地址: https://blog.csdn.net/kunhe0512/category_12163211.html 文章目录Codelets详解Codelets 和 tick接收消息传输消息方便的 ToProto/FromProto 函数配置参数应用程序 JSON子图姿态组件是机器人应用程序的基本构建块。 Isaac SDK 包含可在您的应…

「数据结构详解·九」图的初步

「数据结构详解一」树的初步「数据结构详解二」二叉树的初步「数据结构详解三」栈「数据结构详解四」队列「数据结构详解五」链表「数据结构详解六」哈希表「数据结构详解七」并查集的初步「数据结构详解八」带权并查集 & 扩展域并查集「数据结构详解九」图的初步 注意&…

基于JavaWEB SSM SpringBoot婚纱影楼摄影预约网站设计和实现

基于JavaWEB SSM SpringBoot婚纱影楼摄影预约网站设计和实现 博主介绍:5年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末…

天宝营养冲刺深交所IPO:业绩明显波动,深创投是股东

撰稿|汤汤 来源|贝多财经 近日,贝多财经发现,天宝动物营养科技股份有限公司(下称“天宝营养”)递交预披露更新招股书,准备在深圳证券交易所主板上市,红塔证券为其独家保荐人。本次冲刺上市,天…

《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享(16)

​《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》 本人能力有限,如果错误欢迎批评指正。 第四章:Protein Binding Leads to Biological Actions (蛋白质的结合会产生生物作用) -在变构中,…

大神推荐,这几个电脑实用技巧,让你电脑用起来更加流畅舒服

电脑在我们的日常生活中,往往承担着“办公学习”的作用!所以我们应该掌握哪些常用、好用的电脑使用技巧呢?今天就给大家分享下,我日常在使用电脑过程中,经常会使用到的几个电脑使用技巧!第一:快…

基于FPGA的UDP 通信(三)

目录 引言 设计框图 UDP接收模块 设计源码 TEST BENCH 仿真结果 引言 前文链接: 基于FPGA的UDP 通信(一) 基于FPGA的UDP 通信(二) 本文基于FPGA设计千兆以太网通信模块:FPGA接收上位机数据。后续…

端到端的传输协议

(一)如何在一条物理链路上进行有效和可靠的数据传输 ——数据链路层传输协议 (1)标识高层送下来的数据块的起止、特定内容(例如校验比特)的位置 ——组帧技术 (2)如何发现传输中的错…

数据结构---线性表

刘佳瑜*,王越 *, 黄扬* , 张钊* (淮北师范大学计算机科学与技术学院,安徽 淮北) *These authors contributed to the work equllly and should be regarded as co-first authors. 🌞欢迎来到数据结构的世界 🌈博客主页&#xff1…

回溯法--最大团问题

问题描述什么是最大团?最大团的定义?完全图:如果无向图中的任何一对顶点之间都有一条边,这种无向图称为完全图。完全子图:给定无向图G(V,E)。如果U⊆V,且对任意u,v⊆U 有(u,v) ⊆ E&…

ZigBee 3.0实战教程-Silicon Labs EFR32+EmberZnet-5-02:串口发送数据-hello world

【源码、文档、软件、硬件、技术交流、技术支持,入口见文末】 【所有相关IDE、SDK和例程源码均可从群文件免费获取,免安装,解压即用】 持续更新中,欢迎关注! 前面《ZigBee 3.0实战教程-Silicon Labs EFR32EmberZnet-5…

90 后学霸博士 8 年进击战:用机器学习为化工研究叠 BUFF

本文首发自微信公众号:HyperAI超神经 内容一览:ScienceAI 作为近两年的技术热点,引起了业界广泛关注和讨论。本文将围绕 ScienceAdvances 的一篇论文,介绍如何利用机器学习,对燃煤电厂的胺排放量进行预测。 关键词&…

初始化一个GCP项目并用gcloud访问操作

1 简介 谷歌云GCP(Google Cloud Platform)是由Google提供的云平台,还是为用户提供了许多免费的产品,还是可以尝试一下的。对于学习或者小项目,都可以使用。 2 创建一个新项目 要使用GCP,我们需要创建一个…

【日常业务开发】常用JSON库API

【日常业务开发】常用JSON库APIGsonJava 对象转 Json字符串(序列化)Json字符串转Java 对象(反序列化)FastJsonJava 对象转 Json字符串(序列化)Json字符串转Java 对象(反序列化)JacksonJava 对象转 Json字符串(序列化)Json字符串转Java 对象(反序列化)Json 字符串内容反序列化为…

计算机网络各层设备故障及可行的解决方案

计算机网络分层 我们采用某五层模型进行研究 根据有关资料的统计,网络发生故障具体分布为: 应用层占3%; 表示层占7%; 会话层占8%; 传输层占10%; 网络层占12%; 数据链路层占25%&#xff…

大数据开发-Linux操作

目录1.1 touch:创建空文件1.2 mv :move 剪切粘贴--重命名和移动功能1.3 cat命名:查看文件内容1.4 cp :copy 复制粘贴1.5 ps、kill、ifconfig、clear1.6 回顾:1.1 touch:创建空文件 touch a.txt b.txt — 创建空文件a.txt与b.txt touch /root…

数据结构与算法(二)——递归算法

目录 前言 递归算法 1、什么是递归算法 2、核心理念 3、代码演示 4、问题探讨:只递不归会怎样? 5、小结 递归实例:汉诺塔问题 1、故事引入 2、移动盘子的逻辑 3、N个盘子的移动分析 4、代码实现N个盘子的移动 5、汉诺塔移动次数计…

文本到图像模型,如何快速生成高质量图片? #Google Muse AI

AIGC 的存在,大大提高了创作者的生产效率,目前,市面上也出现了许多快速生成图像的 AI 图像模型。近日,谷歌的 Muse AI 系统亮相,使用 AI 生成图片又多了一个选择工具!Google Muse AI 图源:Muse …