前言
- 谈起图像识别自己颇有感触,因为之前的两段工作经历都和图像识别密切相关;之前一家公司的主营业务就是将历史上珍贵文献进行数字化;上家公司自己负责图像识别模块相关的工作;不但使用了第三方平台产品而且进行了自建,所以对图像识别中的难点有深入且全面的了解;
- 在工作过程中研究并分析线上大量真实case,遇到很多识别错误情况,如:拍照时光线角度问题,手机本身像素低,身份证磨损严重等;
- 之前的博文《图像识别平台建设之路(自建+三方产品)》中提到在上家公司中进行了图像识别自研及几家调研的平台对比情况,其中在调研的过程中就看到了一家优秀的公司合合信息;一直在关注这家公司的一些动态,发现该公司最近携手上海大学进行了彝文古籍研究,由于少数民族语言识别一直是一个比较大的难题,故引起自己兴趣;于是找到相关的资料进行仔细研读;下面为大家分析一下其中的一些黑科技。
一图总览
古彝文识别的价值
作为世界六大古文字之一的,古彝文记录了几千年来人类发展历史。对于传统文化的研究有着非常重要的价值;彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护
传统古彝文识别的步骤&缺陷
传统分析古彝文识别的步骤
- 获取古彝文原籍(其实并不容易获取)
- 拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接
- 接下来要对这些古籍进行断句和翻译,为了保护古籍,翻译家依照复印件来完成日常的翻译工作。如果彝语是译者的母语,他就可以自己将语句分开,加上国际音标;母语不是彝语的译者还需要在母语者的帮助下记音,再用汉语逐字直译,最后用流畅的汉语对整句话进行意译,这种方法称之为“四行法”,是丁文江和罗文笔翻译《爨文丛刻》时开创的,目前,彝文字还没有被数字化,还没有预留的Unicode编码区段,所以在印刷出版时需要由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成我们最终看到的四行体彝汉文对译
传统分析古彝文识别的缺陷
原籍难获取
原籍通常在布摩(彝族祭司)祖传书籍,一般来说他们是不愿意卖,布摩以卖书为耻辱,有的人在入葬时要求与自己的经书一同火化;
政府专员以及研究者需要反复动员和劝说,并且需要与古彝文传承人建立良好的关系,方能取得对方的信任与支持
翻译过程繁琐
获取原籍—>破损,粘连的原籍需要重新拼接—>断句和翻译
耗时长
《西南彝志》一共26卷,建国初首先由罗国义、王兴友两位先生进行汉译,用了10年时间。但这个开创性的译本由于诸多限制存在一定纰漏,所以毕节地区的第二代彝文翻译家王运权、王仕举等先生从上世纪八十年代开始主持修订校正工作,一共用了17年时间完成再版
古彝文识别难点
缺乏成熟手写样本库
彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响
笔画相近
其中彝文相关规范的汉译本中就有15%的变体字,原稿中就更多了;
有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字(左侧为酒 右侧为 仪礼 )
字符集庞大
未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难
字体字形变化较多
和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足
无统一标准
通过以上几点分析可以看出古彝文相比汉语来说一个非常难识别的点在于古彝文没有统一的标准
古彝文智能识别
优势
自动化
相比于传统的识别,自动化可以极大的节省人力物力;其中上海大学携手合合信息推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创
识别率高
相比于传统的识别智能识别率会越来的越高,之前有的古彝文研究员要花一整天时间(8小时以上)才能找到某个字在某本书里的全部样例。现在用机器来辅助识字后,平均差不多20个有代表性的样例,就可以达到较高的识别率,所以整个过程的人工付出只要30分钟就可以了。从8小时到30分钟,效率有显著提高。
累积效应
累积大数据,加之深度学习不断累积,使得古彝文的识别越来的越准确,形成增长飞轮;
合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。
虽然古彝文的识别研究尚处于起步阶段,但在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。
合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情:甲骨文和古彝文追溯源头都属于骨刻文,文字自骨刻文起,后发展出甲骨文、金文、小篆、隶书、楷书等,文字间的识别有相通之处,此次与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。
关键技术的解析
交叉验证
交叉验证在图像识别,语音识别中作为重要的辅助手段对识别的准确率提高十分的有效;
比如:身份中前两位模糊不清,但是可以识别到地址,根据地址反推出身份证前两位;
智能图像处理
合合信息智能图像处理可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件
深度学习
合合信息基于深度学习的复杂场景文字识别可适应多语言、多版式、多样式等复杂场景,以进行文字提取;
文字识别高度依赖深度学习这一人工智能技术,深度学习可以对数据集中的示例进行归纳,进而做出识别。其中,数据集被称为训练数据,深度学习算法使用训练数据进行训练,生成可完成识别任务的深度学习模型。
自然语言处理
合合信息领先的自然语言处理(NLP)技术,对识别出的结果进行语义理解;NLP 可以简化并驱动古彝文识别流程自动化,利用 NLP,可以更好地分析古彝文数据,进而识别;其中在识别文字时一般会经过以下几步:
分词:将原始的文本切分为每个字或词
词袋模型:将识别到的文档视为无序的字或词的集合
无效词的删除:比如识别到的 的 等无效词进行删除
词干提取和词形还原:词干提取和词形还原可将字词映射至其词干形态,是预深度学习模型的关键步骤
词性标注和句法分析:词性 标注是指为每个字词标注词性(例如名词、动词、形容词等)的过程,句法分析则旨在识别字词如何组合成为短语、子句和整个语句
三大技术最强应用
国内外有很多家利用AI、OCR等技术对古籍进行数字化;我对这些公司的产品进行了调研,其中发现在这个领域深耕多年的合合信息不仅实战经验丰富积累深厚,而且与上海大学展开深入合作(合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对古彝文识别这些挑战)
总结
- 在研究这些图像领域重大突破时,自己对图像识别有了更加全面深入的了解,并不断发现问题解决问题,不断成长;
- 术业有专攻,合合信息这种成熟的平台在该领域深耕16年,有丰富的经验可以赋能开发者的业务,弘扬中华传统文化;
- 中国已于2021年宣布实现全面小康,追求精神层面的富足是下一阶段的目标,对古彝文等古语言的保护是其中重要的一环。随着国学和非遗越来越热,我们有理由相信古彝文献和口传史诗所记载的那个的世界,无论是南诏古国、夜郎古国还是巴蜀古国,都可以通过传统媒体(诗朗诵、电影、音乐剧)和新兴媒体(元宇宙、IP主题乐园、浸入式戏剧)拓展文化体验的维度,将文字记载的历史作更富有魅力的呈现