探索古彝文AI识别技术:助力中国传统文化的传承与发扬

news2024/11/16 1:57:00

目录

⭐️ 写在前面

⭐️ 一、什么是古彝文

1.1 古彝文介绍

1.2 古彝文与其他古文字示例

1.3  古彝文的重要性

⭐️二、AI识别技术的挑战与前景

2.1 挑战

2.2 前景

⭐️三、合合信息AI识别技术

3.1 智能文字识别技术👍👍

3.2 古文识别应用

⭐️四、AI技术效果

4.1 猜字识字

4.2 AI文档能力修复古籍

⭐️五、中秋祝福💝🫶


⭐️ 写在前面

随着科技的不断发展,OCR(Optical Character Recognition,光学字符识别)技术在各个领域得到了广泛应用。

-

近年来,古彝文作为一种具有悠久历史和独特魅力的文字,逐渐受到了学者们的关注。探索古彝文识别OCR技术,不仅有助于挖掘、整理和传承中国传统文化,还能为现代科技与文化的交流搭建桥梁。

⭐️ 一、什么是古彝文

1.1 古彝文介绍

彝文指的是云南、贵州、四川等地的彝族人使用的文字,其造字、使用方法在不同的区域之间表现出明显的差异。

1980年发布的四川规范彝文有819字,2012年发布的滇川黔桂通用彝文有5598字。

这两种彝文主要用于现代语境,在仪式、节庆、旅游景点等场合彰显彝族非物质文化遗产的传承,或用于民族地区相关政策和宣传文件的翻译,以及当代母语作家文学的创作。

区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。

彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。

下图是毕节市彝文文献翻译研究中心展示古籍修复原件

下图是毕节市彝文文献翻译研究中心展示汉译书稿

1.2 古彝文与其他古文字示例

如下图所示,分别是:

  • 古埃及文字
  • 古埃及象形文章
  • 象形文
  • 古彝文字义
  • 古彝文字

可以看到,古彝文与其他古文字中可能存在某些相似关联

1.3  古彝文的重要性

对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。

⭐️二、AI识别技术的挑战与前景

AI技术在古彝文识别方面有着巨大的潜力,但也面临一些挑战。可以分为以下几个方面:

  1. 版式多样,文字识别存在挑战
  2. 手写风格差异很大,手写识别难
  3. 彝文古籍图像质量差
  4. 彝文字笔画相近,增加AI识别难度

2.1 挑战

2.1.1 版式多样

汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象,这样会给文字定位造成挑战。

2.1.2 手写识别难

和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。

👇

古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足。

2.1.3 图像质量差

汉文和彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响图像质量问题。

此外,由于彝文古籍的保存环境更为艰苦,文本还呈现墨色深浅不一、字符间距和行距大小不一的情况。合合信息智能文字识别技术可对图像质量进行增强,提升文字识别效率与准确性。

2.1.4 笔画相近,增加识别难度:

彝文字从来没有统一过,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,也即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。

比如:下图中表示“种类”的彝文字[mo21]/[mɯ33]的四个变体(邵文苑供图)

比如下面两个形似,但是确实两个完全不同的文字,分别为“酒”、“仪礼”

2.1.5 异体众多

古彝文每个字的异体写法少则2-3个,多则几十种,前文已提及未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难。

除此以外,彝文古籍还存在“同音字混用”的现象:为了不使某些字的写法失传,布摩会在抄写两句重复经文时,会故意让第一句话采用本字,而在第二句中的相同位置用同音字来替换,合合信息智能文字识别技术将有助于应对文字识别中“理解、认知”层面的难题。

2.2 前景

随着科技的不断发展,这些挑战是可以克服的。古彝文是中国传统文化中的重要组成部分,其传承与发扬具有深远的意义。

AI识别技术为古彝文的识别和传承提供了有力的工具,可以帮助我们更好地理解和传承彝族文化。通过AI识别技术,我们可以将古彝文带入数字时代,为中国传统文化的传承和发扬做出新的贡献,让这一宝贵的文化遗产得以继续传承下去。

⭐️三、合合信息AI识别技术

3.1 智能文字识别技术👍👍

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。

其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获16项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。

3.2 古文识别应用

合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。

虽然古彝文的识别研究尚处于起步阶段,但在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。

在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

校企合作

2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,旨在完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”。

👏👏👏👏

双方将不断探索用智能文字识别技术赋能海量古彝文原籍数字化的道路,这一工作在民族传统文化日渐濒危的当下有着独特的意义。

合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情:甲骨文和古彝文追溯源头都属于骨刻文,文字自骨刻文起,后发展出甲骨文、金文、小篆、隶书、楷书等,文字间的识别有相通之处。

此次与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

⭐️四、AI技术效果

4.1 猜字识字

合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成,此基础编码将帮助后续古彜文的检测、识别、标注,帮助学者解读更多古彜文古籍。

4.2 AI文档能力修复古籍

AI文档能力修复古籍呈现高清

  • 利用智能高清滤镜将古籍水印、残旧等痕迹去除复现高清古籍
  • 相关识别及古彜文编码仍在测试完善中

⭐️五、中秋祝福💝🫶

中秋快到啦,我们用古彝文写一个中秋祝福吧!来看下🙉🙉

猜猜这是什么意思?👇👇

哈哈哈,肯定猜不到,这个祝福送给大家:✌️✌️😘

愿:

身体倍棒,

多吃多走多看看,

少病少痛少感冒

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1047936.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于微信小程序的高校暑期社会实践小程序设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言系统主要功能:具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计…

堆的原理以及实现O(lgn)

大家好,我是蓝胖子,我一直相信编程是一门实践性的技术,其中算法也不例外,初学者可能往往对它可望而不可及,觉得很难,学了又忘,忘其实是由于没有真正搞懂算法的应用场景,所以我准备出…

uCOSIII实时操作系统(重入函数,调度算法,嵌入式系统中断)

目录 可重入函数和不可重入函数: 基于优先级的调度算法: 嵌入式系统中断: 可重入函数和不可重入函数: 函数可重入是指一函数可以被多个任务调用,而不需要担心在任务切换的过程中,代码的执行会产生错误的…

实用网站合集

目录 1.工具网站合集2.技术类合集1.技术网站2.C3.计算机相关4.Java5.前端 收藏夹里有很多好用的网站,分类整理下,方便日后使用。 1.工具网站合集 阿里巴巴图标库:图标资源。pexels:壁纸、视频。unsplash:壁纸。pixabay…

基于cv2识别图像实现jd滑动块验证

这里写目录标题 出现条件:解决方案:获取滑动的距离滑动验证 本教程无任何意向,纯纯的技术娱乐 虽然小概率出现问题,加入重试机制后,基本没出现过问题 注意:这里获取的距离与实际的距离不相同,本…

mysql面试题1:MySQL有哪些常见存储引擎?MySQL默认是哪个存储引擎?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:MySQL有哪些常见存储引擎? MySQL有以下几种常见的存储引擎&#xff1…

智慧公厕自动化保洁系统,让公共厕所实现7*24 持续整洁

随着科技的不断进步,越来越多的创新方案应用于各个领域,公共厕所的智慧化也不例外。本文重点介绍智慧公厕源头厂家广州中期科技有限公司,大量案例项目中所使用的智慧公厕自动化保洁系统,能有效地节省人力,并保持公共厕…

抽象轻松的java——简单的购物车系统

public class GoodsShop {public static void main(String[] args) {System.out.println("欢迎来到购物车管理系统");obj [] arr new obj[50];//obj[50]为购物车的数量上限obj obj new obj();//调用objScanner scanner new Scanner(System.in);//输入while (true)…

【C++14保姆级教程】数位分割符、函数返回值推导

文章目录 前言一、数位分割符(Digit Separators)1.1 数位分割符是什么?1.2 作用1.3 示例代码11.4 示例代码21.5 数位分隔符的优势 二、函数返回值推导(Function Return Type Deduction)2.1 函数返回值推导是什么&#…

[NOIP2011 提高组] 铺地毯

[NOIP2011 提高组] 铺地毯 题目描述 为了准备一个独特的颁奖典礼,组织者在会场的一片矩形区域(可看做是平面直角坐标系的第一象限)铺上一些矩形地毯。一共有 n n n 张地毯,编号从 1 1 1 到 n n n。现在将这些地毯按照编号从小…

【LeetCode热题100】--142.环形链表II

142.环形链表II 使用哈希表: 遍历链表中的每个节点,并将它记录下来,一旦遇到了此前遍历过的节点,就可以判定链表中存在环 /*** Definition for singly-linked list.* class ListNode {* int val;* ListNode next;* …

Unity Urp无线延申的网格效果

无线延申的网格 该项目必须是再Urp项目 shader代码实现 Shader "Unlit/infTutorial1" {Properties{_Alpha ("Alpha", Range(0, 0.5)) 0.5}SubShader{Tags{"RenderPipeline""UniversalRenderPipeline""RenderType""…

操作系统监控工具

在当今复杂、动态的网络环境中,服务器管理员根据其要求在各种操作系统上工作,操作系统是管理硬件和软件资源的基本系统软件,它是硬件与您运行的不同应用程序之间的接口,保持操作系统更新至关重要,最重要的是&#xff0…

SDI-12协议与STM32 进行uart通信

场景是用stm32与一款温湿度传感器通信,不过是基于SDI-12协议,SDI-12时序和UART类似,故采用UART传输,原理图如下 其中DIR_OUT_SDI是一个IO引脚,控制UART_TX_SDI是否使能,U10是三态门IC,即拉低DIR…

测试网页调用本地可执行程序(续1:解析参数中的中文编码)

学习测试网页调用本地可执行程序还遗留一个问题&#xff0c;即网页中调用带中文参数的命令时&#xff0c;本地可执行程序接收到的参数字符串里的中文都转换成了编码模式&#xff0c;看起来如下所示&#xff1a; <a href TestPageCall:-a你好>启动测试程序</a><…

destoon根据查询标题小于5个字符的数据进行删除

最近客户有个需求&#xff0c;就是他采集的时候&#xff0c;标题有些小于5字符的短标题的垃圾数据&#xff0c;进行清空处理&#xff0c;让我进行批量删除。废话不多说&#xff0c;接着干。 首先在dt根目录新建delmysql.php文件&#xff0c;代码如下&#xff1a; <?php r…

机器学习——KNN算法流程详解(以iris为例)

目 录 前情说明 问题陈述 数据说明 KNN算法流程概述 代码实现 前情说明 本书基于《特征工程入门与入门与实践》庄家盛 译版P53也K最近邻&#xff08;KNN&#xff09;算法进行讲解 问题陈述 Iris 鸢尾花数据集内包含 3 类分别为山鸢尾&#xff08;Iris-setosa&#xff09…

99%的亚马逊运营都不知道爆单小技巧——社媒促销代码

社交媒体促销代码是促进产品在亚马逊上销售的最有效推广方式之一&#xff0c;有了这个营销工具&#xff0c;卖家可以在社交媒体上宣传您的产品&#xff0c;并通过社交媒体和网红营销内容将促销代码分享给买家&#xff0c;进行更具针对性的促销。 一、什么是社交媒体促销代码 社…

BoxUVMap处理参考

该Shader的目标是让物体的位置作为UV&#xff0c;在物体自身UV没有正确展开的情况下保证物体各个面能够避免贴图拉伸&#xff0c;比较适合Box型的物体。本来Position节点和Normal Vector节点应该选择Object选项&#xff0c;但是当时选择了World选项&#xff0c;主要是应对项目的…

在亚马逊云科技Amazon SageMaker上部署构建聊天机器人的开源大语言模型

开源大型语言模型&#xff08;LLM&#xff09;已经变得流行起来&#xff0c;研究人员、开发人员和组织都可以使用这些模型来促进创新和实验。这促进了开源社区开展合作&#xff0c;从而为LLM的开发和改进做出贡献。开源LLM提供了模型架构、训练过程和训练数据的透明度&#xff…