探索古彝文的秘密,AI实现古籍传承

news2024/12/29 9:22:04
陈老老老板🤴
🧙‍♂️本文专栏:生活(主要讲一下自己生活相关的内容)生活就像海洋,只有意志坚强的人,才能到达彼岸。
🧙‍♂️本文简述:最新资讯,合合信息扫描全能王实现古彝文识别,对文化的发展起到传承作用,本篇给大家讲解一下
🧙‍♂️上一篇文章: 年度总结-你觉得什么叫生活?
🦹有任何问题,都可以私聊我,在文章最后也可以加我的wx。感谢支持!
🦹我认为人人都可以学好编程,我愿意成为你的领路人!

在这里插入图片描述

文章目录

  • 👨‍🎓前言
  • 一、古彝文的深度探索
    • 1.古彝文简介
    • 2.古彝文传承坎坷之路
    • (1)古彝文原籍获取难
    • (2)古彝文原籍保存难
    • (3)古彝文原籍翻译难
  • 二、AI实现古籍传承
    • 1.国内文字识别技术的探索
    • 2.古彝文识别的难点
    • 3.合合信息开辟国产古文字识别技术新征程
  • 三、古彝文识别的意义
  • 四、👩‍🎓总结

👨‍🎓前言

随着社会的进步与文化传承的发展,新时代的年轻人展现出无比强烈的文化自信。中华文化源远流长、一脉相承,在这个强调文化自信的时代,我们不得不更加重视文化传承的历史任务,而今天,文化传承的接力棒已经交到的新一代年轻人的手中。但是古文字文化传承方面的工作目前还有待提升,其原因就在于在探索古文字释义的过程中有诸多困难,即使有大量的古文字书籍供人们阅览,但是大部分人对这部分文化少有研究,因此使得古文字文化的传承困难重重。而随着AI文字识别技术的发展,该项技术对古籍的数字化已经有了突破性的进展,这使得人们有更便捷、更先进的工具去探索古文字的秘密!本篇给大家介绍一家企业——合合信息,联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库。旗下的扫描全能王“智能高清滤镜”功能,也高效解决古彝文图像电子化的问题。。本篇给大家介绍:合合信息-扫描全能王实现古彝文识别技术。

一、古彝文的深度探索

1.古彝文简介

彝文简介: 彝文指的是云南、贵州、四川等地的彝族人使用的文字,是彝族千百年来使用仍通行的表意文字。彝文产生于新石器时代到铁器时代之间,经历了文字发展的必经阶段,彝文典籍的内容涉及范围非常广泛,天文、地理、政治、经济、军事、医学、算术、地形、地貌、生物、农牧等无所不泰,其中蕴含着大量的生产与生活的技能智慧,是彝族人民开发利用所在地自然资源的经验总结和科学的结晶。

区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一

在这里插入图片描述

2.古彝文传承坎坷之路

随着历史进程的不断前进,古籍的存在也变得越来越少。部分了解古彝文的长者也相继去世,这使得古彝文的研究工作变得难上加难。

(1)古彝文原籍获取难

古彝文原籍的获取非常不易,这与彝族人民的风俗文化息息相关,彝族祭司(布摩)通常不愿意外借祖传书籍,认为外借书籍是可耻的行为,所以研究者要想通过研究古彝文原籍来丰富和拓展古彝文资料是非常困难的。然而在一些研究者和专业人士的努力下,一些持有古彝文原籍的人会愿意转让部分典籍,同时也有一些致力于推广传统文化、已消除禁忌理念的人士愿意转让经书,这才使得研究者们能有更多的古彝文原籍用以研究.。

在这里插入图片描述

(2)古彝文原籍保存难

首先,受一些环境等不可控因素的影响,古彝文典籍在保存的过程当中十分不易,虽然在历史发展的过程中彝族人民创造出“封底裹卷装”等方式来保存古籍,但是能完好无缺保存下来的古籍却十分稀少,大部分古籍在流传的过程中或多或少都有残缺,识别起来较为艰辛。其次,部分古籍会有残缺、粘滞等问题,需要研究者进行分页、粘贴、重新拼接等,这对工作人员的研究进度造成极大阻碍。

在这里插入图片描述

(3)古彝文原籍翻译难

一般的古籍翻译时间在一到两年之内,具体时长又会根据古籍的难度和文字量不同而定。但是建国之初由罗国义、王兴友两位先生进行汉译的《西南彝志》(共26卷)却花了十年的时间完成翻译工作,此后王运权、王仕举等先生又花了17年才完成修订校正工作,可见古彝文原籍翻译工作十分艰难。不仅如此,古彝文的某些字符可以对应多个解释,多个字符对应一个解释,并且它的字符具有多样性和复杂性,没有统一的规范形式,因此在翻译的过程中会出现词句不通顺等情况。

在这里插入图片描述

二、AI实现古籍传承

1.国内文字识别技术的探索

  • 摸索阶段(1979-1985年):在这个阶段,国内的一些研究者开始对汉字识别方法进行探索和尝试。这一阶段的研究主要基于对数字、英文和符号的识别研究,并开发了少量的模拟识别系统和软件。
  • 研究开发阶段(1986-1988年):这个阶段是汉字识别技术的研究高潮期,也是印刷体汉字识别技术研究的丰收期。总共有11个单位进行了14次印刷体汉字识别的成果分析鉴定,这些系统对样张识别能达到高指标,可以识别宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别速度在286微机条件下能够达到10~14字/秒。然而,这些系统对真实文本的识别率却比较低,主要原因是系统对印刷体文字不同形状发生变化(如文字模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性较差。
  • 落地实用阶段(1989年至今):自1986年印刷体汉字识别(文字识别)掀起高潮以来,部分高校与企业研制并开发出了实用化的印刷体汉字识别网络系统。这一阶段中,除了对文字的识别,研究者们还开始关注表格的自动识别录入、名片识别、通用票据识别、图文混排及多语种混排分析、文档版面分析与识别、古文字识别等。随着技术的不断成熟,越来越多的文字OCR识别场景得以落地使用。

2.古彝文识别的难点

随着AI技术的成熟,古文字识别也通过AI技术变得更加方便、简单,但是对于古彝文来讲,依然有以下几种难点:

  • 古彝文在不同地区间具有差异性,彝族人民主要分布和活动于云南、贵州、四川地区,尽管他们之间的字符大同小异,但是又由于地理位置、风俗文化等因素的影响,使得不同地区间部分相似字符具有不同含义。
  • 古彝文原籍的保存具有残缺性,由于部分地区的保存原籍的技术并不完善,因此大多数样本有残缺、遮挡、模糊、褶皱、霉斑污渍、墨色深浅等问题,使得AI技术在识别古彝文字符的过程中无法精确且完整地表达出字符的含义。
  • 古彝文的数据量具有不完整性,古彝文的数字化进程还处于探索阶段,针对于古彝文的还没有预留的Unicode编码区段,同时也没有公开且统一的数据集,相关的数据和资料十分地缺乏,导致大模型的训练缺少可用资料,同时AI学习需要一个相对固定的编码,这成为AI古彝文识别的最大障碍。

3.合合信息开辟国产古文字识别技术新征程

合合信息的扫描全能王是最为出色的产品之一,智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理三大核心模块组成。其中,合合信息的智能图像处理技术,能够对样本进准识别,即使是有部分遮挡、阴影、指纹或反光等问题, 该项技术也能够对文档图像进行精准的矫正处理,从而有效识别文字信息。其次,合合信息的复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

智能识别技术的实现离不开图像处理为基础,通过智能扫描引擎AI-Scan的支持,实现了对信息的自动识别、分类和提取的功能,从而实现图像感知与场景化决策。对于图像中光照、阴影、颜色和倾斜角度等问题,扫描全能王能够只能地决策如何优化文档的图像,使用深度学习模型来识别和理解图像的内容,再根据图像感知的结果,从而进行通识性、场景化的判断
在这里插入图片描述

古文字识别技术的探索一直都是艰辛的,而合合信息另辟蹊径通过与上海大学、华南理工大学共同推进的“原生态古彝文”研究项目,以四字节编码系统为基础,标注异体字、变体字、误用字和混用字,以此精确建立彝文古籍电子数据库,为机器学习建立丰富数据样本库。针对现有的《西南彝志》之前没有统一编码的问题,合合信息对古彝文字进行了统一编码,对古彝文数字化进程以及未来文字传播起到极大推动作用,此举为国内首创。AI训练数据量较之前也有了极大提高,同时样本量7万6千字符训练,能够有效识别相关古彜文,AI识别古彝文技术逐步成熟发展

三、古彝文识别的意义

文化传承让人们能够对过去的文化成就有更为深入的了解和认识,从而更好地塑造自己的文化身份和认同感。古彝文作为我国特有文化遗产,是国内文化的瑰宝,是中国文化必不可少的部分,学习古彝文不仅是彝族人民的专属,更是我们深入了解彝族文化的中介,这有利于丰富我国文化的多样性,增强各个民族文化间的交流,促进民族文化大繁荣

古彝文作为彝族文化的重要载体,是我们了解彝族文化的重要的工具。通过对古彝文的研究,能够为我们学习彝族文化提供强有力的支撑,丰富传统文化的内容,并将有关于彝族的数据资料和史实建立在对古彝文字研究的基础之上。因此,古彝文的传承不仅是对彝族文化的保护,更是对彝族文化的弘扬和发展的促进。

四、👩‍🎓总结

虽然合合信息对古彝文AI识别的技术尚处于初期阶段,但是这也对古彝文数字化进程的发展起到重要的推动作用,相信通过技术的不断完善,古彝文的识别会变得更加便捷、高效、准确。愿国产AI识别技术越来越先进,为我国的文化传承事业提供坚实的保障!

最后,在中秋佳节,我在这用古彝文向大家表示衷心的祝福,祝大家:喜乐安康,岑静无妄!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1063669.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sigmoid和softmax函数有什么区别

Sigmoid函数和Softmax函数都是常用的激活函数,但它们的主要区别在于应用场景和输出结果的性质。 Sigmoid函数(也称为 Logistic函数): Sigmoid函数将输入值映射到0到1之间的连续实数范围,通常用于二元分类问题。 Si…

U-Net神经网络简明教程

推荐:用 NSDT编辑器 快速搭建可编程3D场景 在我们进入技术细节之前,考虑一下,为什么要使用 U-Net? 你可能在搜索语义分割时遇到过这一点,我很快就会写一篇博客,然后再看看这个。 制作此架构的初衷是用于生物…

Spring MVC程序开发(JavaEE进阶系列3)

目录 前言: 1.什么是Spring MVC 1.1MVC的定义 1.2MVC和Spring MVC的关系 1.3为什么要学习Spring MVC 2.Spring MVC项目的创建 3.Spring MVC框架的使用 3.1连接的功能 3.1.1RequestMapping 3.1.2GetMapping 3.1.3PostMapping 3.2获取参数的功能 3.2.1获…

罗彻斯特大学探讨ChatGPT等人工智能将如何影响高等教育

人工智能聊天机器人ChatGPT持续引起互联网用户的热议,它能够回答关于各个领域的问题,创作歌曲、食谱,起草电子邮件等等。罗切斯特的教职员工和管理人员就他们如何处理 ChatGPT 以及它如何影响未来的教学和学习提出了他们的想法。 “让这项技…

基于Java的新能源汽车在线租赁平台设计与实现(源码+lw+ppt+部署文档+视频讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

基于ChatGPT快速入门体验NLP词云

基于ChatGPT快速入门体验NLP词云 一、什么是自然语言处理二、自然语言处理和词云的关系三、Python环境准备四、基于ChatGpt制作词云4.1 ChatGPT生成初级词云代码4.2 ChatGPT生成进阶词云代码4.3 基于ChatGPT解决代码问题4.4 基于ChatGPT建议修改问题代码 一、什么是自然语言处理…

c语言进阶部分详解(详细解析字符串常用函数,并进行模拟实现)

前段时间也是把指针较为详细系统的讲解完毕,接下来介绍一个全新的知识点,就是字符函数和字符串函数 前几期文章可进我主页观看:总之就是非常唔姆_Matlab,经验分享,c语言题目分享-CSDN博客 想要源代码可以去我的github看看:Neros…

教你拥有一个自己的QQ机器人!0基础超详细保姆级教学!基于NoneBot2 Windows端搭建QQ机器人

0.序言 原文链接:教你本地化部署一个QQ机器人本教程主要面向Windows系统用户教程从0开始全程详细指导,0基础萌新请放心食用🍕如果你遇到了问题,请仔细检查是否哪一步有遗漏。如果你确定自己的操作没问题,可以到原文链…

苹果macbook电脑磁盘满了怎么清理内存

如果你是苹果macbook用户,可能会面临一个常见但又令人头疼的问题——磁盘空间不足。这不仅影响了你的电脑性能,还可能导致新的软件无法安装,甚至影响到文件的保存。好消息是,有多种方法可以有效地解决这个问题。下面就一起来看看吧…

【100个 Unity实用技能】☀️ | UGUI Text中加入超链接文本,可直接点击跳转

Unity 小科普 老规矩,先介绍一下 Unity 的科普小知识: Unity是 实时3D互动内容创作和运营平台 。包括游戏开发、美术、建筑、汽车设计、影视在内的所有创作者,借助 Unity 将创意变成现实。Unity 平台提供一整套完善的软件解决方案&#xff…

unity脚本_Input鼠标键盘 c#

获取鼠标坐标 检测鼠标输入 如果在运行游戏场景中点击一下鼠标左键 检测鼠标抬起 选中即可 检测键盘按下 当前屏幕分辨率 注意:获取的是显示器的分辨率 获取设备屏幕宽高 屏幕休眠模式 窗口/全屏模式 移动设备屏幕转向

【C语言】字符函数和字符串函数(1)

#国庆发生的那些事儿# 大家好,我是苏貝,本篇博客带大家了解字符函数和字符串函数,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 1.本章重点2. strlen2.1函数介绍2.2 模拟实现 3. strcpy3…

第八章 排序 六、简单选择排序

目录 一、算法思想 二、例子 1、我们有以下序列要排序 2、首先从左往右扫描,在其中找到最小的一个数,让它与第一个数互换位置 3、此次扫描完成后,我们取新的子序列,并再次从左往右扫描,在其中找到最小的一个数&…

makeMakefile

一、 什么是make&Makefile ? ①make 是一条命令,makefile是一个文件,配合使用,通过依赖关系和依赖方法达到我们形成可执行程序的目的 ②makefile好处就是可以进行 自动化编译 ” ,极大的提高软件开发的效率,一旦写好,只需要一个 make 命令…

推荐一款在线的JDK17中文文档

spring6.0及springboot3.0最低版本要求都是java17,换上java17是迟早的事,所以虽然我现在做的是java8,但是后面我想从java8直接飞升到java17,先做个准备,找到一个JDK17的中文文档,是在线的,地址&…

数据结构刷题训练——二叉树篇(一)

📙作者简介: 清水加冰,目前大二在读,正在学习C/C、Python、操作系统、数据库等。 📘相关专栏:C语言初阶、C语言进阶、C语言刷题训练营、数据结构刷题训练营、有感兴趣的可以看一看。 欢迎点赞 &#x1f44d…

学习记忆——方法篇——整除特点

理解记忆法 对于数的整除特征大家都比较熟悉:比如4看后两位(因为100是4的倍数),8看后三位(因为1000是8的倍数),5末尾是0或5,3与9看各位数字和等等,今天重点研究一下3,9,…

创新家庭办公室:打造完美工作空间的秘诀

一个精心策划的家庭办公室有很多好处,何不把临时工作区升级改造为你的专属工作区呢,还能为这些至关重要的区域注入新的活力。 创造多用途的起居室:我们大多数人都不曾拥有一个可以完全根据工作需求设计的独立家庭办公室——所以有时候要找到…

目标检测算法改进系列之Backbone替换为RIFormer

RIFormer简介 Token Mixer是ViT骨干非常重要的组成成分,它用于对不同空域位置信息进行自适应聚合,但常规的自注意力往往存在高计算复杂度与高延迟问题。而直接移除Token Mixer又会导致不完备的结构先验,进而导致严重的性能下降。 原文地址&…

Pytorch之shuffleNet图像分类

💂 个人主页:风间琉璃🤟 版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦 前言 ShuffleNet是Face(旷视)在2017年发布的一个高效率…