人工智能助力古彝文识别,推动传统文化传承

news2025/1/11 11:44:50

人工智能助力古彝文识别,推动传统文化传承

    • 0. 前言
    • 1. 古彝文
      • 1.1 古彝文介绍
      • 1.2 古彝文识别的重要意义
      • 1.3 古彝文识别的挑战
    • 2. 古彝文识别国内外研究进展
    • 3. 基于深度学习的古彝文识别
      • 3.1 深度学习简介
      • 3.2 基于深度学习的古彝文识别模型架构
    • 4. 古彝文识别进展与展望
    • 小结
    • 相关链接

0. 前言

古彝文作为世界上最古老的文字之一,记录了人类几千年来的发展历史。古彝文识别研究能够将珍贵的古彝文文本文献转换为电子文件,更加便于其保存和传承。但由于历史发展、区域限制等诸多要素,针对古彝文识别的研究工作一直进展缓慢。本文介绍了如何将新颖的深度学习技术应用于古老文字的识别上,介绍了合合信息如何解决古彝文识别中的困难与挑战。依托于合合信息在古文字识别领域的积累,相对于传统古彝文识别模型,合合信息携手上海大学提出的基于深度学习的古彝文识别模型能够以更高的精度识别古彝文手写体,极大的提高了古彝文识别的准确率。

1. 古彝文

1.1 古彝文介绍

彝族有着古老灿烂的文化,它记录并保存了卷帙浩繁的典籍,是中华传统文化宝库中的重要组成部分。

古彝文
1980 年发布的四川规范彝文共有 819 字,2012 年发布的滇川黔桂通用彝文共有 5598 字,而与这些演化到现代的规范彝文不同,古彝文是指民间流通使用的原生态彝文,据《滇川黔桂彝文字集》统计,这些古彝文多达 87046 字。由于古彝文典籍通常记录于石刻、岩画、木牍和纸书之上,由于年代久远,通常较为模糊甚至有所残缺,这为古彝文的识别带来了极大的挑战。

古埃及象形文字字义
古埃及象形文字(约 3200 BC—AD 400)在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
象形文基础上演化的古埃及僧侣体草书在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
象形文基础上演化的古埃及僧侣体草书在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
古彝文字义
古彝文字在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

1.2 古彝文识别的重要意义

随着时间的流逝,许多古文字都渐渐消失在历史的长河中,而古彝文是少有仍在使用的文字。对古彝文高效的识别对于古彝文的整理和翻译工作而言都有着重要意义,不仅能够帮助理解尚未被翻译为汉文或者并不规范的古籍,而且能够更实际的保护传统文化。目前,古彝文的相关整理工作仍然主要依靠手工进行,不仅会占用大量的人力成本,且效率较低、成果的重复利用存在困难,例如,对《西南彝志》的整理与汉译,罗国义、王兴友等人耗费了 10 年时间才完成,为了对初版译本进行完善和修正,王运权、王仕举等又耗时 17 年才完成再版。
随着人工智能,特别是深度学习的发展,可以为古彝文识别提供更加高效工具,为其保存和传播提供了强有力的支撑。古彝文识别不仅仅是人类知识的延续和传承,同时也是推动知识发展的关键,合合信息携手上海大学的“原生态古彝文”研究项目将成为抢救、整理、保存、传播和利用彝文古籍的有效途径。

1.3 古彝文识别的挑战

相对于其他更具标准化的文字,古彝文的书写更为随意,并无通用的统一性规范标准,因此其识别难度也随之增加。尽管目前文本识别技术已经有了突破性进展,例如合合信息自研的文字识别技术,覆盖文字、文档、表格、印章、二维码、公式等多种通用场景,能够进行快速、精准的检测和识别,支持中文、英文等超过 50 种语言,同时支持印刷体、手写体、倾斜、折叠、旋转等,但由于版式的多样性、字符集的庞大性和图像质量差等原因,当前对于古彝文识别的研究仍然寥寥无几,并且现存的古彝文大多为手写体,这进一步加深了古彝文识别的难度,总结而言,古彝文识别的挑战性主要集中于以下几个方面:

  • 缺乏完善的手写古彝文数据集:数据集通常是训练神经网络最为关键的因素之一,数据集的质量直接决定了模型的效果。当前对古彝文的研究多集中在文献整理上,而尚未有完善的古彝文手写数据集,并且在传承过程中通晓古彝文文字的人越来越少,导致数据集标注工作量大而人手少,数据集样本严重不足,这是古彝文识别最为关键的挑战之一。合合信息研究人员通过与古彝文传承人建立良好的关系,获取大量典籍,弥补了古彝文识别项目训练样本不足的情况
  • 版式多样性:古彝文典籍排版风格具有多样性,字符间距、行距等有较大差异,且存在加字、替字、整句倒置等现象,这种情况对文字定位与识别造成了诸多干扰。而依托合合信息在智能文字识别领域的领先技术,包括图像复杂版式识别、图像扭曲矫正等优秀成果,为古彝文识别奠定了技术基础
  • 图像质量较差:除了数据集在样本上的不足外,在数据质量上也存在诸多问题,多数古彝文典籍都因历史保护的原因,出现了或多或少的缺失或污迹,严重影响了数据集的质量,增加了文字识别的难度。得益于合合信息智能文字识别技术,通过利用图像增强技术可以显著提高图像质量,进而提高古彝文文字识别的精度和效率

图像质量较差

  • 字符集庞大:古彝文拥有庞大的字符集,在上文中,我们已经提到仅仅是 2004 年出版的《滇川黔桂彝文字集》就包含 87000 多个字。对如此庞大的字符集进行分类是一项十分艰巨的任务。借助合合信息在甲骨文、金文等古文中的研究经验,文字间的识别有相通之处,为古彝文识别打下了坚实基础
  • 字形变化较多:古彝文字体、字形的变化较多,没有统一的手写规范,且不同地区书写规则不同,存在大量的变形字和异体字,例如,如下图所示,表示“种类”的古彝文就有四种不同的写法,并且存在大量字形相似,甚至在视觉上没有太大差别的字,在意义上毫无联系,这为古彝文的识别增加了难度。针对这一问题,上海大学的古彝文研究人员提出了四字节编码方案,用于描述每个变体和形近字符之间的细微差别,根据这种编码方案能够更好的建立深度学习数据集

变形字

2. 古彝文识别国内外研究进展

在古彝文识别领域,研究的主力仍然是民族类高校和研究所,且研究成果的应用和转换率较低。王嘉梅等利用图像分割技术实现古彝文识别,首先通过预处理对彝文字符应用细分、归一化、二值化等经典图像处理技术,然后对预处理后的图像使用模板匹配方法进行识别。朱华龙等人提出了基于特征提取的分类方法,是经典的传统机器学习方法,利用人工对古彝文提取方向线素特征、笔画密度特征和投影特征等然后利用多分类投票法确定文字的最终类别。
除此之外,也有许多其他国内外学者对多种不同古文进行研究,例如北京大学的“识典古籍”项目利用文字识别、自动标点和命名实体识别等技术对古籍进行识别;阿里巴巴的“汉典重光”项目利用人工智能技术数字化了一批珍藏在加州大学伯克利分校的中文古籍。

3. 基于深度学习的古彝文识别

3.1 深度学习简介

近年来,深度学习 (Deep LearningDL) 在多个领域中都取得了突破性进展,尤其是在图像识别、目标检测以及自然语言处理等领域。神经网络由具有权重和偏置的人工神经元组成,这些权重和偏置会在模型训练过程中进行调整,以得到一个性能优异的学习模型。每个神经元可以接收一组输入,以某种方式对其进行处理后,输出一个或多个值。如果我们通过堆叠多层的神经网络,它就被称为深度神经网络,处理这些深度神经网络的人工智能分支称为深度学习
传统全连接神经网络的主要缺点之一是它们忽略了输入数据的结构,所有数据在输入网络之前都被转换为一维数组。这对于简单的数字数据而言,可能并没有什么问题,但当我们处理图像数据时,全连接网络就表现出不足之处。以灰度图像为例,这些图像是二维结构,同时像素的空间排列包含很多隐藏信息。如果我们忽略这些信息,而将图片转换为一维结构,我们将失去很多潜在信息。而这也正是卷积神经网络 (Convolutional Neural Network, CNN) 的优势所在,CNN 在处理图像时会考虑图像的 2D 结构。
CNN 也是由权重和偏差组成的神经元组成,这些神经元接受输入数据,进行处理后,输出处理后的值。网络的目标是从输入层的原始图像数据到得到输出层的正确结果,不同任务中,网络的目标并不相同:在图像分类中,网络的目标是得到图片类别;在目标检测中,网络的目标是定位目标的位置。普通全连接神经网络和 CNN 之间的区别在于使用的神经网络层类型以及我们如何处理输入数据,假设 CNN 的输入是图像,那么可以使用 CNN 提取图像的特征。除此之外,CNN 的输入并不仅限于图像,也可以为文本等数据。

卷积

CNN 是一种经典的深度学习网络,它通常用于图像识别等任务。与任何其他神经网络一样,为图像中的元素分配权重和偏置,并能够将这些元素彼此区分开来。与其他分类模型相比,CNN 中所需使用的数据预处理较少。
CNN 架构的基本形式可以比作人脑中的神经元和树突,它的灵感来自视觉皮层。单个神经元只对视野受限区域的刺激作出反应,这个视野区域被称为感受野 (Receptive Field),这些感受野相互重叠后,覆盖了整个视野范围。
循环神经网络 (Recurrent Neural Network, RNN) 是另一种经典的神经网络架构,可以将 RNN 视为一种内存保存的机制,如果网络能够提供一个单独的内存变量,每次提取词向量的特征并刷新内存变量,直至最后一个输入完成,此时的内存变量即存储了所有序列的语义特征,并且由于输入序列之间的先后顺序,使得内存变量内容与序列顺序紧密关联。RNN 架构可视化如下:

RNN架构

右侧的网络是左侧的网络的展开后的结果。右侧的网络在每个时刻接受当前时刻输入以及上一时刻网络状态,并在每个时刻提取一个输出。
在每个时刻 t t t,网络层接受当前时刻的输入 x t x_t xt 和上一个时刻的网络状态向量 h t − 1 h_{t−1} ht1,根据网络内部运算逻辑 h t = f θ ( h t − 1 , x t ) h_t=f_{\theta}(h_{t-1},x_t) ht=fθ(ht1,xt) 计算得到当前时刻的新状态向量 h t h_t ht,并写入内存状态中。在每个时刻,网络层均有输出 o t o_t ot o t = g Φ ( t ) o_t = g_{\Phi}(t) ot=gΦ(t),即根据网络的当前时刻状态向量计算后输出。
网络循环接受序列的每个特征向量 x t x_t xt,并刷新内部状态向量 h t h_t ht,同时形成输出 o t o_t ot。这种网络结构就是循环神经网络 (Recurrent Neural Network, RNN) 结构。

3.2 基于深度学习的古彝文识别模型架构

手写文字识别已经成为人机交互最便捷的手段之一,拥有广泛的应用前景。在识别图像中手写文字的问题中,我们需要同时处理图像数据和顺序数据。在传统的古彝文字识别方法中,设计的解决方案通常需要人工参与。例如:在图像上使用滑动窗口,窗口大小是字符的平均大小,以便可以检测每个字符,然后输出它检测到的具有较高置信度的字符。然而,窗口的大小或滑动窗口数量需要进行人工确认。因此,这本质上属于一个特征工程问题。
为了降低人工时间成本,可以通过卷积神经网络 (Convolutional Neural Networks, CNN) 提取图像特征,然后将这些特征作为输入传递给循环神经网络 (Recurrent Neural Network, RNN) 的各个时间戳,以便在各个时间戳提取输出。因此,我们将组合使用 CNNRNN,通过这种方式解决手写文字识别问题,我们不必人工构建特征,只需要优化模型得到 CNNRNN 的最佳参数。经典的文字识别架构如下所示:

模型架构
相对于传统古彝文识别模型,基于深度学习的方法对古彝文手写体的识别精度更高,且具有更高的效率。

4. 古彝文识别进展与展望

202212 月,合合信息与上海大学社会学院签署了校企合作协议,其将以完成“贵州古彝文图像识别及数字化校对项目”为目标,结合合合信息在智能文字识别领域的雄厚基础与上海大学在古彝文研究的丰富经验,赋能海量古彝文原籍数字化的道路,对于民族传统文化的保护与传承具有重要意义。
合合信息是行业领先的人工智能集大数据科技企业,智能文字识别技术更是合合信息的核心技术之一,先后在 ICDARICPR 等人工智能国际竞赛中斩获 15 项冠军,在 CVPRAAAI 等顶会上均有学术成果发表,合合信息的智能文字识别技术主要包括智能图像处理、复杂场景文字识别、自然语言处理三大核心模块,通过在智能文字识别和商业大数据领域的积累的优势,通过智能图像处理技术解决了影像采集不规范问题,能够极大的优化影像质量,为项目后续的文字信息提取与识别奠定基础,复杂文字识别适用于多语言、多版式、多样式等多种复杂场景,结合自然语言处理技术,能够获取识别结果的语义信息。
尽管古彝文识别研究仍处于起步阶段,但基于合合信息前期在甲骨文、金文等古文研究中的积累,通过引入强大的智能文字识别技术建立规范统一的数据库,能够极大的增强古彝文研究的可用性与连续性,减少繁琐的人工检索工作,合合信息联合上海大学推进的“原生态古彝文”研究项目将填补国内外在古彝文数字化研究领域的空白。
建立起古彝文数据库与翻译系统后,将能够显著提高古彝文识别的效率和准确率,对于小语种保护与古文化传承具有重要的里程碑意义。

小结

目前,针对古彝文识别的研究仍处于起步阶段,且大多数研究仅针对书写规范的古彝文,受限于字符库的匮乏,大部分模型仅能对常见的古彝文进行处理,因此可以说针对古彝文是别的研究非常稀少。合合信息基于深度学习的古彝文识别项目将填补当前国内外研究的空白,将深度学习技术引入古彝文识别将对文化保护和发展做出更多有益探索,让传统文化绽放更加绚丽之花。

相关链接

图像智能处理黑科技,让图像处理信手拈来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/156969.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML小游戏19 —— html5版开心斗地主小游戏(附完整源码)

💂 网站推荐:【神级源码资源网】【摸鱼小游戏】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】本节教程我会带大家使用 HTML…

【练习】Day05

努力经营当下,直至未来明朗! 文章目录一、选择二、编程1. 跳跃游戏[贪心算法]2. 寻找重复数[注意思路!]答案1. 选择2. 编程普通小孩也要热爱生活! 一、选择 HASH 函数冲突处理方式不包括以下哪一项:(&…

YOLOv5源码详解——项目目录

YOLOv5 目录 .github .github相关,不重要 datasets 存放数据集,刚下载下来的源码是不包含这个文件夹的 classify 图像分类模块,包含以下4个文件 predict.py —— 图像分类预测脚本train.py ——图像分类训练脚本val.py —— 图像分类验证脚本tutorial.…

Java开发学习(四十一)----MyBatisPlus标准数据层(增删查改分页)开发

一、标准CRUD使用 对于标准的CRUD功能都有哪些以及MyBatisPlus都提供了哪些方法可以使用呢? 我们先来看张图: 1.1 环境准备 这里用的环境就是Java开发学习(四十)----MyBatisPlus入门案例与简介中使用的环境 二、新增 在进行新增之前,我们可以分析下新增的方法…

马蹄集 公式计算

公式计算 难度&#xff1a;青铜 01 时间限制&#xff1a;1秒巴占用内存&#xff1a;64M 计算公式 (1/2)*(a*xc(ac)/(4*a)》 格式 输入格式&#xff1a;输入为整型x,a,空格分隔 #include <bits/stdc.h> using namespace std; int main() {int x, a;cin >> x >&g…

1、JDK17安装

目录 一、简介 二、安装步骤 三、在Windows 10系统中配置环境变量 四、运行jdk 一、简介 JDK全称Java SE Development kit(JDK)&#xff0c;即java标准版开发包&#xff0c;是Oracle提供的一套用于开发java应用程序的开发包&#xff0c;它提供编译&#xff0c;运行java程…

二叉树【数据结构】【超详细,一学就会!!!】

目录 &#x1f4d6;1.什么是二叉树&#xff1f; &#x1f334;2.满二叉树和完全二叉树 ⛳2.二叉树的性质 &#x1f525;3.二叉树的创建与遍历 3.1 创建二叉树 3.2 前中后序遍历——递归和非递归 &#x1f3f9;4.二叉树的实现 1️⃣获取树中节点的个数 2️⃣获取叶子节点…

MATLAB-三维插值运算

MATLAB中是支持三维及三维以上的高维插值的。三维插值的基本原理与一维插值和二维插值是一样的&#xff0c;但三维插值是对三维函数进行的插值。在MATLAB中&#xff0c;使用interp3函数实现插值&#xff0c;其调用格式如下。vi interp3(x,y,z,v,xi,yi,zi) %返回值 vi是三维插值…

2022ICPC杭州站

A. Modulo Ruins the Legend 题目链接&#xff1a;Problem - A - Codeforces 样例1输入&#xff1a; 6 24 1 1 4 5 1 4样例1输出&#xff1a; 1 0 5样例2输入&#xff1a; 7 29 1 9 1 9 8 1 0样例2输出&#xff1a; 0 0 0题意&#xff1a;给你一个长度为n的数组a[]&#x…

【NI Multisim 14.0原理图的设计——原理图分类】

目录 序言 一、原理图的设计 &#x1f34a;知识点&#xff1a; 二、原理图分类 &#x1f349;1.平坦式电路 &#x1f349; 2.层次式电路图 序言 NI Multisim最突出的特点之一就是用户界面友好。它可以使电路设计者方便、快捷地使用虚拟元器件和仪器、仪表进行电路设计和…

【用JS自制表格软件玩数据】10. 为表格脚本设计一个语法解析器

设计脚本语言的语法解析器概述脚本源码语法预览运行效果如下图设计计算符号的优先级定义一些关键词生成一份关键词的map方便引用枚举关键词的类型错误异常的捕获字符匹配代码的字符转化成迭代器关键词标记器词法分析器设计一个队列处理器源代码字符串迭代器代码的块级运行环境脚…

【HTML基础篇003】前端基础之CSS选择器大全

✨一、CSS的基本介绍 CSS&#xff08;Cascading Style Sheet&#xff0c;层叠样式表)定义如何显示HTML元素。 当浏览器读到一个样式表&#xff0c;它就会按照这个样式表来对文档进行格式化&#xff08;渲染&#xff09;。 ✨二、CSS的几种引入方式 &#x1f338;2.1、方法一&am…

连接查询之内连接(等值连接、非等值连接和自连接)

1、等值连接&#xff1a;表连接条件是等值关系&#xff0c;我们称为等值连接。 需求&#xff1a;查询每个员工所在部门名称&#xff0c;显示员工名和部门名&#xff1a; 查看员工表的ename和deptno字段信息&#xff1a; 查看部门表中的deptno和dname字段信息 SQL92语法&#x…

2023年最值得关注的机器人趋势TOP10

新兴的机器人技术趋势和预测满足了对工业自动化、数字化和可持续性的需求。仓库中的材料处理由自动移动机器人&#xff08;AMR&#xff09;和自动引导车辆&#xff08;AGV&#xff09;实现自动化。相关机构对8949家全球初创企业和2023年机器人趋势规模的样本进行了研究&#xf…

Linux的安装(云服务器专讲)

一、Linux环境的安装有一下几种方式&#xff1a;双系统或则将自己的笔记本搞成Linux系统——严重不推荐&#xff0c;这样安装成本高、并且容易把自己电脑弄坏。虚拟机推荐wmware player这是免费的&#xff0c;并且推荐是打在了centos7.x版本的&#xff0c;这个的好处就是不需要…

微信接入 ChatGPT(学习笔记,不作教程)

微信接入 ChatGPT前置条件接入前提去Linux虚拟机&#xff08;必须有go环境&#xff09;安装前先配置下ssh密钥生成新的ssh密钥检查将 SSH 密钥添加到 ssh-agent将 SSH 密钥添加到您在 GitHub 上的帐户上去github上将密钥复制在里面然后点击添加ssh密钥安转部署最后直接go run m…

【JavaSE】Java序列化详解

【JavaSE】Java序列化详解 文章目录【JavaSE】Java序列化详解一&#xff1a;什么是序列化和反序列化?二&#xff1a;序列化协议对应于 TCP/IP 4 层模型的哪一层&#xff1f;三&#xff1a;常见序列化协议有哪些&#xff1f;四&#xff1a;JDK 自带的序列化方式1&#xff1a;序…

广告业务系统 之 数据桥梁 —— “日志中心-曝光数据流转结算”

文章目录广告业务系统 之 数据桥梁 —— “日志中心-曝光数据流转结算”曝光数据流转结算管道式架构助力高可用管道式架构模式图流式链路中特殊的缓存设计一、二级缓存Nosql 数据型缓存组件s2s 监测上报广告业务系统 之 数据桥梁 —— “日志中心-曝光数据流转结算” 曝光数据…

SpringCloud微服务项目实战 - 5.自媒体文章审核

愤怒归根结底是为了达成目的的一种工具和手段&#xff0c;大声呵斥乃至拍桌子&#xff0c;目的都是通过震慑对方&#xff0c;进而使其听自己的话&#xff0c;因为他们也找不到更好的办法。 系列文章目录 项目搭建App登录及网关App文章自媒体平台&#xff08;博主后台&#xff…

68.多尺度目标锚框的代码实现

在之前&#xff0c;我们以输入图像的每个像素为中心&#xff0c;生成了多个锚框。 基本而言&#xff0c;这些锚框代表了图像不同区域的样本。 然而&#xff0c;如果为每个像素都生成的锚框&#xff0c;我们最终可能会得到太多需要计算的锚框。 想象一个 561728 的输入图像&…