古彝文识别:文化遗产的数字化之旅

news2024/11/28 11:51:50

目录

  • 🍅前言
    • 🍓古彝文介绍
    • 🍓古彝文识别的重难点
      • 🍒原籍难以获取,传统翻译过程繁琐,周期长。
      • 🍒版式多样,笔画相近。
      • 🍒图像质量差,手写识别难。
      • 🍒古彜文无统一的计算机编码
    • 🍓合合信息的文字识别技术
    • 🍓古彝文识别的意义
  • 🍅总结

🍅前言

在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

🍓古彝文介绍

彝文指的是云南、贵州、四川等地的彝族人使用的文字,其造字、使用方法在不同的区域之间表现出明显的差异。区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,至于彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。因此,对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。
在这里插入图片描述

网络资料

如上图所示,我们可以感受到彝文是一种具有丰富文化内涵和独特表现形式的文字,是中国少数民族文化宝库中的重要组成部分。

🍓古彝文识别的重难点

🍒原籍难以获取,传统翻译过程繁琐,周期长。

首先,古彝文原籍难以获得,由于彝族文化的封闭性和保守性,古彝文文献和文物不易获取,且常因自然灾害和难以保存而遭破坏,因此获取原始资料并深入了解其含义和文化背景异常困难。其次,古彝文翻译过程繁琐,需具备深厚的语言学、历史学和文化学知识,同时需对彝族文化和历史有深入了解才能准确翻译。最后,古彝文翻译可能需要十年起步,翻译者需投入大量时间和精力来完成翻译工作。

🍒版式多样,笔画相近。

汉文和彝文古籍的排版风格各异,字符间距和行距有密有疏。彝文古籍虽无大小字混排、双列夹字的校注传统,但也会出现加字、替字、整句倒置和文字方向不一致等现象,给文字定位带来挑战。此外,彝文字从未统一,存在大量异体字和变体字,各地方布摩为防止敌方破译经书会故意增加或减少笔画。

如下图:
在这里插入图片描述

这四个字都表示“种类”的意思。由此可见,这样的异体字或者变体字给文字定位造成了很大的挑战。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

🍒图像质量差,手写识别难。

彝文缮写员手写风格差异大,需大量数据库建识别模型,但目前无公开数据集且通晓者少,导致标注工作量大、数据量不足,需引入AI技术构建模型弥补训练样本不足。而且,汉文和彝文古籍经历多代传承、战火与自然风蚀,存在页面残缺、霉斑污渍等图像质量问题,尤其彝文古籍保存环境更艰苦,文本墨色深浅不一、字符间距和行距大小不一。

在这里插入图片描述

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

如上图,古籍的修复就要费很大力气,人工识别本就难上加难,更何况用AI技术去识别它,这是一项很大的挑战,万幸,合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对这些挑战!

🍒古彜文无统一的计算机编码

古彜文无统一的计算机编码,需要重新整理并增加相关标注数据。此外,古籍和字符部分存在背景干扰,需要通过技术手段逐一解决。为了使AI能够学习,字符的研究需要一个相对固定的编码,因此上海大学、合合信息和华南理工大学合作重新编制了一个编码系统。

🍓合合信息的文字识别技术

合合信息在古文字识别领域已有了一定的积累和成果。早在2021年、2022年的世界人工智能大会上,合合信息就展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。因此,现在看来,在已有经验的前提下,合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情。

在这里插入图片描述
智能文字识别技术是合合信息公司的核心技术之一,主要包括智能图像处理、基于深度学习的复杂场景文字识别和自然语言处理(NLP)三个核心模块。这些模块采用了一系列先进的算法和深度学习模型,以实现对文字的高效和准确识别。

智能图像处理采用了先进的数字图像处理技术,包括色彩平衡、对比度增强、滤波等算法,以实现对文档图像的高效处理。此外,该模块还采用了高级的图像分割和文字定位算法,以从图像中准确地提取出文字信息。这些技术对于文字的识别和提取至关重要,因为它们可以提高识别准确性并减少误差。

目前,合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成,此基础编码将帮助后续古彜文的检测、识别、标注,帮助学者解读更多彜文古籍,而扫描全能王的高清滤镜技术还可以高清拍摄古籍画面,感兴趣的同学可以下载体验一下

下图则是博主下载扫描全能王app后识别的彜文古籍,确实很清晰。

在这里插入图片描述

🍓古彝文识别的意义

古彝文作为珍贵的文化遗产,其保护和传承具有深远的历史和文化意义。合合信息利用人工智能技术,成功研发出高精度的古彝文识别模型,为古彝文保护和传承带来了新的突破。通过数字化保存和传播古彝文,我们能够让更多人了解这一独特的文化瑰宝,并为学术研究提供便利。同时,这也为其他文化遗产的保护提供了可供借鉴的经验。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

🍅总结

总之,合合信息公司在古彝文识别领域的突破性研究,为古彝文文化遗产保护带来希望,实现了文化遗产的数字化之旅。通过深度学习和人工智能技术,我们能够更好地保护和传承这些珍贵的文化遗产。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1041988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第二证券:迎政策助力,新型工业化爆发,德恩精工3日涨超60%

新式工业化概念26日盘中大幅拉升,到发稿,德恩精工、精伦电子、天永智能等涨停,固高科技涨约8%,亚威股份涨逾6%,金自天正、创世纪涨约5%。 值得注意的是,精伦电子已接连5个交易日涨停,公司昨日晚…

Mac菜单栏图标管理工具:Bartender 5 完美兼容MacOS Sonoma 14系统

Bartender 5 是一款流行的软件程序,专为酒店行业的调酒师和专业人士设计。它提供了一系列功能和工具来简化酒吧或餐厅的饮料订单、库存和客户偏好的管理流程。Bartender 5 的一些主要功能包括: 1. 饮料配方:该软件包括一个全面的饮料配方数据…

计算机丢失msvcp140_1.dll的解决办法,丢失msvcp140_1.dll的原因

丢失 msvcp140_1.dll 是一个常见的错误信息,通常会在尝试运行某些程序时出现。msvcp140_1.dll 是一个动态链接库文件,它包含了许多 C标准库函数的实现,这些函数在许多程序中都是必需的。因此,如果丢失了该文件,程序可能…

【MySQL基础 | 中秋特辑】多表查询详细总结

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【MySQL学习专栏】🎈 本专栏旨在分享学习MySQL的一点学习心得,欢迎大家在评论区讨论💌 目录 一、多表…

如何解决跨浏览器兼容性问题?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 解决跨浏览器兼容性问题⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量…

台式多参数水质测定仪可以测哪些污水

台式污水测定仪可以测哪些污水: 1.废水处理厂监测:废水处理厂需要定期监测废水中的污染物浓度,包括COD、氨氮、总磷和总氮等指标。台式废水检测仪可以提供快速、准确的检测结果,帮助废水处理厂了解废水处理效果,以便进…

大数据Flink(八十七):DML:Joins之Regular Join

文章目录 DML:Joins之Regular Join DML:Joins之Regular Join Flink 也支持了非常多的数据 Join 方式,主要包括以下三种: 动态表(流)与动态表(流)的 Join动态表(流)与外部维表(比如 Redis)的 Join动态表字段的列转行(一种特殊的 Join)细分 Flink SQL 支持的

《学术小白学习之路》DTM主题动态模型构建

《学术小白学习之路》DTM主题动态模型构建 一、LDA与DTM的区别二、代码实操2.1 数据2.2 获取数据向量2.3 参数设置与模型构建2.4 结果的输出一、LDA与DTM的区别 LDA主题模型主要针对一段段的文档 可以得出每个主题,所对应主题词的词语的概率 该模型的主题概率的生成是基于文…

泰国数字加密平台Bitkub创始人到访上海和数集团

2023年9月21日,泰国数字加密货币交易平台Bitkub创始人兼首席执行官(CEO)Jirayut Srupsrisopa (Topp)先生到访上海和数集团总部。董事长唐毅先生热情会见了来宾,双方进行了友好深入的交流。 和数集团国际部经理晋松;苏州…

【Linux】计算机的软硬件体系结构

文章目录 一、冯诺依曼体系结构二、操作系统(Operator System)1.操作系统的概念2.为什么要有操作系统3.操作系统如何进行管理 三、系统调用和用户操作接口1.系统调用接口2.用户操作接口 四、计算机的软硬件体系结构 一、冯诺依曼体系结构 目前我们常见的计算机,如笔…

自洽可分的哈密顿系统的辛算法

本文只介绍哈密顿系统的辛算法的显式结构 不给出具体的推导过程 自洽可分的哈密顿系统的辛算法 一阶显式辛结构 二阶显式辛结构 四阶显式辛结构 全代码 import matplotlib.pyplot as plt import numpy as np from scipy.optimize import fsolve##SymplecticHamilton ##self-c…

Room Arranger for Mac: 轻松创造梦想家园的必备设计软件

你是否曾经梦想过自己动手设计理想中的家居环境?你是否希望通过一个简单易用的工具来实现你的设计理念?那么,Room Arranger for Mac就是你的最佳选择! Room Arranger是一款专门为Mac用户打造的室内设计软件,它拥有直观…

软件测试面试题 —— 整理与解析(4)

😏作者简介:博主是一位测试管理者,同时也是一名对外企业兼职讲师。 📡主页地址:【Austin_zhai】 🙆目的与景愿:旨在于能帮助更多的测试行业人员提升软硬技能,分享行业相关最新信息。…

搭建SpringBoot项目三种方式(超详细版)

目录 一、官网下载压缩包解压 二、通过Idea脚手架搭建 三、Spring Boot项目结构 3.1 pom.xml文件 3.2 启动类 3.3 配置文件 四、通过创建Maven项目添加依赖 一、官网下载压缩包解压 接下来我们搭建一个SpringBoot项目,并引入SpringMVC的功能,首先…

【JAVA EE】详解单点登录

作者简介 目录 1.概述 2.实现方案 2.1.分散鉴权 2.2.集中鉴权 1.概述 SSO,即进行一次认证,然后就可以访问所有子系统。很明显SSO只是一种具象化的目标而已,目前业内为了实现单点登录、统一鉴权,提出了一系列的打法。比如直接…

C# 读取Execl文件3种方法

方法 1,使用OLEDB可以对excel文件进行读取 1.1C#提供的数据连接有哪些 对于不同的.net数据提供者,ADO.NET采用不同的Connection对象连接数据库。这些Connection对我们屏蔽了具体的实现细节,并提供了一种统一的实现方法。 Connection类有四…

ElementUI之首页导航及左侧菜单(模拟实现)

目录 ​编辑 前言 一、mockjs简介 1. 什么是mockjs 2. mockjs的用途 3. 运用mockjs的优势 二、安装与配置mockjs 1. 安装mockjs 2. 引入mockjs 2.1 dev.env.js 2.2 prod.env.js 2.3 main.js 三、mockjs的使用 1. 将资源中的mock文件夹复制到src目录下 2. 点击登…

Java SimpleDateFormat格式化日期时间

java.text.SimpleDateFormat 格式化日期时间, 参考 api 说明 Overview (Java Platform SE 8 ) Examples The following examples show how date and time patterns are interpreted in the U.S. locale. The given date and time are 2001-07-04 12:08:56 local t…

Normalization总结(BN/LN/WN/IN/GN)

一、简介 在深度学习领域,Normalization用得很多,BN(Batch Normalization)于2015年由 Google 提出,开创了Normalization 先河;2016年出了LN(layer normalization)和IN(I…

基于UDP协议的网络服务器的模拟实现

目录 服务端类UdpServer的模拟实现 服务端类UdpServer的成员变量 服务端类UdpServer的构造函数、初始化函数initServer、析构函数 服务端类UdpServer的start函数 服务端类UdpServer的整体代码(即udp_server.h文件的整体代码) 基于服务端类UdpServe…