助力古彝文保护,AI文字识别技术推动文化传承

news2024/11/25 1:39:53

文章目录

  • 一、写在前面
    • 古彝文为何物?
    • 古彝文的保护背景
  • 二、古彝文识别有何难点?如何解决?
  • 三、合合信息的强劲技术
  • 四、古文识别的重要意义

一、写在前面

古彝文为何物?

彝文指的是云南、贵州、四川等地的彝族人使用的文字,又叫“爨文”“韪书”。其造字、使用方法在不同的区域之间表现出明显的差异。明清两代不少书里说,这种文字“字如蝌蚪”“字母一千八百四十”。

在这里插入图片描述

区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。

对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。

在这里插入图片描述

古彝文的保护背景

随着现代科技的发展和社会变迁,古彝文的使用逐渐减少,面临着被遗忘和失传的危险。古籍是我们文化遗产的重要组成部分,而彝族文化作为中国的民族文化之一,更是需要得到保护和传承。

然而,由于古彝文的特殊性,传统的数字化方法并不适用,因此需要借助智能文字识别技术来实现古彝文的图像识别和数字化校对。

2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,旨在完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”。双方将不断探索用智能文字识别技术赋能海量古彝文原籍数字化的道路,这一工作在民族传统文化日渐濒危的当下有着独特的意义。

在这里插入图片描述

这样的合作将为古彝文的数字化和保护提供重要的支持,有助于推动古彝文研究的发展,促进彝族文化的传承和发展。同时,也为其他类似的古籍识别项目提供了宝贵的经验和借鉴。

二、古彝文识别有何难点?如何解决?

  • 古籍书籍样本多样性,AI识别难度较大

首先,古彝文原籍并不容易获得,并且古彝文的书写形式可能因时代、地区、个人等因素而有所不同,导致古彝文的字形、结构和用法存在很大的变化和差异,这使得古彝文的识别难度相对较大。
字符多样性展示

我们需要对古彝文的特殊结构进行深入理解和分析,并进行大量针对性的算法优化和技术改进,以适应古籍样本的多样性和特殊性。

  • 传统古籍问卷存在水迹、残旧、破损等情况

受高温潮湿环境等因素的影响,古彝文典籍的保存十分不易,拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接。
在这里插入图片描述

通过AI智能高清滤镜技术可以去除水迹、降噪、修复破损的部分,并提高图像的清晰度和质量。即使传统古籍问卷存在痕迹和损坏,也能复原高清文档,为后续的识别工作提供更好的图像素材。

  • 保存较好字迹规范的文件目前成功率较高,传统古籍仍存在样本数量不足,需要持续完善提升准确率

保存较好的古籍文件通常字迹清晰、纸质完好,相对易于识别。然而,传统古籍样本数量有限导致了识别系统的训练数据不足,可能会影响识别的准确率。

为提高准确率,还需要持续完善和增加古籍样本的数量,以便更好地训练和优化AI识别系统,实现对古彝文的准确识别和数字化,为古彝文的保护和传承做出贡献。

三、合合信息的强劲技术

事实上,目前大部分古籍识别项目主要集中在汉字印刷体和手写体的识别上。然而,在合合信息与上海大学的古彝文识别项目中,面临的挑战不仅包括汉文古籍所面临的问题,还有彝文古籍所特有的挑战。相比于汉文古籍,彝文古籍的识别难度要大得多,是汉文古籍的许多倍。

合合信息作为行业领先的智能文字识别技术提供商,以及上海大学古彝文研究员的丰富经验,将有助于应对这些挑战。

  • 合合信息的智能文字识别技术在汉字识别方面取得了显著的成果,为古籍的数字化和保护提供了强大的支持。该技术可以针对彝文的特殊性进行优化和调整,以提高识别准确率和效率。
  • 上海大学的古彝文研究员在古彝文领域拥有丰富的经验和专业知识,对彝文的语法、结构和特点有深入的理解。他们可以提供专业的语言和文化支持,确保识别结果的准确性和语义的准确传达。

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。 智能文字识别技术融合了智能图像处理、光学字符识别、深度学习、自然语言处理等技术,可在多语言、多版式、褶皱、背景干扰等复杂场景下进行文字信息的识别分析与理解,通过大量的训练数据和神经网络模型,能够准确地识别和提取图像中的文字信息。

相比传统简单文字识别(OCR),合合信息的智能文字识别技术具备更多认知与理解能力,识别准确率高,且识别精度可随着数据的积累、算法模型的深度学习优化不断提升。可适应多语言、多版式、多样式等复杂场景,并可应用到多个商业化场景中并形成落地的产品或服务,例如票据分类、证照票据结构化、合同关键信息抽取、智能审核等。

其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

合合信息的智能文字识别技术借助深度学习和机器学习的方法,同时具备较快的实时性能,能够高效、准确地将图像中的文字转化为可编辑和可搜索的文本,甚至可以处理复杂的字体和手写文字,为各种应用场景提供了便利和效率。

在这里插入图片描述

近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。

此外,合合信息旗下扫描全能王APP “智能高清”滤镜功能,也将加速古彝文项目研究进展:

扫描全能王APP采用先进的图像处理算法,能够对扫描的图像进行自动校正、去噪、增强等处理,提高图像质量和清晰度。
应用内置了强大的文字识别引擎,能够将扫描的图片中的文字内容进行准确识别,并转换为可编辑的文本格式。

原古籍图片:

在这里插入图片描述

扫描全能王智能高清滤镜功能处理及检测识别结果:
在这里插入图片描述
在过去的十年里,扫描全能王是最早将图像处理、OCR、深度学习等AI技术综合运用的APP之一,因为这款产品实现了在低资源、性能低的移动设备下高准确率、高效率、高稳定性的识别体验。未来还会更多地与前沿技术的结合,进入智能化的时代。

通过合作,合合信息与上海大学可以充分发挥各自的优势,共同应对古彝文识别项目中的挑战。

四、古文识别的重要意义

在2021世界人工智能大会上,合合信息就通过智能文字识别技术,让翻译甲骨文变成了一件“轻松有趣”的事情:

在这里插入图片描述
在次年的2022年世界人工智能大会上,合合信息又将智能文字识别技术应用到了一篇镌刻在西周青铜鼎面的的钟鼎文(金文)识别上,可谓难度更高。

在这里插入图片描述

我国已于2021年宣布实现全面小康,追求精神层面的富足是下一阶段的目标,对古彝文等古语言的保护是其中重要的一环。

这些技术对文物保护和文化传承意义重大。它们可以帮助研究人员更快速、准确地理解和解读古代文字,挖掘出更多珍贵的历史和文化信息,推动古代文明的研究和传承。

与此同时,这些问题的解决也有助于技术在各行业的应用向纵深拓展。依托于合合信息在智能文字识别领域十多年的深耕经验,相关技术已广泛落地各行业,为全球百余个国家和地区的亿级用户提供数字化服务。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1049835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java 进阶篇】MySQL外键约束详解

在数据库设计和管理中,外键约束是一项重要的功能,它用于维护表与表之间的关联关系,保证数据的完整性和一致性。本文将详细介绍MySQL外键约束的概念、用法以及一些最佳实践,以帮助您更好地理解和应用外键约束。 1. 什么是外键约束…

使用领域引导图卷积神经网络GCNN增强基于脑电图EEG的神经疾病诊断完整代码

一种基于图卷积神经网络(GCNN)的新方法,用于改进使用头皮脑电图(EEG)进行神经系统疾病诊断。尽管脑电图是神经系统疾病诊断中主要使用的检测方法之一,但基于EEG的专家视觉诊断的敏感性仍然只有约50&#xf…

ubuntu18.04 OpenGL开发(显示YUV)

源码参考:https://download.csdn.net/download/weixin_55163060/88382816 安装opengl库 sudo apt install libglu1-mesa-dev freeglut3-dev mesa-common-dev 安装opengl工具包 sudo apt install mesa-utils 检查opengl版本信息(桌面终端执行&#xff09…

JVM机制理解与调优方案

作者:逍遥Sean 简介:一个主修Java的Web网站\游戏服务器后端开发者 主页:https://blog.csdn.net/Ureliable 觉得博主文章不错的话,可以三连支持一下~ 如有需要我的支持,请私信或评论留言! 前言 很多Java开发…

更直观地学习 Git 命令

theme: condensed-night-purple 前言 本文参考于 Learn Git Branching 这个有趣的 Git 学习网站。 在该网站,可以使用 show command 命令展示所有可用命令。 你也可以直接访问网站的sandbox,自由发挥。 本地篇 基础篇 git commit git commit将暂…

Matlab随机数的产生

1、常见分布随机数的产生 1.1 二项分布 在贝努力试验中,某事件A发生的概率为p,重复该实验n次,X表示这n次实验中A发生的次数,则随机变量X服从的概率分布律(概率密度)为 记为 binopdf(x,n,p) p…

BiMPM实战文本匹配【下】

引言 这是BiMPM实战文本匹配的第二篇文章。 注意力匹配 如上图所示,首先计算每个正向(或反向)上下文嵌入 h i p → \overset{\rightarrow}{\pmb h_i^p} hip​→​(或 h i p ← \overset{\leftarrow}{\pmb h_i^p} hip​←​)与另一句的每个正向(或反向)上下文嵌入 …

MQTT协议是什么?快速了解MQTT协议在物联网中的应用

随着工业互联网的迅猛发展,工业设备数据采集和实时监控成为制造业提高生产效率和质量的重要手段。在物联网应用中,通信技术包括Wi-Fi、RFID、NFC、RS232、RS485、USB等,其中在物联网技术框架体系中所使用到的通讯协议主要有:AMQP、…

企业软文推广应该如何巧妙植入品牌信息?

软文推广相比于传统硬广而言,成本更低且效果明显,因此不少企业在进行营销时都会优先考虑软文推广,但是部分企业在写软文时因为产品融入不明显导致软文推广没有效果。下面媒介盒子就来告诉大家,企业在进行软文推广时应该如何巧妙植…

数字孪生:降低现代船舶水声设备研制风险与成本的关键要素

声波是海洋中唯一能够有效传递远距离信息的载体,1000Hz的声波在海水中的每公里吸收衰减仅为0.067分贝,而在陆地上大显神通的电磁波由于受到海水高介电常数和高导电率的影响,因传播衰减量太大而无法通信。 声波在海洋中的传播也并非一帆风顺。…

C#,数值计算——Ranbyte的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// Generator for random bytes using the algorithm generally known as RC4. /// </summary> public class Ranbyte { private int[] s { get; set; } n…

vue安装步骤

1、winR ->cmd 打开运行窗口 2、如下两种方式&#xff0c;测试电脑现有vue版本&#xff0c;提示"MODULE_NOT_FOUND"错误 (1)方式一&#xff1a;vue -V (2)方式二&#xff1a;vue -version 3、输入以下命令&#xff1a; 参考链接&#xff1a;https://blog.csdn.n…

自发光贴图和光照贴图的原理和作用

什么自发光贴图 自发光贴图&#xff08;Emissive Mapping&#xff09;是一种用于在计算机图形学中模拟自发光效果的技术。它可以将光源直接嵌入纹理贴图中&#xff0c;以模拟物体表面具有发光效果的材质。 传统的纹理贴图只能模拟物体表面的颜色和纹理&#xff0c;无法模拟物体…

密码学算法都是怎样实现的? 都有哪些实现方式?

码学算法可以在多种不同的实现方式中进行&#xff0c;具体的实现方式取决于硬件平台、性能需求和应用场景。以下是一些常见的密码学算法实现方式&#xff1a; 纯软件实现&#xff1a; 这是最通用的方式&#xff0c;密码学算法完全由软件编写和执行。这种实现方式可以在各种计算…

anaconda、python卸载后重装以及anaconda--443

anaconda、python卸载后重装 一 .conda创建环境报错处理Collecting package etadata (current_repodata.json): DEBUG:urllib3问题&#xff1a;解决方法一&#xff1a;解决方法二&#xff1a; 二. anaconda3如何卸载干净1. 安装 Anaconda-Clean package2. 打开Anaconda Prompt&…

TM book学习记录--第一章

Tsetlin Machines 记录一下学习TM的过程&#xff0c;主要是对书本An Introduction to Tsetlin Machines的学习。 第一章 作者使用了2个例子来举例说明&#xff0c;我们这里选择车辆和飞机来进行举例。 也就通过5个特征&#xff0c;4个轮子&#xff0c;是否载人&#xff0c;是…

三、git的安装和配置

一、安装 1.官网下载&#xff1a;https://git-scm.com/download 下载最新版本&#xff0c;点击红框或篮筐处即可 2.点击下载好的安装包安装这个软件 3.一直点击next&#xff0c;直到出现install&#xff0c;点击install&#xff0c;安装完成后点击finish&#xff1a; 下载完成…

Redis原理(二):Redis数据结构(下)

文章目录 1.7 Redis数据结构-SkipList1.7 Redis数据结构-RedisObject1.8 Redis数据结构-String1.9 Redis数据结构-List2.0 Redis数据结构-Set结构2.1、Redis数据结构-ZSET2.2 、Redis数据结构-Hash1.7 Redis数据结构-SkipList SkipList(跳表)首先是链表,但与传统链表相比有…

Java基于微信小程序的自习室系统

文章目录 1 简介2 技术栈3 需求分析3.1用户需求分析3.1.1 学生用户3.1.3 管理员用户 4 数据库设计4.4.1 ER图设计4.4.2 数据库表设计 **第五章 系统实现**5.1小程序功能的实现5.2管理员模块的实现5.2.1 留言管理5.2.2 学生信息管理5.2.3 公告管理5.2.4 高校自习室信息管理5.2.5…

速码!!BGP最全学习笔记:路由反射器实验配置

实验&#xff1a;配置路由反射器 1. 实验目的 熟悉路由反射器的应用场景掌握路由反射器的配置方法 2. 实验拓扑 实验拓扑如图所示&#xff1a; 想要华为数通配套实验拓扑和配置笔记的朋友们点赞关注&#xff0c;评论区留下邮箱发给你! 3. 实验步骤 &#xff08;1&am…