智能文字识别技术——AI赋能古彝文保护

news2024/11/25 0:24:29

前言

人工智能在古彝文古籍保护方面具有巨大的潜力和意义。通过数字化、自动化和智能化的手段,可以更好地保护和传承古彝文的文化遗产,促进彝族文化的传承和发展。

文章目录

  • 前言
  • 一、古彝文是什么?
    • 1.1古彝文的背景
    • 1.2古彝文古籍保护背景
  • 二、古彝文识别的重难点
    • 2.1古彝文原籍难以获取
    • 2.2古彝文翻译过程繁琐
  • 三、合合信息智能文字识别技术
  • 四、古彝文识别的意义
  • 五、总结

一、古彝文是什么?

1.1古彝文的背景

古彝文是中国彝族人民使用的一种古老文字系统,彝族是中国的一个少数民族,主要分布在云南、四川、贵州等地。古彝文起源于公元前13世纪左右,是彝族人民长期积累和发展的产物,具有悠久的历史和独特的文化内涵。

古彝文的使用范围广泛,包括文献、神话、诗歌、歌谣、家谱等各个方面。彝族人民利用古彝文记录了丰富的历史、文化、宗教和社会信息。古彝文不仅是彝族人民的重要交流工具,也是他们传承文化、宣扬思想、表达情感的重要媒介。

然而,由于历史的变迁和社会的变化,古彝文的使用逐渐减少,目前,古彝文面临着保护和传承的挑战,相关机构和学者正致力于研究和保护古彝文,以确保其珍贵的文化遗产不会失落。

1.2古彝文古籍保护背景

目前,包括Google在内,全球许多技术厂商都在使用AI、OCR等数字化技术来保护古籍。国内如龙泉寺还发明了名为“佛原生”的AI技术,利用基于深度学习的单字识别引擎成功地将《六十华严》的大藏经版本进行电子化。

这些项目和技术的出现,为古籍保护和数字化提供了新的可能性。促进人工智能领域与古彝文保护领域的合作与共享,吸引更多的人工智能专家和学者参与到古彝文的保护工作中。通过跨学科和跨领域的合作,可以充分发挥人工智能在古彝文保护方面的作用,提高保护效果。

然而,数字化技术在古籍保护方面仍面临一些挑战。古籍的复杂性、纸质的脆弱性以及文字的特殊性都需要我们持续努力去解决。同时,还需要加强对数字化古籍的存储、备份和安全性的考虑,以确保这些宝贵的文化遗产得到长期的保护和传承。

二、古彝文识别的重难点

2.1古彝文原籍难以获取

首先,彝族祭司布摩通常不愿意出售祖传书籍。对他们来说,出售书籍被认为是一种耻辱,因为这些书籍承载着祖先的智慧和文化传承。他们更倾向于将这些书籍传承给合适的继承人,而不是出售给外部的研究者。

其次,有些彝族祭司在去世时会要求将自己的经书与自己一同火化。这意味着这些书籍可能会被毁灭,使得获取古彝文原籍更加困难。

此外,古彝文研究者需要在当地长期驻扎,并与彝族社区建立良好的关系。这需要时间和耐心,以获得当地人的信任和支持。只有与古彝文传承人建立起密切的关系,才有可能获得他们的授权和许可,进而获取古彝文原籍。

拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接,像这样:

2.2古彝文翻译过程繁琐

1、古彝文翻译过程繁琐的原因主要有以下几点:

  1. 1.古彝文的保护和研究较为困难:古彝文是一种古老的文字系统,目前尚未被数字化,也没有预留的Unicode编码区段。在翻译过程中,需要彝文缮写员手工抄写彝文字,并将国际编码与彝文字对应起来。
  2. 彝语母语者的参与:如果翻译家的母语不是彝语,他们需要在彝语母语者的帮助下进行音译。这种合作过程可能需要时间和精力,增加了翻译的困难度。
  3. 3.多次翻译过程:首先,翻译家需要逐字用汉语进行直译,将古彝文的文字转化为汉语的文字。然后,他们需要用流畅的汉语进行意译,将古彝文的意思转化为汉语的表达方式。这种多次转换增加了翻译的复杂性和耗时性。

这种四行体彝汉文对译的方式,既保留了古籍原貌,又使得翻译内容易于理解。虽然这种方式在数字化方面存在一些困难,但它为保护古籍和传承彝族文化做出了重要的贡献。

过去的古籍翻译通常到这一步就结束了,速度较快的翻译者可能只需一两年就能出版一本译著,而较慢的可能需要数年时间。具体情况取决于原稿的长度。

如果能够有效建立起古彝文的数据库和翻译系统,高效识别古彝文字将成为可能。

三、合合信息智能文字识别技术

在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,学术成果在CVPR、AAAI、ACL等顶会上发表,并取得优秀的应用效果,这为古彝文研究提供了技术支持。

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

作为世界上最古老的文字之一,古彝文是中华文明地图上神秘而耀眼的印记。合合信息联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。

据悉,数据库包含上千个古彜文基础编码,通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛,以数字化手段助力传统文化保护、创新之路。

研究古彝文字集,有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护,同时通过建立古彝文数据库,填补当前国内外研究的空白。合合信息与华南理工大学共同成立文档图像分析识别与理解联合实验室,联合上海大学社会学院,共同解决数据库建设中的学术性、技术性难点。

此外,合合信息旗下扫描全能王还推出“智能高清滤镜”。该功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、手指、屏幕纹等干扰因素一键全处理。使用者无需思考拍摄角度、光源、背景,只要点击单拍、多拍、扫描等任意拍摄按钮,便可得到一张如原稿打印般清晰、平整的图片。

左图为原图,右图为智能高清滤镜功能识别后的彝文古籍

这些努力为古彝文的研究和传承开辟了新的道路。未来,随着技术的不断进步,我们有望实现更高效、准确的古彝文识别和翻译,为古彝文的保护和传承做出更大的贡献。

四、古彝文识别的意义

古彝文识别的意义在于保护和传承文化遗产、促进语言和文化研究、保护和推广文化多样性,以及提供学习和教育资源。通过数字化技术的应用,我们可以更好地理解和传承彝族文化,促进文化的多元发展和交流。

近两年世界人工智能大会期间,合合信息展示的甲骨文识别、西周钟鼎文识别项目更是成为了场上的“人气黑马”,其背后涉及到的技术点“弯曲矫正”“复杂场景文字识别”等技术已被应用于以扫描全能王为代表的产品中,优化图像处理效果,提升文字识别精度,去满足更多群体更多元的需求。

比如“手写擦除”功能,原理就是用智能文字识别技术将待处理图像划分为手写“擦除区域”和印刷题干等“非擦除区域”,对噪点、阴影、背景杂乱等复杂场景进行处理,同时运用切边矫正、图像增强等滤镜技术,去擦除试卷、作业上的手写笔记,并且为用户呈现清晰美观的卷面图像,在家长、学生中很受欢迎。

五、总结

合合信息前期在甲骨文、金文中所作的研究,让古彝文识别成为一件“水到渠成”的事情。

此次合合信息与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,将填补当前国内外研究的空白,也将成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

未来,合合信息还将重点关注自然语言处理领域,不断精进AI“读懂”古文的能力,去实现更多理解层面的事情,以此更好地促进学术研究效率提升,并通过降低古文理解门槛,在文旅、文创领域触达更广泛的社会群体,让传统文化焕发新的生机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1053916.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

支持向量机SVM:从数学原理到实际应用

目录 一、引言背景SVM算法的重要性 二、SVM基础线性分类器简介什么是支持向量?超平面和决策边界SVM的目标函数 三、数学背景和优化拉格朗日乘子法(Lagrange Multipliers)KKT条件核技巧(Kernel Trick)双重问题和主问题&…

竞赛 基于设深度学习的人脸性别年龄识别系统

文章目录 0 前言1 课题描述2 实现效果3 算法实现原理3.1 数据集3.2 深度学习识别算法3.3 特征提取主干网络3.4 总体实现流程 4 具体实现4.1 预训练数据格式4.2 部分实现代码 5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习机器视觉的…

windows server 2019 、win11安装docker desktop

Docker Desktop Docker Desktop是可以部署在windows运行docker的应用服务,其基于windos的Hyper-V服务和WSL2内核在windos上创建一个子系统(linux),从而实现其在windows上运行docker。 前提条件 WSL 查看wsl是否安装 我们可以直接在 cmd 或 powershe…

软件过程的介绍

软件过程概述 软件的诞生和生命周期是一个过程,我们总体上称这个过程为软件过程。软件过程是为了开发出软件产品,或者是为了完成软件工程项目而需要完成的有关软件工程的活动,每一项活动又可以分为一系列的工程任务。任何一个软件开发组织&a…

在2023年使用Unity2021从Built-in升级到Urp可行么

因为最近在做WEbgl平台,所以某些不可抗力原因,需要使用Unity2021开发,又由于不可明说原因,想用Urp,怎么办? 目录 创建RenderAsset 关联Asset 暴力转换(Menu->Edit) 单个文件…

贪心找性质+dp表示+矩阵表示+线段树维护:CF573D

比较套路的题目 首先肯定贪心一波,两个都排序后尽量相连。我一开始猜最多跨1,但其实最多跨2,考虑3个人的情况: 我们发现第3个人没了,所以可以出现跨2的情况 然后直接上dp,由 i − 1 , i − 2 , i − 3 i…

maven无法下载时的解决方法——笔记

右键项目然后点击创建setting.xml&#xff08;因为现在创建了&#xff0c;所以没显示了&#xff0c;可以直接点击打开setting.xml&#xff09; 然后添加 <mirror><id>nexus-aliyun</id><mirrorOf>*,!jeecg,!jeecg-snapshots</mirrorOf><name…

stm32 - GPIO

stm32 - GPIO GPIO结构图GPIO原理图输入上拉/下拉/浮空施密特触发器片上外设 输出推挽/开漏/关闭输出方式 GPIO88种模式复用输出 GPIO寄存器端口配置寄存器_CRL端口输入数据寄存器_IDR端口输出数据寄存器_ODR端口位设置/清除寄存器_BSRR端口位清除寄存器_BRR端口配置锁定寄存器…

《Jetpack Compose从入门到实战》 第二章 了解常用UI组件

目录 常用的基础组件文字组件图片组件按钮组件选择器组件对话框组件进度条组件 常用的布局组件布局Scaffold脚手架 列表 书附代码 Google的图标库 常用的基础组件 文字组件 Composable fun TestText() {Column(modifier Modifier.verticalScroll(state rememberScrollState…

ESP32官方MPU6050组件介绍

前言 &#xff08;1&#xff09;因为我需要使用MPU6050的组件&#xff0c;但是又需要在这条I2C总线上挂载多个设备&#xff0c;所以我本人打算自己对官方的MPU6050的组件进行微调。建立一个I2C总线&#xff0c;设备依赖于这个总线挂载。 &#xff08;2&#xff09;既然要做移植…

list(链表)

文章目录 功能迭代器的分类sort函数&#xff08;排序&#xff09;merage&#xff08;归并&#xff09;unique(去重&#xff09;removesplice&#xff08;转移&#xff09; 功能 这里没有“[]"的实现&#xff1b;原因&#xff1a;实现较麻烦&#xff1b;这里使用迭代器来实…

vue3基础语法

2020年9月18日发布 2022年2月7日称为默认版本&#xff0c;意味vue3是现在也是未来 Ant Design Pc端组件库 Element Plus Pc端组件库 Vant 移动端 VueUse 基于composition 组合式api的常用函数集合 vue3中文文档&#xff1a;https://cn.vuejs.org/guide/introduction.html…

pandas_datareader读取yahoo金融数据超时问题timeout解决方案

在《Python金融数据挖掘》一书中&#xff0c;学习到网络数据源这一章节&#xff0c;利用书中的方法安装了pandas_datareader包&#xff0c;但在获取雅虎数据&#xff08;get_data_yahoo&#xff09;时会出现以下问题&#xff1a; 经过仔细分析和尝试&#xff0c;排除了yahoo受中…

2023年中国智能电视柜产量、需求量、市场规模及行业价格走势[图]

电视柜是随着电视机的发展和普及而演变出的家具种类&#xff0c;其主要作用是承载电视机&#xff0c;又称视听柜&#xff0c;随着生活水平的提高&#xff0c;与电视机相配套的电器设备也成为电视柜的收纳对象。 随着智能家具的发展&#xff0c;智能电视机柜的造型和风格都是有了…

2023/10/1 -- ARM

今日任务&#xff1a;select实现服务器并发 ser.c&#xff1a; #include <myhead.h>#define ERR_MSG(msg) do{\printf("%d\n",__LINE__);\perror(msg);\ }while(0)#define PORT 8888#define IP "192.168.1.5"int main(int argc, const char *argv[…

Java中DateTimeFormatter的使用方法和案例

&#x1f514;简介 在Java中,DateTimeFormatter类用于格式化和解析日期时间对象。它是日期时间格式化的强大而灵活的工具。 &#x1f514;作用 &#x1f335;1.本地化时间 本地化时间指根据指定的语言环境显示时间 1.1.创建DateTimeFormatter时指定Locale DateTimeFormatt…

ORA-01034: ORACLE not available?一文解决

1.情况描述 oracle用户sqlplus登陆数据库&#xff08;11gR2 单机asm&#xff09;&#xff0c;进去查询一些基本的视图发现报错 ORA-01034: ORACLE not available&#xff0c;详细如下 [oracleoomcserver db_1]$ sqlplus / as sysdba SQL*Plus: Release 11.2.0.4.0 Production…

ClassNotFoundException与NoClassDefFoundError

如果这springboot服务启动时两个报错同时出现&#xff0c;那大概率是依赖间冲突导致的 查资料发现是springcloud的依赖版本和springboot的依赖版本不兼容&#xff0c;顺藤摸瓜找到springcloud jar包中调用org.springframework.boot.context.properties.ConfigurationProperties…

酷开科技OTT大屏营销,做好价值塑造

洞察2023&#xff0c;随着技术与数据入局OTT领域&#xff0c;程序化投放、数据追踪、人群定位等等能力正逐步深入&#xff0c;围绕OTT大屏营销&#xff0c;新营销的价值也正在被重构。随着国内5G、人工智能、云计算等技术不断普及&#xff0c;大屏营销服务成为OTT行业发展的主流…

笔试强训Day9

T1&#xff1a;走方格的方案数 链接&#xff1a;走方格的方案数_牛客题霸_牛客网 (nowcoder.com) 描述 请计算n*m的棋盘格子&#xff08;n为横向的格子数&#xff0c;m为竖向的格子数&#xff09;从棋盘左上角出发沿着边缘线从左上角走到右下角&#xff0c;总共有多少种走法…