领域首创!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

news2024/11/18 11:49:36

古彝文传承至今已有千年历史,是世界上最古老的文字之一。2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目(简称“古彝文数字化项目”)。

 

上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊共同出席签约仪式

此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破,而上海大学携手合合信息推进的古彝文数字化项目更侧重于对原生态彝文识别的攻坚克难。项目将根据上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。

亟待识别的古彝文,比《康熙字典》字数还多

彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文根据《滇川黔桂彝文字集》,目前记录在册的古彝文多达87046。非母语研究者在翻译古彝文时,通常需要在母语者的帮助下记音,再用汉语逐字直译,最后采用汉语对整句话进行意译。

由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程相对繁琐。

 

毕节市彝文文献翻译研究中心展示汉译书稿

古彝文与汉字并非一 一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天,如建立起完善的古彝文数据库和翻译系统,可极大提升研究效率。

 

表示“种类”的彝文字[mo21]/[mɯ33]的四个极为相似的变体

 

两个形似、但音义完全不同的彝文字,字义分别为“酒”、“仪礼”

“汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。”合合信息智能技术平台事业部副总经理郭丰俊博士提到,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位造成挑战。再加上古彝文从未经过统一,异体字、变体字众多合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题。

据悉,2021年、2022年世界人工智能大会上,合合信息用AI技术对甲骨文、西周钟鼎文进行精准识别,受到包括央视、人民日报、新华社在内的上百家主流媒体的关注。郭丰俊博士表示,甲骨文和古彝文追溯源头都属于以刻画符号表意的文字两种文字的识别方式有相通之处,此次古彝文数字化项目的开启,也成为合合信息智能文字识别技术赋能文字保护及文化传承的重要里程碑。

用科技开启古彝文“传统的新生命周期”

1950年,当代著名社会学家费孝通先生访问贵州毕节时,率先认识到彝文古籍对理解西南边疆历史的重要性,并鼓励筹建翻译机构,也为当下的古彝文研究提供了支持。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑所在的上海大学社会学院,便长期设有费孝通田野调查项目资助计划。

古籍数字化的过程同时也是保护古籍的过程。2017年,72位全国人大代表联名建议实施中华古籍数字资源总库体系建设工程,实现历史文明的有序传承。本次合合信息与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉,对研究彝族历史、经济、文化十分重要。

古彝文数字化的价值并不止步于学术研究。随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机,例如中央歌剧院演绎的柯尔克孜族英雄史诗《玛纳斯》,既尊重了民族文化特色,又体现了新时代的风采。

邵文苑提到,古彝文文献和口传史诗中记录了很多南诏古国、夜郎古国、巴蜀古国的奇闻异事,在理解典籍的基础上,可以通过电影、音乐剧、浸入式戏剧等形式进行创作,或打造“元宇宙”世界、IP主题乐园,让更多人跨越语种的隔阂,感受更多元的民族文化,倾听独具特色的中国故事

“传统也和人一样有生老病死的过程,并和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”邵文苑表示,智能文字识别技术“牵手”传统典籍研究,会是古彝文“传统的新生命周期”的开始。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/111239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搜索与图论---最短路

最短路:建图! 源点—起点汇点—终点约定n为点数,m为边数1单源最短路:求一个点到其他所有点的最短路 1.1所有边权都是正数 (1)朴素的Dijkstra算法(On^2) 例题:Dijkstra求最短路 I 代码: #include<iostream> #include<cstring> #

代码随想录算法训练营第42天 | 01背包问题 416. 分割等和子集

01背包问题 由于leetcode上没原题&#xff0c;故参考卡哥意见自己编题记录一下。 一、题干 背包最大重量为4。物品为&#xff1a; 物品名称重量价值011513202430––– 问背包能背的物品最大价值是多少&#xff1f; 二、解法 二维dp&#xff1a; 递推公式&#xff1a;dp[i…

数组方法中会更改原数组,不会更改原数组(详细)

1.不会改变原来数组的有&#xff1a; concat() 连接两个或更多的数组&#xff0c;并返回结果。 如果arr.concat&#xff08;&#xff09;里面不放数组参数&#xff0c;则会浅拷贝arr 如果参数不是数组&#xff0c;它不会递归到嵌套数组参数中 数据类型如字符串&#xff0c;数…

elasticsearch小白入门

一般再项目中都会用到 搜索&#xff0c;如果直接查询数据库&#xff0c;性能会存在瓶颈。 这时&#xff0c;用ES就很好的解决这个问题。 ES组件很多&#xff1a;包括 elasticsearch kibana beats logstash 安装 elasticsearch 下载&#xff1a; Elasticsearch 7.10.2 | El…

SpringBoot项目搭建+登录功能实现(小结)

项目目录 登录功能实现思路 目录 1.pom.xml添加依赖 2.配置application.yml文件 3.sql映射文件配置---UserMapper.xml 4.导入页面资源 5.Springboot启动类的配置 6.编写全局配置类 config->AppConfig 7.创建实体类--数据表对应 8.修改login.html页面 9.编写UserCo…

基于SpringBoot的SSMP整合案例

基于SpringBoot的SSMP整合案例 简介&#xff1a;SSMP(SpringSpringMVCMyBatis)&#xff0c;通过SpringBoot整合SSMP来完成增删改查案例。 功能开发模块 实体类开发————使用Lombok快速制作实体类Dao开发————整合MyBatisPlus&#xff0c;制作数据层测试Service开发——…

如意如意猿如意

如意如意猿如意什么是猿如意猿如意效率工具JSON编辑器jsontojava开发工具ChatGPT推荐指数评分及改进意见UI界面效率工具和开发工具ChatGPT一行代码总结经常听到一句话&#xff1a;如意如意随我心意&#xff0c;作为程序猿&#xff0c;我也想要一个如意&#xff0c;心中默念咒语…

LeetCode-91-解码方法

1、动态规划法 我们可以使用动态规划法来解决本问题。我们利用数组dp[i]dp[i]dp[i]来记录字符串前iii位能够组成的解码方法总数。在设计状态转移方程时&#xff0c;我们需要注意这样子的特殊情况&#xff1a;1、当s[i]s[i]s[i]不为0时&#xff0c;单独一个s[i]s[i]s[i]肯定能够…

PID算法总结-从公式原理到参数整定解析

目录 一、控制系统 1.1控制系统的分类 1.2 性能指标 二、PID算法的起源及特点 三、PID应用 四、PID公式原理 五、PID源码 六、PID整定方法 6.1 经验法 6.2 衰减曲线法 6.3 响应曲线法 参考文献&#xff1a; 一、控制系统 1.1控制系统的分类 分为开环控制、闭环控制和复…

Axios(二)

1.axios的基本使用 <!doctype html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, user-scalableno, initial-scale1.0, maximum-scale1.0, minimum-scale1.…

前端基础_像素的处理

像素的处理 在HTML5中使用canvas API所能够做到的图像处理技术中&#xff0c;还有一个更让人惊讶的技术就是像素处理技术。使用canvas API能够获取图像中的每一个像素&#xff0c;然后得到该像素颜色的rgb值或rgba值。 使用图形上下文对象的getImageData方法来获取图像中的像…

Docker安装Nginx 反向代理服务器

前端代码扔在服务器上怎么运行&#xff0c;首先安装Nginx&#xff0c;这里我用Docker安装Nginx 文章目录一、安装nginx docker镜像1、 获取nginx官方镜像2、查看镜像库3、宿主机创建好要挂载的目录4、启动一个不挂载的容器5、配置文件挂载到宿主机6、停止/删除容器7、查看宿主机…

Kaggle手写识别-卷积神经网络Top6%-代码详解

目录 1. Introduction 简介 2. Data preparation 数据准备 2.1 Load data 加载数据 2.2 Check for null and missing values 检查空值和缺失值 2.3 Normalization 规范化 2.4 Reshape 重塑 2.5 Label encoding 标签编码 2.6 Split training and valdiation set 拆分训…

阳康,但没恢复...

这几天真的是被新冠教育了… 我是上周五就开始有症状了&#xff0c;刚开始因为看了太多小感冒、没流感厉害、几天就康复的言论&#xff0c;我以为应该很快就能好&#xff0c;再加上全过程一直没发烧还暗自窃喜&#xff1a;这玩意不过如此嘛。 没想到病毒很快教我重新做人了&a…

代码随想录训练营第15天

题目&#xff1a;二叉树的最大深度 递归法&#xff1a;后序遍历。具体思想&#xff0c; 终止条件是如果指针指向了空&#xff08;也就是此时是叶子结点&#xff09;&#xff0c;那么返回0。然后根据左右中的递归顺序去调用函数&#xff08;并且保存这次的左右子树的深度&#…

矽昌--Wireless配置简述

Wireless配置简述 1 编译 1.1 首次编译 ​ 如果是第一次编译时就需要添加wifi模块&#xff0c;请检查所需编译版型的配置&#xff0c;配置位于openwrt-18.06/target/linux/siflower/ 文件夹下&#xff0c;例如sf19a28_ac28_fullmask_def.config为ac28版型的配置。 查看配置并…

截至2022年12月共计451个信息安全国家标准汇总

写在前面 早年刚参加信息安全工作更多的学点皮毛技术&#xff0c;到处找安全工具&#xff0c;跟踪poc&#xff0c;拿到一个就全网扫一遍&#xff0c;从来没有想过&#xff0c;系统化的安全工作应该怎样搞?我做的工作在安全体系中处于哪个阶段? 后来有机会做企业安全建设&…

计网第二章.物理层

以下是湖科大计算机网络公开课的笔记&#xff1a; 1. 物理层的基本概念 物理层是解决在各种传输媒体上传输比特0和1的问题。 像用双绞线还是光纤或同轴电缆、接线器形状、尺寸、引脚数目、电压范围、某一电平的电压表示何种意义… 物理层为数据链路层屏蔽了各种传输媒体的差…

React学习32(深浅克隆之Immutable.js)

Immutable.js github地址&#xff1a;https://github.com/immutable-js/immutable-js 介绍 每次修改一个immutable对象时都会创建一个新的不可变的对象&#xff0c;在新对象上操作并不会影响到原 对象的数据&#xff0c;那Immutable这个库的实现是深拷贝还是浅拷贝&#xff…

【数据结构】优先级队列(堆)与PriorityQueue

目录 一、堆 二、Java里的集合类PriorityQueue 1、优先级队列的概念 2、构造方法 3、常用方法 1.入队offer 2.出队poll 3.获取队首元素peek 4.扩容机制 4、 注意事项 三、实现大根堆 1、准备字段 2、创建大根堆 3、offer 4、poll 5、peek 一、堆 如果有一个关键…