合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

news2024/11/26 23:26:08

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗?奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在2009年便已发布,如今突然“翻红”,不仅体现了大众对于少数民族文化高涨的兴趣,也见证着优秀的传统文化不息的生命力。

文字是文化的重要载体,古彝文承载了深远的彝族历史内涵,蕴含着丰富的文化信息。近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。

校企合力,把七万多个字符“浓缩”成精简的字典

以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。

单一古彝文可表达多个释义(图源:《滇川黔桂彝文字集》 )

当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的合计,古彝文和现在仍然使用的各地的彝文,总数多达87046字,对如此庞大的字符集进行分类非常困难。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字特别丰富,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的识别带来了极大的挑战。

基于上述情况,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

典籍编码、识别过程(图源:西南彝志)

在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

“古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。

AI帮人类降低古彝文阅读难度

构建古彝文“大字典”需要解决的首要问题并非文字识别,而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,往往会变得模糊不清或残缺不全。在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。

在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题,并智能判定图像的优化方式,一键处理模糊、阴影、手指、屏幕纹等干扰因素,减轻后续图片处理工作,缩短内容识别、编码的操作周期。

扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志)

2022年5月,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,文件指出,到2035年,建成全面共享、重点集成的国家文化大数据体系。文化数据要素和人工智能技术的融合,将推动文化数字化战略的有效实施和文化产业的高质量发展,是优秀传统文化传承创新的有效路径。

合合信息在智能文字识别领域已有十七年深耕经验。此前,在AI识别甲骨文、西周钟鼎文(金文)领域,公司已进行了领先的探索和研究,为古彝文识别积累了经验,奠定了良好的技术基础,相关项目曾获得央视、新华社、《人民日报》等多家主流媒体的关注。

扫描全能王小程序上线H5,面向全社会进行古彝文典籍公益性征集及文化海报传递

加强文化遗产的保护、传承与合理利用任重道远,需要全社会共同行动。为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。

近年来,国家正不断推进文化数字化战略。2022年,国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出了“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。AI技术与古彝文的“牵手”,将助力民族文化在深入群众的过程中与新事物融合,为文化传承提供创新的源泉。

网友自发“创作”的古彝文对联

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1042519.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

竞赛 基于生成对抗网络的照片上色动态算法设计与实现 - 深度学习 opencv python

文章目录 1 前言1 课题背景2 GAN(生成对抗网络)2.1 简介2.2 基本原理 3 DeOldify 框架4 First Order Motion Model5 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于生成对抗网络的照片上色动态算法设计与实现 该项目较为新颖&am…

计算糖果(牛客)

一、题目 计算糖果_牛客题霸_牛客网 二、代码 #include <iostream> using namespace std;int main() {int x, y, m, n;cin >> x >> y >> m >> n;//A-Bx B-Cy ABm BCnif ((x > 30 || x < -30) && (y > 30 || y < -30) &am…

【Vue】模板语法,插值、指令、过滤器、计算属性及监听属性(内含面试题及毕设等实用案例)上篇

一、引言 1、什么是模板语法&#xff1f; Vue 的模板语法是一种用于在 HTML 中声明式地渲染 Vue 组件的语法。它基于 HTML&#xff0c;并通过特定的模板语法扩展了 HTML。Vue 使用了一种称为 “Mustache” 语法的模板插值来绑定数据到 HTML 元素上。 在 Vue 的模板语法中&…

像专业人士一样部署:掌握代码部署的最佳实践

作为开发人员&#xff0c;您知道部署代码可能是一个耗时且复杂的过程。简化生产部署对于确保您的代码尽快有效地到达用户手中至关重要。但如何实现这一目标呢&#xff1f;在本文中&#xff0c;我们将讨论简化生产部署的一些基本提示和技巧。 从自动化构建过程到优化发布策略&am…

Java高级应用——多线程

目录 多线程 相关名词解释 程序、进程与线程 并行与并发 单核与多核 Java多线程概述 Test测试框架测试多线程的注意事项 主线程和子线程的概念 Test测试类需要使用.join()方法来确保子线程执行完毕 线程调度&#xff08;目前仅了解&#xff09; 守护线程&#xff08;…

【Linux】Linux 常用命令

Linux 常用命令 1. 复制/粘贴2. 查看目录和文件: ls3. 查看当前目录: pwd4. 切换目录: cd5. Linux 目录结构6. 绝对路径 vs 相对路径7. tab 键补全8. ctrl c 重新输入9. 创建文件: touch10. 查看文件内容: cat11. 写内容 echo12. 创建目录: mkdir12. 删除文件: rm13. 拷贝文件…

易基因直播预告|细菌微生物基因表达调控表观研究易基因科技

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 DNA甲基化是在半个多世纪前在细菌中发现的。DNA碱基可以作为一个表观遗传调节因子——也就是说&#xff0c;它可以赋予相同的基因序列不同的和可逆的调控状态。在真核生物中&#xff0c;…

可变形注意力转换器综述

这篇文章基于本文的发现 一、说明 关于注意力机制&#xff0c;关于transformer等存在大量的研究和尝试&#xff0c;这些研究有的被沙汰&#xff0c;有的被采用并发扬光大&#xff0c;本篇对可变卷积、可变局部注意力机制和全局注意力机制做详细解释。因为这些模型规模巨大&…

【前端面试题】2023年 国庆 前端面试真题之JS篇

人的一生&#xff0c;总是难免有浮沉。不会永远如旭日东升&#xff0c;也不会永远痛苦潦倒。反复地一浮一沉&#xff0c;对于一个人来说&#xff0c;正是磨练。因此&#xff0c;浮在上面的&#xff0c;不必骄傲&#xff1b;沉在底下的&#xff0c;更用不着悲观。必须以率直、谦…

获取keystore中的公钥模数及md5

app备案时需要使用apk中的签名公钥&#xff0c;以及md5&#xff0c;但官方提供的方法是使用jadxGUI去打开apk获取&#xff1a; 填写App特征信息_备案-阿里云帮助中心 实际生产中apk都没有可能就要走备案流程。 但其实公钥模数和md5不需要apk&#xff0c;只需要keystore就行了。…

企业怎么在千万媒体渠道中找到适合自己的,媒介盒子告诉你

哈喽,大家好,今天媒介盒子小编又来跟大家分享软文推广的干货知识了,本篇分享的主要内容是:企业怎么在千千万万的媒体渠道中找到适合自己的。 1. 深入了解用户和产品 企业在进行产品推广之前&#xff0c;一定要全方位地挖掘产品可能应用到的使用场景。锁定产品的目标的目标用户…

OpenCV实现FAST算法角点检测 、ORB算法特征点检测

目录 1 Fast算法 1.1 Fast算法原理 1.2 实现办法 1.2.1 机器学习的角点检测器 1.2.2 非极大值抑制 1.3 代码实现 1.4 结果展示 2 &#xff0c;ORB算法 2.1代码实现 2.2 结果展示 1 Fast算法 1.1 Fast算法原理 1.2 实现办法 1.2.1 机器学习的角点检测器 1.2.2 …

React 全栈体系(十五)

第八章 React 扩展 一、setState 1. 代码 /* index.jsx */ import React, { Component } from reactexport default class Demo extends Component {state {count:0}add ()>{//对象式的setState/* //1.获取原来的count值const {count} this.state//2.更新状态this.set…

在Linux中通过docker安装宝塔面板

先在Linux中手动安装docker&#xff0c;然后在docker中安装宝塔面板&#xff0c;并进行docker网络端口映射。 手动安装docker 第一步&#xff0c;卸载旧版本docker。 若系统中已安装旧版本docker&#xff0c;则需要卸载旧版本docker以及与旧版本docker相关的依赖项。 命令&…

深入理解 Spring MVC 的工作原理

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

185_技巧_Power Query(M)语言快捷输入之搜狗输入法设置自定义短语

185_技巧_Power Query(M)语言快捷输入之搜狗输入法设置自定义短语 此前&#xff0c;我们发布过如何通过 QQ拼音输入法 来实现快速的输入Power Query(M) 语言。参考&#xff1a;https://jiaopengzi.com/730.html 今天我们来更新 Power Query(M) 语言在 搜狗输入法 中设置自定义…

iPhone 15首批体验出炉,掉漆、烫手、进灰,口碑严重崩塌

眼看 iPhone 15 系列已经上架&#xff0c;不知道大伙儿剁手了没有&#xff1f; 哦&#xff0c;原来你们也在等首批用户体验反馈啊&#xff01; 随着 22 号正式开售&#xff0c;到目前不少人陆续上手 iPhone 15 系。 咱们也是翻阅了大量贴吧用户反馈、电商平台评论等&#xff…

2023-09-26 LeetCode每日一题(递枕头)

2023-09-26每日一题 一、题目编号 2582. 递枕头二、题目链接 点击跳转到题目位置 三、题目描述 n 个人站成一排&#xff0c;按从 1 到 n 编号。 最初&#xff0c;排在队首的第一个人拿着一个枕头。每秒钟&#xff0c;拿着枕头的人会将枕头传递给队伍中的下一个人。一旦枕…

Python读取Excel每一行为列表—大PK(openpyxl\pandas\xlwings\xlrd)看谁用时少?

目录 背景使用—openpyxl&#xff08;耗时89秒输出&#xff09;使用—pandas&#xff08;耗时44秒输出&#xff09;使用—xlwings&#xff08;耗时15秒输出&#xff09;使用—xlrd&#xff08;耗时47秒输出&#xff09;总结 背景 我们在平常办公的时候&#xff0c;尤其是财务人…

流媒体播放器EasyPlayer.js无法播放H.265的情况是什么原因?该如何解决?

H5无插件流媒体播放器EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器&#xff0c;可支持多种流媒体协议播放&#xff0c;可支持H.264与H.265编码格式&#xff0c;性能稳定、播放流畅&#xff0c;能支持WebSocket-FLV、HTTP-FLV&#xff0c;HLS&#xff08;m3u8&#…