由武汉大学的雷珏莹和王晓光合著的《智慧数据视角下古籍数字出版的创新路径研究》论文从智慧数据1的视角出发,探讨了我国古籍数字出版的现状及其发展瓶颈,提出了古籍数字出版在内容、形式、服务和技术四个方面的创新路径。
文中, 研究者首先详细分析了当前古籍数字出版的现状,并指出了存在的一系列问题。
当前存在的问题
一、资源加工程度浅,知识发现能力不足
-
资源细粒度不足:
- 古籍的数字资源主要包括图像型数据和文本型数据,很多数据仍以非结构、非向量化和非语义化的形式存在,难以被计算机识别和解释,导致潜在价值信息难以被获取。
- 现有的古籍数字出版活动大多仅满足资源存储、传播和简单检索,缺乏对古籍文献内容和意义的深层次开发。
-
数据关联程度较低:
- 古籍数字出版平台虽整合了内部或机构之间的古籍数据资源,但由于缺乏深度结构化和语义化的标注处理,资源难以建立语义层面的关联。
- 不同古籍文本之间无法实现知识层面的联系,智能检索和知识发现功能受到限制。
-
数据标准不统一:
- 古籍数字化过程中,数据格式繁多,缺乏统一标准。图片格式、字符编码、标注模型等方面的标准不一致,导致不同数据资源之间的整合困难。
- 数据标准的不统一降低了古籍资源的利用效率,影响了跨平台、跨数据库整合出版的效果。
二、产品开发形式纷杂,数据生产力较弱
-
开发形式单一:
- 现有古籍数字产品主要形式包括单机型古籍光盘、古籍数据库、古籍数字平台等,但这些形式大多停留在对资源文本的展示层面,缺乏深层次的知识展示和利用功能。
-
数据生产力较低:
- 由于对古籍数据价值认识不足,资源加工利用工作较粗浅,导致古籍数字产品虽然数量增加,但实际生产要素转化程度、数据变现能力和文化生产力仍然较低。
三、知识需求层次化,服务供给缺乏创新
-
服务内容单一:
- 古籍数字出版的服务水平停留在古籍文本浏览、阅读和使用的计算机化,缺乏对古籍文化内涵的深度挖掘和展示。
- VR/AR、AI等新兴媒介技术应用不足,缺乏创新性。
-
服务场景有限:
- 除了制作增强型出版物、专题展览、综艺节目、短视频和纪录片外,数字服务场景的构建缺乏个性化和多元化,与数字文化新业态的结合不紧密,文化普及推广进展缓慢。
四、技术创新应用不足,古籍活化利用受限
-
基础性技术应用不足:
- 在古籍资源的基础性加工处理中,专门针对古汉语处理的模型、方法和开源工具包的开发利用效率较低。
- 手写文献识别、复杂版面自动切分、古文字自动补全与推理等技术需进一步探索。
-
前沿技术应用不足:
- 在古籍深层次知识提取方面,机器学习、人工智能、关联数据、文本生成、知识图谱等前沿技术的应用尚待突破。
- 在古籍相关文化产品的创意开发中,增强现实、GIS、3D建模、虚拟仿真、数字孪生、元宇宙、NFT2、AIGC等技术与古籍数字出版的结合仍有较大空间。
通过识别和解决这些问题,研究者围绕内容、形式、服务和技术提出了古籍数字出版路径。
五大创新路径
内容创新路径
- 加强资源聚合与管理:构建高质量的古籍数字资源基础,加强数据结构的统一化,提升资源整合效率。
- 深入挖掘数字内容:通过深层次的文本内容与知识体系间的关联挖掘,提升古籍内容的知识发现能力。
- 建设标准体系:制定科学、规范的古籍数字资源标准,保障古籍数据的质量和一致性。
形式创新路径
- 强化科技赋能的产品创新:利用现代技术对古籍内容进行多样化的产品设计,如3D技术、虚拟现实等,增强用户体验。
- 平台驱动的新形态:构建“内容平台 + 交换平台 + 服务平台”的综合平台,优化古籍数字资源的生产与利用。
服务创新路径
- 建立多元协同机制:通过跨学科合作、产学研合作等方式,构建资源共享与价值共创网络,提升古籍资源的利用效能。
- 服务数字学术需求:搭建兼备内容与工具的数字学术研究环境,提供细粒度、可分析的古籍数据内容,辅助学术研究。
- 面向文化普及的推广场景:利用新媒体技术,丰富古籍数字产品的创意设计与服务模式,推动古籍文化的大众化传播。
技术创新路径
- 智能分析与挖掘技术:应用人工智能、自然语言处理等技术,提高古籍数字化处理的智慧化水平,提升资源转化效率。
- 数字内容与新媒体的融合:结合全媒体技术,创新古籍数字内容的社会化、大众化传播方式,增强古籍内容的表现力和传播力。
参考文献
- 雷珏莹,王晓光.智慧数据视角下古籍数字出版的创新路径研究[J].出版发行研究,2023,(08):21-28.DOI:10.19393/j.cnki.cn11-1537/g2.2023.08.005.
从大数据中提取有意义的信息,通过数据融合与分析,实现决策辅助和行动的方法。 ↩︎
非同质化代币”(Non-Fungible Token)。这是一种利用区块链技术的数据单位,用于证明数字资产的所有权和唯一性。 ↩︎