数据治理与档案信息资源体系建设

news2024/11/25 22:52:45

如果要评选大数据或者数字化转型领域中哪个词最让人费解、最讲不清楚,“数据治理(Data Governance)”绝对是候选之一。说实话,笔者到现在也没有完全整明白,因为数据治理包含的范围太广了,可以说是包罗万象,任何和数据相关的行为和动作,不管是技术手段还是业务规则,不管是组织架构还是规范制度,都可以归入数据治理的范畴。

数据治理最权威的定义应该来自于国际数据管理协会(DAMA):数据治理是对数据资产管理行使权力和控制的活动集合。在DAMA发布的《数据管理知识体系指南(DMBOK2.0)》中给出了数据治理车轮图如下:

从上图可以看出,数据治理位于车轮图的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。

可以说,数据治理是企业战略、组织架构、数据标准、管理规范、数据文化、技术工具的一个综合体。关于数据治理的详细探讨超出了本文的范围,感兴趣的读者可以查阅相关文献。本文要探讨的是档案数据需不需要治理?应该如何治理?

国家档案局档案馆(室)业务指导司领导今年4月份在“中国电子文件管理论坛”上作了《从数字档案馆(室)到智慧档案的路径和构想》的报告,其中给出了档案数据治理的框架如下图红框所示:

上图将档案数据治理划分为数据采集存储、数据治理分析和数据处理汇聚三个业务域,而数据治理分析又包括数据标准、数据模型、数据质量、数据处理、数据安全和数据校验六个组成部分。

总之,关于数据治理的说法很多,也不存在对与错的问题,只有适不适合的问题。笔者想说的是档案数据治理应该特别强调前端控制,新版《中华人民共和国档案法》第三十七条规定:“电子档案管理办法由国家档案主管部门会同有关部门制定”。也就是说,档案部门需要制定各类电子数据、电子文件归档的规范标准和管理办法,并建立档案信息资源管理体系,将符合归档要求的各类电子数据、电子文件接收入库,纳入档案信息资源库管理范围,实际上这就是档案数据治理!换句话说,档案部门要求提交归档(移交)的数据就是治理好的符合归档(移交)要求的数据,而归档(移交)接收之后进入档案信息资源库的就是规范的数据,已经基本不需要治理。

当然,规范有序、张弛有度的档案信息资源体系的构建是前提条件,否则哪怕是符合归档(移交)要求的数据入库之后也会随之混乱,从而又需要重新治理。以下笔者结合多年的档案信息化项目实践经验给出档案信息资源体系的建设规划。

档案信息资源体系

档案信息资源体系包括统一的目录体系、交换体系和档案信息资源库的建设。在合理的信息分类的基础上,建立统一的目录和索引,建成并逐步完善信息资源目录体系;建立数据共享交换机制,提供统一的标准和规范交换体系;对信息资源的建设进行统一的规划,并充分考虑到将来的扩展,分期分批组织建设档案信息资源库。档案信息资源体系示意如下图所示:

其主要组成部分介绍如下:

档案信息资源库

是档案信息资源体系最为核心和重要的组成部分。档案信息资源库的建设,要做到结构合理、标准统一、管理规范,实现信息的有序流动和广泛共享。根据档案系统的特点,档案信息资源库的初步规划可以划分为目录数据库、全文数据库、多媒体数据库、规范标准库、档案管理库和系统维护库六部分;

目录体系

通过定义信息资源目录体系,建立信息资源管理机制,实现目录注册、目录管理和信息检索等功能;

元数据库

元数据是描述数据的数据,通过元数据,应用程序可以知道在信息资源库中存在哪些表和字段以及它们之间的关系,应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据信息。通过建立统一的元数据库,为信息资源在各个应用系统中的共享奠定基础;

数据接口

包括元数据访问接口、数据访问接口和数据交换接口。信息资源体系通过对外提供访问接口,达到有效屏蔽网络异构、操作系统异构、数据库异构给数据访问带来的影响,保证信息资源库技术变化不会影响到应用系统的访问的目的,从而既实现了应用的透明访问,又支持了信息资源库的不断发展和管理机制的不断完善。

02

目录体系设计

目录体系是信息资源体系的一个重要组成部分,它相当于是信息资源的地址簿,外部应用对信息资源库的访问都是通过目录体系完成。特别是对于档案信息资源而言,档案全文(不管是扫描图像文件还是原生电子文件)都是非结构化数据,按照一定的目录结构存储在文件系统中,需要通过目录体系进行指引和调用。目录体系具有以下功能:

目录注册

建立描述资源的核心元数据,标识并描述所有的信息资源,包括信息资源的名称、背景、组织、关系等信息;

目录管理

建立描述信息资源的分类体系,以此为基础将所有信息资源分类管理;

信息检索

与信息资源存储相关联,描述资源的访问信息,包括权限、访问方法、访问地址等,以此为基础通过资源目录记录的信息获取资源实体。


 

典型的目录结构如下图所示:

左侧的目录结构和右侧的电子全文根据档号规则建立,实现了目录数据和全文数据的自然关联,便于资源的访问调用。

元数据库设计

由于档案信息资源库中存储的档案类型包括但不限于文书档案、声像档案、科技档案、会计档案、实物档案、各类专业档案、各类专题档案、各类民生档案等,为了实现各种档案类型的统一维护、快速扩展和跨门类查询,有必要建立元数据库。目录体系中涉及到的元数据也都存储在元数据库中。

在元数据库中首先按照相关标准规范的要求建立各种档案类型的数据结构模板库,新增档案类型时既可以在继承现有数据结构模板基础上扩展,也可以新建数据结构模板便于将来再利用。这种基于模板的自定义表结构设计一方面考虑到数据结构的规范性,同时又充分考虑到数据结构扩展的灵活性和快速性。

数据结构自定义的界面操作示意如下图所示(左侧档案类型树根据相关规范标准提供了各类数据结构模板,右侧可以对数据结构进行维护):

04

资源建库(以档案馆为例)

档案信息资源的来源包括但不限于馆藏档案数据录入与档案数字化成果的接收、电子档案移交接收、日常管理信息的录入、网上政务大厅归档数据接收、实体档案辅助管理信息的采集、备份数据的导入、现有的档案数据库的迁移等各种方式,如下图所示:

说明如下:

1. 档案信息资源库中的数据,从不同角度来看可以划分为多种类型:

从数据产生的性质来划分

目录数据:

记录了档案的条目信息和元数据信息,存放在关系数据库中;

全文数据:

以文本或影像格式存放在存储设备上,记录了档案的全文内容;

多媒体数据:

特殊格式的全文数据,以音视频格式存放在存储设备上,记录了档案的全文内容;

业务规则数据:

包含各类业务规则和规范标准信息,比如业务规则库、元数据模板、数据字典信息等;

档案管理数据:

记录了档案从收集到长期保存或销毁的全过程、全方位管理信息;

系统维护数据:

记录了系统运行的各种信息,包括系统初始化数据、用户权限数据、系统日志等。

从数据的档案分类属性来划分

包括文书、照片、声像、科技、会计、实物、婚姻等类型。

从数据产生的利用范围来划分

开放数据:

包括对公众开放的数据和对政府工作人员开放的数据,需要根据统一的要求来划定;

控制数据:

不能够在互联网上开放的数据,但这些数据可以通过申请授权后提供利用;

保密数据:

不能开放,只能由档案管理员使用或通过申请后只能到档案馆查询利用的数据;

系统数据:

管理数据、系统维护数据一般是系统内部产生的数据,这些数据只面向档案管理员和系统管理员。

2、信息资源收集主要包括三种方式:

在线录入:

提供了档案目录信息的手工录入等方式;

接收进馆:

通过各种数据交换手段,将OA系统、政务系统和各类业务系统产生的电子档案数据接收进馆;

数据导入:

通过脱机存储设备的方式完成数据移交,比如网络条件不具备的立档单位移交数据。

3、从数据利用的角度讲,分别面向档案管理员、系统管理员、各级领导、机关人员、社会公众和档案利用者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/167518.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高潜人才的自我要求

前言,上次写了个《潜力出众的你有这样的特质吗?》,地址如下:点我查看,这次在写个高潜人才的自我要求。本次以6个纬度来进行分析;3是基本要求,4是追求卓越,看你目前做到了哪个级别&am…

跨平台API对接(Python)的使用

Jenkins 是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于 Hudson(Hudson 是商用的),主要用于持续、自动的构建/测试软件项目、监控外部任务的运行。后端可以利用 Jenkins 对任务进行调度运行:后端可利用 HTT…

【进阶】Spring更简单的读取和存储对象

努力经营当下,直至未来明朗! 文章目录一、存储Bean对象一)前置工作:配置扫描路径(重要)二)添加注解存储Bean对象3. 五大类注解:4. 方法注解:6. 相关问题7. 补充【结论、查…

ROS2机器人编程简述humble-第二章-DEVELOPING THE FIRST NODE .2

0.1ROS2机器人编程简述新书推荐-A Concise Introduction to Robot Programming with ROS21.1ROS2机器人编程简述humble-第一章-Introduction2.1ROS2机器人编程简述humble-第二章-First Steps with ROS2 .12.2主要内容是全手工创建一个最简单的自定义节点,其实没啥具…

IB学生必看的时间表(二)

上期谈到在IB预科课程的第一个学年下学期,便要开始作报读大学的准备,到底为什么? 暑假不容松懈 现在来到放暑假了。虽说不用上课,学生没有了学习压力,但就以下三方面来看,学生还是要继续投放心力。 首先&am…

Unity 之 Addressable可寻址系统 -- 代码加载介绍 -- 进阶(一)

Unity 之 可寻址系统 -- 代码加载介绍 -- 进阶(一)一,可寻址系统代码加载1.1 回调形式1.2 异步等待1.3 面板赋值1.4 同步加载二,可寻址系统分标签加载2.1 场景搭建2.2 代码示例2.3 效果展示三,代码加载可寻址的解释概述…

Cadence OrCAD: 跨页符和电源符号命名优先级的一个小问题

Cadence OrCAD: 跨页符和电源符号命名优先级的一个小问题 遇到的问题 最近项目中,有个电源需要做负载端的反馈,类似下图的signal1和signal1N,反馈使用类似伪差分线,把电压信号和负载端的GND都连到DC-DC控制器。DC-DC对应的反馈引…

字节跳动青训营--前端day1

文章目录前言一、 前端1 前端的技术栈2. 前端的边界3. 前端的关注点二、 HTML1. HTML常用标签及语义化2. HTML 语法3. 谁在使用我们写的HTML前言 仅以此文章记录学习历程 一、 前端 解决GUI人机交互问题 1 前端的技术栈 2. 前端的边界 nodejs–服务器端应用 electron… --客…

【数据结构】6.1 图的基本概念和术语

文章目录前言6.1 图的定义和术语前言 图是一种比线性表和树更为复杂的数据结构。 在线性结构中,结点之间的关系属于一个对一个;数据元素之间有着线性关系,每个数据元素只有一个直接前趋和一个直接后继, 在树形结构中,…

算法设计与分析课程

算法的由来 算法的定义 算法的定义:给定计算问题,算法是一系列良定义的计算步骤,逐一执行计算步骤可得到预期的输出。 良定义:定义明确无歧义 计算步骤:计算机可以实现的指令 有了良定义的计算步骤,计算机就…

Java基础篇01-运算符的使用

01| Java中的数据类型 ) 1. 数值型: 序号类型空间占用说明最小值最大值默认值优缺点对比举例1byte8位有符号整数-128(-2^7)127 (2^7-1)0byte 类型用在大型数组中节约空间,主要代替整数,因为 byte 变量占用的空间只有 int 类型的四分之一by…

6、Denoising Diffusion Probabilistic Models(扩散模型)

简介 主页:https://hojonathanho.github.io/diffusion/ 扩散模型 (diffusion models)是深度生成模型中新的SOTA。 扩散模型在图片生成任务中超越了原SOTA:GAN,并且在诸多应用领域都有出色的表现,如计算机…

【docker概念和实践 1】 基本概念和组成原理

一、说明 初学Docker就一个字:乱!这是因为Docker是一个庞大体系,初学时不了解全貌,处于“盲人摸象”状态,因不能通晓要领,学了一点,过后就忘了。而了解Docker全貌并非易事,官方文档也…

前端学习记录-Javascript

pink JS基础语法JavaScript核心教程阮一峰JS基础 JS基础语法 初识JS JS三种书写位置:行内、内嵌、引入式。单行注释 ctrl/ 多行注释 shift alt a输入输出语句 声明变量 var age;变量命名规范:字母、数字、下划线、美元符号组成,区分大小写…

质量体系搭建

测试团队的发展历程 初期阶段 特点:提供“保姆式”服务,以发现BUG为主要任务。 工作主要:以功能测试、兼容行测试为主的手工测试,每天进行大量的、重复性的工作,即便如此依然会有遗漏。刚起步的测试团队基本处于这个阶…

LeetCode分类刷题----哈希表篇

哈希表哈希表1.有效的字母异位词242.有效的字母异位词383.赎金信49.字母异位词分组438.找到字符串中所有字母异位词2.两个数组的交集349.两个数组的交集350.两个数组的交集||3.快乐数202202.快乐数4.两数之和1.两数之和5.四数相加454.四数相加||6.三数之和15.三数之和7.四数之和…

ARM 实时时钟 RTC

一、何为实时时钟 (1) real time clock,真实时间,就是所谓的xx年x月x日x时x分x秒星期x. (2) RTC是 SoC 中一个内部外设,RTC 有自己独立的晶振提供 RTC 时钟源(32.768KHz),内部有一些寄存器用来记录时间&am…

微信小程序登陆,后端接口实现 - springboot

登录流程 1、通过调用wx.login获取登录凭证(code) uni-app通过调用uni.login 2、前端将code提交给服务器,springboot访问 auth.code2Session,使用 code 换取 openid、unionid、session_key 等信息。 3、完成登录操作&#xff0…

数学计算-C语言实现

任务描述 计算如下公式的值: 其中π=3.1415926 本关知识 C语言常用数学函数及其用法 在使用C语言数学函数时候,应该在该源文件中使用以下命令行包含库文件: #include <math.h> 或 #include "math.h" 本题中用到的C语言数学函数如下: abs函数: 求整型…

Pytorch模型自定义数据集训练流程

文章目录Pytorch模型自定义数据集训练流程1、任务描述2、导入各种需要用到的包3、分割数据集4、将数据转成pytorch标准的DataLoader输入格式5、导入预训练模型&#xff0c;并修改分类层6、开始模型训练7、利用训好的模型做预测Pytorch模型自定义数据集训练流程 我们以kaggle竞…