关于“档案大数据”的非主流看法

news2024/11/27 16:36:21

近日,反复拜读了前国家档案局局长杨冬权先生今年6.9档案日的大作《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》,作为档案信息化从业者那真是倍感振奋,壮怀激烈!

 这篇文章绝对可以用气势磅礴、高屋建瓴这样的词语来形容,体现出作者俯瞰全局的站位和洞悉全场的眼光,让笔者深深折服。但是笔者对于文中提到的“全时代”中的“立档单位对所形成电子档案的全归档”这一观点还是存在不同看法,这与笔者一直以来萦绕心中、挥之不去的关于“档案大数据”的非主流观点存在交集,借此机会一吐为快。

“立档单位对所形成电子档案的全归档”

首先我们来分析一下“立档单位对所形成电子档案的全归档”这句话,笔者个人觉得这句话是存在一定语病的,“电子档案”应该是归档之后的产物,归档之前的应该是“电子数据”、“电子信息”或者“电子文件”,所以准确地说,这句话改为“立档单位对所形成电子数据的全归档”更加合适。结合文中提到的“很多信息部门、数据部门的电子信息、电子数据,目前也都是‘全部性管理’而不是‘选择性管理’的。这些电子信息、电子数据不都是电子档案吗?”进一步印证了笔者的看法,那就是作者提出的“全时代”的要求是将所有电子信息、电子数据全部纳入归档范围,实现“立档单位对所形成电子数据的全归档”的目标。

在笔者看来,这个目标非常宏伟,但感觉有些理想主义,在实际工作中很难落地,且不说档案部门自身有没有能力实现“全归档”,从职责分工上而言,也很容易受到质疑:档案部门的手是不是伸得有点太长了,会不会动了信息部门的奶酪?
 

“档案大数据”

当然,在本文中我们主要讨论“档案大数据”,对于上述问题不作进一步深入讨论。如果真的能够实现“所有电子数据全归档”,那毫无疑问,档案部门留存的电子档案必然是海量(EB),甚至是天量(ZB)级别的,妥妥的“档案大数据”。但问题是,最终归档进入档案部门的数据量并不大,从全国范围来讲也只有PB级,分解到每个单位,基本上都只有TB级,那还能称之为“档案大数据”吗?

我们以各级各类档案馆为例进行说明,档案室的情况类似。根据国家档案局发布的《2020年度全国档案主管部门和档案馆基本情况摘要》,全国共有各级各类档案馆4233个,馆藏电子档案1387.5TB,其中,数码照片390.2TB,数字录音、数字录像523.5TB。馆藏档案数字化成果19588.5TB。也就是说全国4233个各级各类档案馆截止到2020年年底的总数据量只有21PB!平均每家单位只有约5TB数据!

不可否认,从发展趋势上来看,各行各业都已经或者即将进入大数据时代,但至少到目前为止,对于档案行业而言,暂时还不需要为“数据大爆炸”过分担忧,哪怕是全面“单套制”之后大量电子文件进入档案部门,我们依然有充足的时间来比较、选择其他行业应用比较成熟的大数据技术和解决方案去应对未来的挑战。如果有人在大肆鼓吹“档案大数据”的必要性和紧迫性,那得思考一下他们的动机了,是不是又在制造和贩卖焦虑。

档案数据&大数据

说到这里,我们还是回过头来对照一下大数据的定义,看看档案数据和大数据的区别和联系,以便读者作出自己的判断。

2012年IBM提出的大数据4V特征已经深入人心,后续出来很多5V、6V的版本都是4V基础上的变种,认可度和普遍接受度肯定没有4V那么高。那我们就来对照一下档案数据是否具备大数据的4V特征:

 Volume数据量大

到底多大的数据量才能被称之为是大数据?这实际上也没有一个明确的定义,而且是相对变化的,门槛肯定会越来越高。就现阶段而言,笔者认为100TB以上的数据量称为大数据是比较合适的,显然档案部门目前能达到这个数据量的凤毛麟角。

 Velocity要求快速响应

对数据的实时性要求很高,能及时快速的响应变化,不管是数据处理还是数据分析在性能上都有很高要求。这方面对于档案数据而言问题不大,目前档案信息化系统大部分都是目录检索、全文调阅,档案信息资源库以关系型数据库为主构建,响应速度完全可以满足要求。

 Variety数据多样性

数据来自不同的数据源,非结构化数据越来越多,需要进行清洗、整理、筛选等操作,将其变为结构化或者半结构化数据。数据多样性对于档案数据而言是客观存在的,由于前端系统中的数据来源四面八方、数据类型五花八门、数据格式千姿百态、数据流向千变万化,如何将其中有价值的、待归档的数据完整收集、有效管理、妥善保存、安全利用是各级档案管理部门都面临的现实问题。但是这项工作要求在归档环节完成,最终进入档案信息资源库的都是规范的、有价值的、符合档案四性要求的数据。当然由于档案类型多种多样,档案信息资源库中除了相对规范的目录数据之外,也会存在大量文本、图形、图像、音视频、多媒体等各种格式的全文数据。

Value价值密度低

数据量大而价值密度低,数据中蕴含价值但整个过程如同沙里淘金、大海捞针。这一点存在较大的争议,有人为了突出大数据中蕴藏的价值而将这个V直接解释为“数据价值”,这实际上有失偏颇,也是对大数据技术的不尊重。事实上,要从海量数据中挖掘出其中的潜在价值是非常有难度和挑战的事情,相当于从一座“贫矿”中提炼黄金。但是档案数据的质量和价值密度远高于常规的大数据,相当于是一座“富矿”,甚至可以称之为“钻石矿”!

通过上述对照,我们可以发现,档案数据实际上和常规意义上的大数据存在很多不同之处,是否就能称之为“档案大数据”值得商榷。主要的不同点如下:

1. 绝大多数档案部门中现有档案数据量尚未达到大数据级别,现阶段采用传统关系型数据库存目录,文件系统存全文的方式建设档案信息资源库并开发数字档案馆(室)应用系统已经能够满足要求;

2. 虽然档案数据的来源复杂,格式多样,但进入档案信息资源库的都是已经归档处理、整理完毕的规范数据,大数据面临的海量异构非结构化数据高速处理和响应的场景并不存在,采用大数据技术来构建档案信息资源库完全没有必要;

3. 档案数据是高价值密度的数据,每一件档案都具有独特性和唯一性,都具有与生俱来的凭证价值和情报价值,所以档案数据中不存在没有价值的数据,这和低价值密度的大数据存在天壤之别。如果说大数据属于沙里淘金,因此需要专业而强大的大数据技术支撑,那么档案数据就相当于遍地是黄金,只需要客观、真实、准确的提供利用服务即可。

回归文章

我们再回到《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》这篇文章,文中有这样一句话:“在这个时代,任何数据或档案都不是无用的,它都是大数据的一部分,都可以给依据大数据所作的科学分析、科学预测、定向推送、人工智能、智慧管理等作出贡献。”通过上述分析,对于这句话我们可以这样理解:

1. 档案数据是大数据的一部分,这肯定没有错;但档案数据本身是不是就构成了档案大数据,这不一定;

2. 档案数据本身就有价值,不是因为档案数据纳入大数据之后才具有价值;但借助大数据技术可以进一步挖掘并发挥档案数据的价值。

写在最后

最后,我们想说的是,尽管现阶段档案数据可能还称不上“档案大数据”,但毋庸讳言亦无法回避,大数据时代已经来临,必将对档案部门以及数字档案馆(室)建设工作造成巨大的冲击,机遇与挑战并存,我们既无需过分焦虑,要有“技术都是为业务服务”的平常心;也不能闭关自守,要有顺势而上的魄力和勇气。大数据技术现阶段可能在档案收集、管理、存储方面暂时发挥不了很大作用,但至少可以先从档案利用服务方面寻找突破口,通过对用户需求的深入分析,充分挖掘利用档案数据中潜在的价值,从而提升数字档案馆(室)的服务能力以及服务水平,实现利用智能化、服务个性化、交互自然化和信息可视化。

 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/345377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle Data Guard 角色转换(Role Transitions)

查询视图V$DATABASE的DATABASE_ROLE列可以看到数据库当前的角色。 1.角色转换介绍 Oracle Data Guard让你可以使用SQL语句或者通过Oracle Data Guard broker界面来动态更改数据库的角色,Oracle Data Guard支持以下的角色转换: 1&#xff0…

C语言——指针、数组的经典笔试题目

文章目录前言1.一维数组2.字符数组3.二维数组4.经典指针试题前言 1、数组名通常表示首元素地址,sizeof(数组名)和&数组名两种情况下,数组名表示整个数组。 2、地址在内存中唯一标识一块空间,大小是4/8字节。32位平台4字节,64位…

hive数据存储格式

1、Hive存储数据的格式如下: 存储数据格式存储形式TEXTFILE行式存储SEQUENCEFILE行式存储ORC列式存储PARQUET列式存储 2、行式存储和列式存储 解释: 1、上图左面为逻辑表;右面第一个为行式存储,第二个温列式存储; …

【C语言】程序环境和预处理|预处理详解|定义宏(上)

主页:114514的代码大冒险 qq:2188956112(欢迎小伙伴呀hi✿(。◕ᴗ◕。)✿ ) Gitee:庄嘉豪 (zhuang-jiahaoxxx) - Gitee.com 文章目录 目录 文章目录 前言 一、程序的翻译环境和执行环境 二、详解编译和链接 1.翻译环境 2.编…

TCP协议十大特性

日升时奋斗,日落时自省 目录 1、确认应答 1.1、序号编辑 2、超时重传 3、连接管理 3.1、三次握手 3.2、四次挥手 4、滑动窗口 5、流量控制 6、拥塞控制 7、延时应答 8、捎带应答 9、面向字节流 10、异常情况 TCP协议: 特点:有…

浅析EasyCVR安防视频能力在智慧小区建设场景中的应用及意义

一、行业需求 城市的发展创造了大量工作机会,人口的聚集也推动了居民住宅建设率的增长。人民生活旨在安居乐业,能否住得“踏实”是很多劳动工作者最关心的问题。但目前随着住宅小区规模的不断扩大、人口逐渐密集,在保证居住环境舒适整洁的同…

C++入门:初识类和对象

C入门:类和对象1 本节目录C入门:类和对象11.auto关键字(C11)1.1类型别名思考1.2auto简介typeid运算符:获取类型信息1.3 auto的使用细则1.4auto不能推到的场景2.基于范围的for循环(C11)2.1范围for的语法2.2范围for的使用条件3.指针…

SpringCloud篇——什么是SpringCloud、有什么优缺点、学习顺序是什么

文章目录一、首先看官方解释二、Spring Cloud 的项目的位置三、Spring Cloud的子项目四、Spring Cloud 现状五、spring cloud 优缺点六、Spring Cloud 和 Dubbo 对比七、Spring Cloud 学习路线一、首先看官方解释 Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式…

【Azure 架构师学习笔记】-Azure Logic Apps(6)- Logic Apps调用ADF

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Logic Apps】系列。 接上文【Azure 架构师学习笔记】-Azure Logic Apps(5)- 标准和使用量类型的区别 前言 Logic Apps 和 ADF 的搭配使用是常见的组合,它们可以互相弥补各自的不足和…

opencv绘制椭圆

大家好,我是csdn的博主:lqj_本人 这是我的个人博客主页: lqj_本人的博客_CSDN博客-微信小程序,前端,python领域博主lqj_本人擅长微信小程序,前端,python,等方面的知识https://blog.csdn.net/lbcyllqj?spm1011.2415.3001.5343哔哩哔哩欢迎关注…

ViT自适应patch划分 ACM MM 2021

Transformer在计算机视觉方面取得了巨大的成功,而如何分割图像中的patch仍然是一个问题。现有的方法通常使用固定大小的patch embedding,这可能会破坏对象的语义。为了解决这一问题,作者提出了一种新的Deformable Patch模块(DPT&a…

CPP2022-30-期末模拟测试03

6-1 引用作函数形参交换两个整数 分数 5 全屏浏览题目 切换布局 作者 李廷元 单位 中国民用航空飞行学院 设计一个void类型的函数Swap&#xff0c;该函数有两个引用类型的参数&#xff0c;函数功能为实现两个整数交换的操作。 裁判测试程序样例&#xff1a; #include <…

Linux网络:聚合链路技术

目录 一、聚合链路技术 1、bonding作用 2、Bonding聚合链路工作模式 3、Bonding实现 一、聚合链路技术 1、bonding作用 将多块网卡绑定同一IP地址对外提供服务&#xff0c;可以实现高可用或者负载均衡。直接给两块网卡设置同一IP地址是不可以的。通过 bonding&#xff0c…

微信小程序DAY2

文章目录DAY2一、学习目标二、数据绑定2-1、插值表达式![请添加图片描述](https://img-blog.csdnimg.cn/f433301ae5de4094bc397a8c5ea216d7.png)2-2、Mustache语法的应用场景2-2-1、绑定属性2-2-2、三元运算三、事件绑定3-1、事件对象的属性列表3-2、target 和 currentTarget 的…

Win12呼之欲出

Win10系统的电子授权将要停止&#xff0c;20H2、21H2两个版本未来也没有非安全更新了&#xff0c;只剩下Win10 22H2最新版还会继续更新功能&#xff1b;考虑到Win10庞大的基数&#xff0c;至少10亿台电脑的装机量依然是不可忽视的&#xff0c;所以Win10马上被淘汰是不可能的&am…

Linux内核转储---Kdump,Crash使用介绍

文章目录Kdump简介Crash简介Ubuntu下安装使用方法Crash相关命令crash基本用法crash的基本命令help&#xff1a;crash所提供的调试命令log&#xff1a;查看日志信息&#xff0c;类似dmesg输出bt&#xff1a;查看异常时候的堆栈信息dev: 查看设备的情况dis&#xff1a;反汇编代码…

三维形体的表面积

三维形体的表面积 在 N * N 的网格上&#xff0c;我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 例子&#xff1a; 输入&#xff1a;[[2,1],[1,0]]输出&#xff1a;18 解题思路&#xff1…

G-GhostNet(IJCV 2022)原理与代码解析

paper&#xff1a;GhostNets on Heterogeneous Devices via Cheap Operationscode&#xff1a;https://github.com/huawei-noah/Efficient-AI-Backbones/blob/master/g_ghost_pytorch/g_ghost_regnet.py前言本文提出了两种轻量网路&#xff0c;用于CPU端的C-GhostNet和用于GPU端…

你是真的“C”——Visual Studio 2022(VS2022)编译器 -—实用调试技巧

你是真的“C”——Visual Studio 2022&#xff08;VS2022&#xff09;编译器 -—实用调试技巧&#x1f60e;前言&#x1f64c;1. 什么是bug&#xff1f;&#x1f64c;2. 调试是什么&#xff1f;有多重要&#xff1f;&#x1f64c;2.1 调试是什么&#xff1f;2.2 调试的基本步骤…

hgame202301 week1 web writeup

目录前言一、Classic Childhood Game二、Become A Member三、Show Me Your Beauty四、Guess Who I Am后记前言 记录2023年1月的hgame比赛week1的web题 第一周还是比较简单的&#xff0c;除了那个涉及到网页爬虫的题一度不会写&#xff08;本「待入门」选手还是太菜了 一、Cla…