档案数据智能采集工厂模型设计与实现

news2025/1/22 21:59:44

档案信息化从业人员肯定对异构系统数据采集过程中碰到的各种问题深有体会,有源系统供应商不配合的;数据接口不开放的;归档数据不符合规范的;数据敏感不提供的;等等;不一而足。但不幸的是档案信息系统处于政务信息化的后端,必然需要和各种行政办公系统、核心业务系统、数据管理系统进行对接,从这些前端系统中捕获、采集、接收档案数据,实现电子文件归档或者电子档案接收。由于前端系统中的数据来源四面八方、数据类型五花八门、数据格式千姿百态、数据流向千变万化,如何将其中有价值的、待归档的数据完整收集、有效管理、妥善保存、安全利用是各级档案管理部门需要深入思考的问题。这其中,异构档案信息资源的采集工作是所有问题的源头,是当前亟待解决的首要问题。

下图所示为智慧城市框架下城市运营、政府管理、社会治理、市民生活等各个信息系统产生的数据来源。面对汹涌而来的各类数据,作为政务信息资源最终归宿地的档案馆,该如何应对这种局面?

异构档案信息资源的主要来源

我们首先来分析一下异构档案信息资源的主要来源:
 

随着电子政务建设的不断深入而产生的有关食品安全、公共交通、社会保障、教育卫生、气象环境等民生档案信息资源及各类政务信息资源;

随着互联网、移动互联网技术的发展和普及而产生的各类网站数据、社交媒体数据、电子邮件数据等;

随着电子商务的不断完善和普及而产生的各类订单数据、账单数据、物流数据等;

随着大数据技术的发展和应用而产生的各类报表数据、统计数据、决策数据等。

以上各类异构档案信息资源如果按文件格式进行分类,主要包括文本文件、图像文件、图形文件、音频文件、视频文件、数据库文件、多媒体文件等;如果按其在源系统中的接口形式进行分类,可以分为Web服务、数据库接口、中间数据包等。

可以看出,智慧城市框架下各个业务条线的信息化建设水平不一致,建设时间有先后,技术架构有代差,再加上建设初期缺乏顶层设计、统筹规划和部门协同,缺少标准依据,很多单位只能各行其是、各自为政,造成业务应用软件、系统平台、数据结构千差万别,形成系统之间、网络之间、单位之间无法相互连接的“信息孤岛”和“数据烟囱”,给档案部门带来数据采集和归档方面的巨大难题。

数据采集技术

我们再来分析一下目前流行的各种数据采集技术,大致可以分为基于数据层的方法(包括数据管道技术、数据导入技术等)、基于逻辑层的方法(包括接口调用技术、数据交换技术等)和基于表示层的方法(包括数据抓取技术等)三类,如下表所示:

针对异构信息资源的采集,尽管存在各种采集技术,但是从上表的对比分析可以看出,各种采集技术都存在其局限性和适用场景,并不能满足多样化的异构档案信息资源的采集需求。比如:数据管道技术只能适用于源系统能够开放数据结构的情况;接口调用技术只能适用于源系统能够提供应用程序接口的情况。

但是可以通过融合数据导入工具、数据管道工具、程序调用接口、数据交换引擎和数据抓取工具等各种数据采集方法,根据异构源系统的特点有针对性地采用不同的数据采集方法,达到异构档案信息资源采集的目的。特别是在采用数据导入、数据管道等方式采集数据时,可以快速、灵活的设置源数据和目标数据的匹配关系,从而实现数据的智能采集。融合各种数据采集方法之后的通用数据采集工具架构如下图所示:

档案数据智能采集工厂模型

如果基于上图中的通用数据采集工具将其设计成一个模型,即为档案数据智能采集工厂模型。为了更全面的解决异构档案信息资源采集过程中存在的问题,笔者提出了“数据魔方”的概念:将数据源的多样性和异构性比喻为魔方的一个个“面”,基于通用数据采集工具,提供多种数据采集方法的组合供用户选择,以灵活应对不同来源、不同类型数据的采集需求,从而为异构档案信息资源的采集提供了一种智能化的先进方法。

数据智能采集工厂模型以“数据魔方”为核心,通过对通用数据采集工具的整合,以及各种配套工具(格式转换工具、数据检测工具、OCR识别工具、数据封装工具等)的集成,实现对智慧城市框架下各业务条线产生的异构数据的智能采集,并将数据清洗、分类、处理后纳入档案信息资源库(池)进行统一管理。从体系结构上来看,数据智能采集工厂模型由控制中心、魔方适配器、主动捕获触发引擎、嵌入式工具集和资源库(池)等部分组成。数据智能采集工厂模型图如下图所示:

数据智能采集工厂模型的各部分说明如下:


 

控制中心

是整个数据智能采集工厂的“大脑”,即指挥中心,完成各类采集规则的设计与预定义;可以针对各行各业、各类专业档案设置不同的元数据方案,由此可采集各种不同类型的档案数据,也可从不同单位的应用系统中抓取数据;


 

魔方适配器

为了加强异构档案信息资源的收集,通过集成通用数据采集工具,提供多种数据采集方式,如脱机数据包导入、数据管道、应用程序接口、数据交换引擎、网页信息抓取等,由多种工具组合成魔方适配器。魔方适配器具有多面性的特点,灵活应对多种途径、多种类型数据的采集需求;


 

主动捕获触发引擎

探测各业务系统中的数据状态变化情况,实现快速自动采集。可完成在线档案采集操作和离线采集及时提醒功能;


 

嵌入式工具集

对所采集的数据进行处理,是采集流程中的“加工作业车间”;提供多种数据处理解决方案,如格式转换方案、数据封装方案、四性检测方案等,每一类方案对应一种处理工具,这些工具都将与数据采集功能进行集成、整合并协同工作,可在预定义规则后由系统自动完成处理过程;


 

资源库(池)

只有经过过滤、清洗、转换并检测合格的数据才能最终进入资源库(池),进行统一存储以及管理。

数据智能采集工厂模型是在青岛市智慧档案馆一期工程项目建设过程中设计并实现的,很好地完成了青岛市智慧档案馆各种来源异构数据的采集任务,并且在采集过程中同时完成了格式转换、数据检测等操作,满足了“智慧收集”的目标。

 

数据智能采集工厂模型具有如下特点:

开放独立的模型架构:数据智能采集工厂模型可以识别各种类型的信息系统数据,如业务系统、办公系统、财务系统、互联网数据等,具有开放、独立、与业务系统无关的特点,可实现与各种异构系统的集成。

高效多样的数据采集:数据智能采集工厂模型通过整合通用数据采集工具,提供了基于数据层的采集方法、基于逻辑层的采集方法和基于表示层的采集方法,通过魔方适配器的灵活配置,可以完成不同情况下的数据采集任务,尽可能的满足各种异构档案信息资源的采集需求。

灵活多变的魔方特性:在数据导入、数据管道等方式采集数据时,可以快速、灵活的设置源数据和目标数据的匹配关系,具有魔方多面性、多元性的特点,根据实际业务(数据源)的变化,“转动”魔方,便可快速实现匹配,从而采集多种途径、多种类型档案数据。

全面一体的采集处理:数据智能采集工厂模型通过对通用数据采集工具以及各类嵌入式工具(如格式转换工具、数据检测工具、OCR识别工具、数据封装工具等)的整合,可实现异构档案信息资源的采集和处理一体化管理,便于异构档案信息资源的统一管理。

灵活方便的任务管理:各种数据采集方式都可以设置成“工作任务”,既可以即时启动、立即执行,也可以设置为定时任务,到一定时间点定时执行,灵活方便。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/190338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C 语言零基础入门教程(二十二)

C 错误处理 C 语言不提供对错误处理的直接支持,但是作为一种系统编程语言,它以返回值的形式允许您访问底层数据。在发生错误时,大多数的 C 或 UNIX 函数调用返回 1 或 NULL,同时会设置一个错误代码 errno,该错误代码是…

VS2017编译c dll的方法-编译bsio

VS2017编译c dll 有三种方法 (1).h和.c文件函数增加 __declspec(dllexport) (2)仅在.h函数添加__declspec(dllexport) (3)使用.def文件,不用在.h和.c文件的函数前增加__declspec(dllexport) …

【数据结构初阶】顺序表的实现(文末附原码)

⭐博客主页:️CS semi主页 ⭐欢迎关注:点赞收藏留言 ⭐系列专栏:数据结构初阶 ⭐代码仓库:Data Structure 家人们更新不易,你们的点赞和关注对我而言十分重要,友友们麻烦多多点赞+关注&#xff…

基于C讲解协程设计原理

协程设计原理 背景 以epoll处理fd为例: func () {while (1) {epoll_wait();for(;;) {recv();send();}} }在IO操作较为密集的情况下(网络IO和磁盘IO操作多,CPU计算少),由于检测到IO事件后,需要进行同步的…

美颜sdk动态贴纸是什么?

美颜sdk如今已经成了广大视频拍摄平台的刚需,用户们也习惯了这种新颖的拍摄形式,原相机被无情“打入冷宫”,特别是短视频和直播平台中,绝大部分用户都在使用美颜sdk的趣味功能进行拍摄,“动态贴纸”就是一个非常好的例…

什么是PEPPOL BIS?

和常见的X12以及EDIFACT类似,PEPPOL BIS也是一种EDI标准,主要用于B2G和B2B交易,在欧盟的应用十分广泛。在业务场景中,PEPPOL不单单只是用于发票,从下单到开票流程中均可提供标准化的数据传输。 在此前的文章中&#x…

[Ansible系列]ansible tag介绍

简介 在大型项目当中,通常一个playbook会有非常多的task。而我们每次执行这个playbook时,都会将 所有task运行一遍。而事实上,在实际使用过程中,我们可能只是想要执行其中的一部分任务而已, 并不想把整个playbook完整跑…

【单链表】数据结构单链表的实现

前言:在之前的学习中我们已经了解了顺序表的相关知识内容,但是顺序表我们通过思考可以想到如下问题: 中间/头部的插入删除,时间复杂度为O(N)增容需要申请新空间,拷贝数据,释放旧空间。会有不小的消耗。增容…

性能技术分享|Jmeter+InfluxDB+Grafana搭建性能平台

一、引言最近在公司做性能技术分享时,发现同事对环境搭建能力,还是有些欠缺。或许,这也是大部分性能测试工程师所欠缺的技能。因为绝大部分的性能测试工程师,要么是使用测试开发架构师搭建的性能平台,要么自己使用Jmet…

【Unity3D】激光灯、碰撞特效

1 需求描述 本文将模拟激光灯(或碰撞)特效,详细需求如下: 从鼠标位置发射屏幕射线,检测是否与物体发生碰撞当与物体发生碰撞时,在物体表面覆盖一层激光灯(或碰撞)特效本文代码见→激…

振弦采集模块VMTool 配置工具的传感器数据读取

振弦采集模块VMTool 配置工具的传感器数据读取 连接传感器 将振弦传感器两根线圈引线分别连接到 VM 模块模块的 SEN和 SEN-两个管脚。 通常不分正负极,任意连接即可。 连接模块电源 使用 5V~12V 直流电源连接到 VM 模块的 VIN 和 GND,电源正极连接到 VIN…

【数据结构基础】树 - 平衡二叉树(AVL)

平衡二叉树(Balanced Binary Tree)具有以下性质:它是一棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。平衡二叉树的常用实现方法有红黑树、AVL、替罪羊树、Treap、伸展树等。 最小二叉平…

数学建模与数据分析 || 1. 数学建模简介

数学建模简介 文章目录数学建模简介1. 数学建模比赛的理解2. 一般数据分析的流程3. 机器学习与统计数据分析4. 各种编程软件仅仅是工具,对问题的观察视角和解决问题的策略才是关键2.1 数学建模的特点2.2 以 python(jupyter notebook工作界面)…

JSR303校验(表单参数校验)

1、maven坐标<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-validation</artifactId><version>3.0.1</version> </dependency>2、校验规则3、定义好校验规则还需要开启校验&#…

用户区网络缓冲区

用户区网络缓冲区 为什么要有用户层缓冲区 TCP内核协议栈&#xff0c;每个连接都有一个接收缓冲区和一个发送缓冲区&#xff0c;为啥用户层也要有&#xff1a; 为啥要有接收缓冲区 生产者速度大于消费者速度&#xff1a;客户端发送地太快&#xff0c;服务器处理不过来&#…

SpringWebflux 执行流程和核心 API

SpringWebflux 基于 Reactor&#xff0c;默认使用容器是 Netty&#xff0c;Netty 是高性能的 NIO 框架&#xff0c;异步非阻 塞的框架 Netty_百度百科 (baidu.com)BIO、NIO、AIO_y_凉介的博客-CSDN博客_bin nio &#xff08;1&#xff09;Netty BIO 每一个请求过来会占用一个…

【系列05】类与对象 面向对象 封装继承多态 类 内部类

面向对象&#x1f601; 文章为本人随课程记录笔记形成 跟随老师"秦疆&#xff08;遇见狂神说)" 非常欢迎大家在文章下面留言评论互相交流,也欢迎大家有问题可以联系本人或者本人公众号 &#x1f609;学思则安 参考课程https://www.kuangstudy.com/course?cid1 有问…

Vue3通透教程【一】Vue3现状—必然趋势?

文章目录&#x1f31f; 专栏介绍&#x1f31f; Vue默认版本&#x1f31f; 拥抱Vue3的UI&#x1f31f; Vue3显著优势&#x1f31f; 专栏介绍 凉哥作为 Vue 的忠诚粉丝输出过大量的 Vue 文章&#xff0c;应粉丝要求开始更新 Vue3 的相关技术文章&#xff0c;Vue 框架目前的地位大…

现在什么款式运动无线耳机好、最适合运动的无线蓝牙耳机推荐

随着经济越来越好&#xff0c;人们的生活质量提高&#xff0c;我们对健康也是更加重视了。越来越多人开始“动起来”。健康运动&#xff0c;自然少不了专业的运动耳机。一副适合的运动耳机对我们锻炼身体有着事半功倍的作用&#xff0c;那么有哪些品牌值得推荐呢&#xff1f;小…

论文笔记(1):Large Language Models are few(1)-shot Table Reasoners

文章目录AbstractIntroductionRelated worksMethodExperimentdatasetbaselinesresultsmain resultsanalysisLimitationAbstract 已有研究表明&#xff0c;大型语言模型(LLM)在文本的少样本推理中表现excellent&#xff0c;本文证明LLM在表结构的f复杂少样本推理中表现也很comp…