档案信息化从业人员肯定对异构系统数据采集过程中碰到的各种问题深有体会,有源系统供应商不配合的;数据接口不开放的;归档数据不符合规范的;数据敏感不提供的;等等;不一而足。但不幸的是档案信息系统处于政务信息化的后端,必然需要和各种行政办公系统、核心业务系统、数据管理系统进行对接,从这些前端系统中捕获、采集、接收档案数据,实现电子文件归档或者电子档案接收。由于前端系统中的数据来源四面八方、数据类型五花八门、数据格式千姿百态、数据流向千变万化,如何将其中有价值的、待归档的数据完整收集、有效管理、妥善保存、安全利用是各级档案管理部门需要深入思考的问题。这其中,异构档案信息资源的采集工作是所有问题的源头,是当前亟待解决的首要问题。
下图所示为智慧城市框架下城市运营、政府管理、社会治理、市民生活等各个信息系统产生的数据来源。面对汹涌而来的各类数据,作为政务信息资源最终归宿地的档案馆,该如何应对这种局面?
异构档案信息资源的主要来源
我们首先来分析一下异构档案信息资源的主要来源:
随着电子政务建设的不断深入而产生的有关食品安全、公共交通、社会保障、教育卫生、气象环境等民生档案信息资源及各类政务信息资源;
随着互联网、移动互联网技术的发展和普及而产生的各类网站数据、社交媒体数据、电子邮件数据等;
随着电子商务的不断完善和普及而产生的各类订单数据、账单数据、物流数据等;
随着大数据技术的发展和应用而产生的各类报表数据、统计数据、决策数据等。
以上各类异构档案信息资源如果按文件格式进行分类,主要包括文本文件、图像文件、图形文件、音频文件、视频文件、数据库文件、多媒体文件等;如果按其在源系统中的接口形式进行分类,可以分为Web服务、数据库接口、中间数据包等。
可以看出,智慧城市框架下各个业务条线的信息化建设水平不一致,建设时间有先后,技术架构有代差,再加上建设初期缺乏顶层设计、统筹规划和部门协同,缺少标准依据,很多单位只能各行其是、各自为政,造成业务应用软件、系统平台、数据结构千差万别,形成系统之间、网络之间、单位之间无法相互连接的“信息孤岛”和“数据烟囱”,给档案部门带来数据采集和归档方面的巨大难题。
数据采集技术
我们再来分析一下目前流行的各种数据采集技术,大致可以分为基于数据层的方法(包括数据管道技术、数据导入技术等)、基于逻辑层的方法(包括接口调用技术、数据交换技术等)和基于表示层的方法(包括数据抓取技术等)三类,如下表所示:
针对异构信息资源的采集,尽管存在各种采集技术,但是从上表的对比分析可以看出,各种采集技术都存在其局限性和适用场景,并不能满足多样化的异构档案信息资源的采集需求。比如:数据管道技术只能适用于源系统能够开放数据结构的情况;接口调用技术只能适用于源系统能够提供应用程序接口的情况。
但是可以通过融合数据导入工具、数据管道工具、程序调用接口、数据交换引擎和数据抓取工具等各种数据采集方法,根据异构源系统的特点有针对性地采用不同的数据采集方法,达到异构档案信息资源采集的目的。特别是在采用数据导入、数据管道等方式采集数据时,可以快速、灵活的设置源数据和目标数据的匹配关系,从而实现数据的智能采集。融合各种数据采集方法之后的通用数据采集工具架构如下图所示:
档案数据智能采集工厂模型
如果基于上图中的通用数据采集工具将其设计成一个模型,即为档案数据智能采集工厂模型。为了更全面的解决异构档案信息资源采集过程中存在的问题,笔者提出了“数据魔方”的概念:将数据源的多样性和异构性比喻为魔方的一个个“面”,基于通用数据采集工具,提供多种数据采集方法的组合供用户选择,以灵活应对不同来源、不同类型数据的采集需求,从而为异构档案信息资源的采集提供了一种智能化的先进方法。
数据智能采集工厂模型以“数据魔方”为核心,通过对通用数据采集工具的整合,以及各种配套工具(格式转换工具、数据检测工具、OCR识别工具、数据封装工具等)的集成,实现对智慧城市框架下各业务条线产生的异构数据的智能采集,并将数据清洗、分类、处理后纳入档案信息资源库(池)进行统一管理。从体系结构上来看,数据智能采集工厂模型由控制中心、魔方适配器、主动捕获触发引擎、嵌入式工具集和资源库(池)等部分组成。数据智能采集工厂模型图如下图所示:
数据智能采集工厂模型的各部分说明如下:
控制中心
是整个数据智能采集工厂的“大脑”,即指挥中心,完成各类采集规则的设计与预定义;可以针对各行各业、各类专业档案设置不同的元数据方案,由此可采集各种不同类型的档案数据,也可从不同单位的应用系统中抓取数据;
魔方适配器
为了加强异构档案信息资源的收集,通过集成通用数据采集工具,提供多种数据采集方式,如脱机数据包导入、数据管道、应用程序接口、数据交换引擎、网页信息抓取等,由多种工具组合成魔方适配器。魔方适配器具有多面性的特点,灵活应对多种途径、多种类型数据的采集需求;
主动捕获触发引擎
探测各业务系统中的数据状态变化情况,实现快速自动采集。可完成在线档案采集操作和离线采集及时提醒功能;
嵌入式工具集
对所采集的数据进行处理,是采集流程中的“加工作业车间”;提供多种数据处理解决方案,如格式转换方案、数据封装方案、四性检测方案等,每一类方案对应一种处理工具,这些工具都将与数据采集功能进行集成、整合并协同工作,可在预定义规则后由系统自动完成处理过程;
资源库(池)
只有经过过滤、清洗、转换并检测合格的数据才能最终进入资源库(池),进行统一存储以及管理。
数据智能采集工厂模型是在青岛市智慧档案馆一期工程项目建设过程中设计并实现的,很好地完成了青岛市智慧档案馆各种来源异构数据的采集任务,并且在采集过程中同时完成了格式转换、数据检测等操作,满足了“智慧收集”的目标。
数据智能采集工厂模型具有如下特点:
开放独立的模型架构:数据智能采集工厂模型可以识别各种类型的信息系统数据,如业务系统、办公系统、财务系统、互联网数据等,具有开放、独立、与业务系统无关的特点,可实现与各种异构系统的集成。
高效多样的数据采集:数据智能采集工厂模型通过整合通用数据采集工具,提供了基于数据层的采集方法、基于逻辑层的采集方法和基于表示层的采集方法,通过魔方适配器的灵活配置,可以完成不同情况下的数据采集任务,尽可能的满足各种异构档案信息资源的采集需求。
灵活多变的魔方特性:在数据导入、数据管道等方式采集数据时,可以快速、灵活的设置源数据和目标数据的匹配关系,具有魔方多面性、多元性的特点,根据实际业务(数据源)的变化,“转动”魔方,便可快速实现匹配,从而采集多种途径、多种类型档案数据。
全面一体的采集处理:数据智能采集工厂模型通过对通用数据采集工具以及各类嵌入式工具(如格式转换工具、数据检测工具、OCR识别工具、数据封装工具等)的整合,可实现异构档案信息资源的采集和处理一体化管理,便于异构档案信息资源的统一管理。
灵活方便的任务管理:各种数据采集方式都可以设置成“工作任务”,既可以即时启动、立即执行,也可以设置为定时任务,到一定时间点定时执行,灵活方便。