第10章 文档和内容管理
10.1 简介
文档和内容管理是对存储在关系数据库以外的信息的采集、存储、访问以及使用的控制活动。文档和内容管理的侧重点在完整性和访问控制上。因此,它与关系数据库的数据操作管理大致相同。由于多数非结构化数据与存储在结构化文件中的数据和关系数据库有直接关系,管理决策需要在这3个领域保持一致。然而,文档和内容管理的重点不是纯粹的操作层面。它的战略重点与其他数据管理职能互相有些重叠,主要用于满足非结构化数据的治理、架构、安全、受控的元数据和数据质量的需要。
正如其名所示,文档和内容管理包括如下两个子职能。
文档管理——是对电子和纸质文件的存储、详细编目和控制。文档管理包含控制和组织文档与档案的过程、技巧和技术,它对电子或纸质文档都适用。
内容管理——指对信息内容进行组织、分类和结构化的访问所涉及的过程、技巧和技术,它将实现对文档进行有效的检索和重用。内容管理在门户网站的建设方面尤其重要,但基于关键词搜索的技术和基于分类的组织可以运用于技术平台之外。有时候,内容管理又被称作企业内容管理(ECM),这意味着内容管理的范围涉及整个企业。
文档和内容管理职能关联图:
10.2 概念与活动
10.2.1 非结构化数据
非结构化数据是尚未标记或记录于行和列的数据,如文件、图形、图像、文字、报表、表格、视频或录音。非表格数据包括非结构化数据和标签数据。这个名称的内涵有一定的歧义,因为这些格式中也包含一些结构,例如段落和篇章。
据估计,多达80%的数据存储在关系数据库之外。非结构化或半结构化数据的含义以存储于上下文中的信息形式呈现。有人把存储于关系数据库之外的数据称作非表格数据。当然,总是有一些结构让数据呈现出来,这个结果的表现形式很可能是表格。没有一个术语能适当地描述非结构化数据所包含的大量不同格式。
非结构化数据存在于不同的电子格式中,包括Word文档、电子邮件、平面文件、电子表格、XML.文件、事务性消息、报告、商业图表、数字图像、缩微胶片、录像和录音,大量的非结构化数据同样存在于纸质文档中。
10.2.2 文档/档案管理
文档/档案管理是组织中重要文件生命的周期管理。考虑到许多隐私、数据保护、身份盗用问题,档案管理过程中设计到个人的数据一定不能保留,也不应跨越国际边界进行传输。
文档/档案管理的生命周期包括以下活动:
(1)规划文档/档案管理
文档管理活动涉及到从其创建或接收、检索、流转和存档到转储的全生命周期。制订分类/索引系统和分类法,可以有效进行检索和管理。组织要基于自己管理的需要来创建档案管理的计划,建立、沟通和执行有关文档的政策、规程和最佳实践。
确定管理文档/档案的责任单位,根据公司标准和政策法规要求创建和管理档案保留政策,并设定档案访问和分发的流程,为关键文档/档案创建业务连续性计划。针对档案保管制定存档计划,确定保存期限,并根据业务需要、规程、状态和法规要求在生命周期结束后予以销毁。
(2)实现文档/档案管理系统的获取、存储、访问与安全控制
文档可以由文档管理系统创建,也可以通过扫描等方式由系统外部创建。在创建/获取这些文档时,需要同步创建相关信息(如关键字、索引,文档的创建时间、存储日期、创建人等元数据)以便于查找。文档库可以实现登入/登出、版本、协作、比较、归档、状态、迁移,以及转储功能。同时,还可以提供报表、搜索、工作流程、权限管理等功能。
基于数据的重要性及控制要求,可以使用ANSI标准859(2008),它有三个级别:正式、修订、托管。
(3)备份和恢复文档/档案
文档/档案管理系统的备份与恢复应当是整个组织所有数据与信息的备份和恢复的一部分。通过连续性计划来减轻威胁的影响,并在发生灾难时,在最短的业务中断时间内恢复。这些计划应该形成书面的政策、规程和信息。
(4)保留和处置文档/档案
文档/档案的保留计划应当符合法规的要求,在规定的时间段内,规定哪些文档/档案不再其作用而转移到二级存储设备上,并确定如何销毁文档/档案。在处理过程中要注意文档/档案的隐私和数据保护问题。
(5)审计文档/档案管理
定期审计要求确保正确的信息在正确的时间送达给正确的人员,以便做出决策和进行营销活动。如下表所示:
10.2.3 内容管理
内容管理是对数据和资源的组织、分类和构造,以便在不同地方存储、发布和重用。包括数据和信息在生命周期各个阶段中不同形式的成品、内容的完整程度和档案生命周期的不同阶段要求不同的保护措施。
(1)定义并维护企业信息分类标准(信息内容架构)
分类法是一种分类的科学和技术,它包含了一些受到约束的词汇,可用于帮助控制导航和搜索系统。分为4种类型:
扁平式分类体系:所有的类别都是平等的,相互之间没有关系;
多面式分类体系:每个节点都和中心节点连接,每个面都是中心节点的属性;
层级式分类体系:至少有两层的树形结构并且是双向的。
网络式分类体系:同时从层级和多面两种模式来组织内容。在网络式分类中任意两个节点之间的连接都是基于他们的联系。
本体是一种模型,代表一套概念和它们在某个领域内概念之间的关联。本体描述的是个体(实例)、类(概念)、属性和关系。它可以是一系列的分类法和常见词汇库,用于知识表达和信息交换。本体通常由多个类和定义组成一个分类层级。
语义建模是一种知识建模,包含一个概念网络。本体就是一个描述知识的语义模型,包括概念和它们之间关系的集合体。
(2)建立信息内容元数据文档/索引
维护非结构化的元数据实际上是维护各类本地分类与企业级元数据统一分类之间的交叉引用关系。这个工作量比较大,一般会由一个专门的团队来执行。
(3)提供内容访问和检索
一旦内容按照元数据/关键词标记并且按照适当的信息内容架构分类,就可以用于检索了。通过元数据概要文件与各个内容主题进行匹配的技术,可以很方便的找到非结构化数据。
搜索引擎是对用户请求的信息进行检索,从网页内容中包含该关键词的网站获取信息的软件。依靠自然语言、机读信息、模糊搜索方法、资源描述格式(RDF)元数据、本体和XML等技术可以帮助用户找到其想看到的内容。
计算机程序无法直接处理非结构化数据内容,但XML(可扩展标记语言)可以识别和标注非结构化数据内容,使计算机程序能够识别和处理这些内容。非结构化和半结构化数据对于数据仓库和商务智能来说越来越重要,因此,很多数据仓库都包含了帮助使用者查找和分析非结构化数据的结构化索引。
(4)治理内容质量
非结构化数据的管理需要考虑与结构化数据治理相似的动态因素。在一个组织中治理的重点包括文档和档案的保留政策、电子签名政策、报告形式以及报告分配政策。数据管理专业人士负责实施和执行这些政策。
定义档案和内容质量与结构化数据一样存在着困难。