数据治理是一个去中心化、多元参与的系统工程。一个全面且明确的数据治理体系,可以帮助组织构建生态式、协同化治理路径,最大化地提升整体数据质量,实现数据战略,激活新型生产力。
本文以元数据、数据标准、主数据、数据交换、数据资产、数据质量、数据安全、数据生命周期八大模块为核心脉络,梳理了一份全面数据治理体系指南,希望能为政企数据治理提供参考。
01
元数据
1. 定义
元数据是描述数据相关信息的数据。
元数据管理则是指与确保正确创建、存储和控制元数据,以便在整个企业中一致地定义数据有关的活动。
2.类型
元数据分为业务元数据、技术元数据和操作元数据。
三者关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。
3.元数据管理五大步骤
(1)定义元数据战略:企业需要启动元数据战略计划,把关键利益相关方和部门都参与进来,评估现有的元数据资源和信息架构,对关键员工重点访谈,制定合理的战略目标。
(2)理解元数据需求:元数据管理解决方案,需要由更新频次,同步情况,历史信息,访问权限,存储结构,继承要求,运维要求,管理要求,质量要求和安全要求等具体功能需求点满足。
(3)定义元数据架构:元数据架构,通常分为3类,包括集中式,分布式和混合式,不同技术框架满足不同情境需求,企业根据自身情况因地制宜选择。
(4)创建和维护元数据:数据系统要从企业范围内梳理和整合元数据,把技术元数据,与业务,流程和管理元数据集成在一起,使元数据处理变得规范统一,方便理解和分析。
(5)查询、报告和分析元数据:元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足各类数据资产管理的需求。
4.元数据管理应用
(1)数据资产地图:是由元数据字典自动生成的企业数据资产的全景地图,用可视化方式展示各类元数据和数据处理过程,满足不同业务分析需求。
(2)元数据血缘关系:指的是不同数据之间的联系。当我们发现一个下游的错误数据,可以通过血缘关系追本溯源,快速找到上游的数据来源,了解数据处理过程,找到数据错误的原因。
(3)元数据影响度分析:可以告诉我们数据去了哪里,经过哪些加工和处理,哪些应用,数据库,或者部门使用了这个数据。当数据出现问题的时候,可以迅速了解错误数据的传播链条,快速解决错误数据导致的错误结果。
02
主数据
1.定义
主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。
主数据管理是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。
2.主数据项目管理实施架构
通过现状分析与评估、规划管理体系、建设实施方案,平台落地部署这四个步骤,进行主数据项目管理的落地实施。
3.主数据项目实现阶段的十大重要环节
(1)主数据标准化体系
以物料为例, 完整的物料标准化体系主要包括物料数据标准的制定和物料数据标准化管理相关基础能力建设两大部分内容。
(2)分类设计原则
四大分类设计原则:不重不漏;粗细颗粒度合理;满足业务需求;符合行业习惯
(3)编码设计
编码设计需遵守全局性,唯一性、适度性、灵活性、扩展性等原则。不同编码方式各有优缺点。
(4)属性标准梳理:可以从业务标准、技术标准、管理标准三个层面来梳理。
(5)管控流程设计:在业务系统建设过中进行流程审核以及校验。
(6)历史数据整合、清洗:分为数据接入、初步标记、分类清理、先分后合、整理清洗、检查反馈6个步骤。
(7)数据切换策略:以下是三种数据切换策略各自优缺点。
(8)数据生产与维护策略:有集中式和分布式两种。
(9)主数据分发策略:主数据的分发方式有以下三种。
(10)主数据集成示例
03
数据标准
1.定义
数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。
2.分类
(1)业务标准规范:一般包括业务的定义,标准的名称,标准的分类等。
(2)技术标准规范:是从技术角度看待数据标准,包括了数据的类型,长度,格式,编码规则等。
(3)管理标准规范:比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都属于管理角度的数据规范要求。
3.数据标准管理实施步骤
数据标准实施流程图
(1)制定目标和界定范围:组织首先需要制定数据标准目标,明确战略方向,然后根据企业自身的管理和业务发展需求制定数据标准。
(2)数据标准调研:对整个组织的数据标准管理情况进行调研和汇总。通过调研企业数据标准现状,弄清哪些系统的数据标准问题比较严重,哪些字段不符合标准,为后续的数据标准落地提供支撑和指导。
(3)明确组织和流程:通过确定数据治理管控委员会,数据标准管理岗,数据标准管理专员,IT项目组等数据标准管理角色,和制定标准变更、落地、管理流程,来保障数据标准项目推进落实。
(3)数据标准编制与发布:通过收集国标、行标要求,结合企业自身管理和业务要求,经过业务、技术和管理等各部门的协调沟通后,制定出初版的数据标准管理文档。经过数据标准审核后,发布定版数据标准。
(4)数据标准宣贯:向内部组织数据标准宣贯会,提升企业内部人员对数据标准管理的重视程度,提高使用人员的熟练度,让数据标准可以更好更快实行,从而发挥价值。
(5)数据标准平台落地运营:将制定好的数据标准录入相应数据标准平台系统,通过管理、技术、业务的维度查看效果,进行适当修改满足大部分要求后,投入使用到实际场景中。此外,对于数据标准还需定期评估、不断完善,达到更加适应企业管理经营的目的。
04
数据质量
1.定义
数据质量是指在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。
数据质量管理是对数据从计划、获取、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
2.四种常见数据质量问题
(1)数据缺失:指的是一些重要数据未被填充。
针对缺失数据,企业可以通过简单统计分析,找到未填写数据,相关属性,对可能值进行插补填充。
(2)数据异常:指的是数据与平时的业务,管理数据有很大差别,影响数据分析得出的结论。
针对异常数据,需要用之前数据作为基础,确定最大值和最小值,判断数据变量是否超出合理的范围,如果数据异常,系统会自动报警提醒。
(3)数据不一致:指的是在数据集成汇总的时候,多个系统分布的相同数据,出现不一致的现象。
针对不一致的数据,企业系统可以注意数据抽取的规则,对于大部分相同但不一致的数据,进行鉴别,修改,合并。
(4)数据重复或错误:指的是一些数据出现重复统计,数据填写错误。
针对重复数据,企业可以在系统中设置过滤限定条件,清除重复数据。
3.数据质量评判六大维度
全国信息技术标准化技术委员会提出了数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面,分别是完整性,一致性,准确性,时效性,唯一性和可访问性。
4.数据质量管理七部曲
(1)定义高质量数据
通过全面了解相关痛点、风险和业务驱动因素,以及业务流程系统情况、技术结构和数据依赖关系,对数据质量改进的目标和优先级事项达成一致。
(2)定义数据质量战略
数据质量优先级必须与业务战略一致,定义数据质量框架有助于指导战略及开展数据质量管理活动。
(3)识别关键业务和质量规则
可以根据监管要求、财务价值和对客户的直接影响等因素对数据重要性进行优先级排序。在确定关键数据后,识别梳理数据质量特征要求的业务规则。
(4)执行初始数据质量评估
确定关键的业务需求和数据后,通过执行初始数据质量评估了解数据,定义可操作的改进计划,通过评估结果确认问题及优先级,并作为数据质量规划的基础。
(5)识别改进方向并确定优先级
在经过初步数据质量评估后,识别潜在的改进措施,并确定优先顺序,可以通过对大数据集进行全面的数据分析来了解问题的广度,或与利益相关方进行沟通,分析问题的业务影响,最终讨论确定优先顺序。
(6)定义数据质量改进目标
根据数据质量改进带来的业务价值进行量化,设定具体的、可实现的目标。
(7)开发和部署数据质量操作
为了保证数据质量,围绕数据质量方案制定实施计划,管理数据质量规则和标准、监控数据与规则的执行一致性,识别和管理数据质量问题,并报告质量水平。
05
数据资产
1.定义
数据资产是能够为组织产生价值的数据资源,数据资产的形成需要对数据资源进行主动管理并形成有效控制。数据资产管理是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。
2.数据资产盘点
(1)自上而下梳理
以业务视角,通过对企业的相关制度文件、智能体系、业务流程、业务单据等进行全面分析,逐层分解,梳理数据资产的三级目录、业务属性和相关管理属性。
(2)自下而上盘点
以技术视角,从IT系统——数据库表——数据结构出发,进行自下而上归纳,逐步明确数据资产相关的技术属性。
通过自上而下和自下而上两种盘点方式,建立起业务视角和技术视角的映射关系,这样一个完整的数据资源目录就成型了。
3.数据资产目录
通过数据资产目录,可以解决数据在哪里、数据谁负责,数据如何用等一系列问题。一个实用友好的数据资产目录,能够打通查数/取数环节、打通基础类数据和指标类数据的联系,并通过人工智能和机器学习等先进技术,更好地支持数据的探查和关联推荐。
4、数据资产管理4大步骤
(1)统筹规划:数据资产管理实施第一阶段是统筹规划,包括评估管理能力、发布数据战略、建立企业责任体系三个步骤,为后续数据资产管理和运营锚定方向、奠定基础。
(2)管理实施:第二阶段的目标主要是通过建立数据资产管理的规则体系,依托数据资产管理平台工具,以数据生命周期为主线,全面开展数据资产管理各项活动,以推动第一阶段成果落地。第二阶段管理实施的开展主要包括建立规范体系、搭建管理平台、全流程管理、创新数据应用四个步骤。
(3)稽核检查:稽核检查阶段是保障数据资产管理实施阶段涉及各管理职能有效落地执行的重要一环。这个阶段包括检查数据标准执行情况、稽核数据质量、监管数据生命周期等具体任务。
(4)资产运营:通过前三个阶段,企业已经能够建立基本的数据资产管理能力,在此基础上,还需要具备以实现业务价值为导向,以用户为中心,为企业内外部不同层面用户提供数据价值的能力。资产运营阶段是数据资产管理实现价值的最终阶段,该阶段包括开展数据资产价值评估、数据资产运营流通等。
06
数据交换
1.定义
数据交换共享就是让不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。
2.数据交换与共享方法
(1)电子或数字文件传输
数据可以通过电子或数字文件传输进行交换,通过文件传输(通信)协议在两个系统之间传输文件(数据)。各组织需要考虑与使用不同文件传输协议带来的安全风险;文件传输协议包括FTPS、HTTPS和SCP。
(2)便携式存储设备
在某些情况下,可能需要使用便携式存储设备交换数据, 例如可移动磁盘(数字视频光盘 (DVD))或通用串行总线 (USB)等)。组织需要考虑被传输数据的影响级别以及数据将要传输到的系统的影响级别,以确定所交换的数据是否采取了足够的措施。
(3)电子邮件
组织经常通过电子邮件以附件的形式共享数据。组织需要考虑参与组织的电子邮件基础设施的影响级别和已经实施的安全控制,以确定是否实施了足够的控制措施来保护正在交换的数据,例如,在中等影响级别受保护的电子邮件基础设施不足以保护高影响级别的数据。
(4)数据库
数据库共享或数据库事务信息交换,包括来自另一个组织的用户对数据的访问。组织需要考虑的是提供数据访问而不是传输数据的可行性,以减少重复数据集以及数据机密性和完整性损失的风险。
(5)文件共享服务
文件共享服务包括但不限于通过基于 Web 的文件共享或存 储共享数据和访问数据(例如 Drop Box、Google Drive、MS Teams 或 MS One Drive)。使用基于Web的文件共享或存储系统,该系统无法让数据所有者了解服务器所在位置,或对设施、服务器和数据的物理和逻辑访问。
3.数据交换共享的五个原则
(1)一致性原则:提供数据共享服务前,要确定每项数据的源头单位, 由源头单位对数据的准确性、一致性负责。减少数据“搬家”,从而减少向下游二次传递所造成的数据不一致问题。
(2)黑盒原则:数据使用方不用关注技术细节,满足不同类型的数据共享服务需求。
(3)敏捷响应原则:数据共享服务一旦建设完成,并不需要按数据使用方重复构建集成通道,而是通过“订阅”该数据共享服务快速获取数据。
(4)自助使用原则:数据共享服务的提供者并不需要关心数据使用方怎么“消费”数据,避免了供应方持续开发却满足不了数据使用方灵活多变的数据使用诉求的问题。
(5)可溯源原则:所有数据共享服务的使用都可管理,数据供应方能够准确、及时地了解“谁”使用了自己的数据,确保数据使用的合理。
07
数据安全
1.定义
数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。
数据安全治理是基于数据安全合规要求、用户的业务发展需要和风险承受能力等多重因素,以数据安全管理和技术能力为依托,实现业务与安全融合发展的安全建设机制。
2.数据安全管理能力
(1)组织治理
数据安全治理组织可采取5层组织结构,即决策层、管理层、执行层、监督层和参与层。
(2)制度治理
数据安全制度体系主要从4个层面进行建设。
3.数据安全技术能力
数据安全技术能力治理主要是对技术措施的建设,围绕数据全生命周期的各个阶段采取相应的安全防护措施,包括智能识别、分类分级、数据库审计、加密传输、数据防泄漏、数据脱敏、数据水印、用户行为分析、知识图谱等。
4.数据安全运营能力
通过构建数据安全隐患发现及处置机制、数据安全风险评估机制、数据安全突发事件应急响应机制、数据安全监控与审计机制,形成规范化、流程化、智能化运营的长效安全运营体系。
08
数据生命周期
1.定义
数据的生命周期是指某个集合的数据从产生或获取到销毁的过程。数据生命周期分为:采集、存储、整合、呈现与使用、分析与应用、归档和销毁几个阶段。
数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从数据创建和初始的存储,直到它过时被删除或销毁。
2.常见的数据生命周期管理模型
数据生命周期管理模型定义了一个宏观的框架,它是从生产阶段到消亡阶段的数据生命的全景视图。在数据管理领域,学术界和企业界的许多研究人员提出了不同的数据生命周期管理模型,如下图所示。
3.数据生命周期管理的四个阶段
(1)“入”期
该阶段不仅仅指数据的创建与接收,有效的数据资产管理应在数据的产生之前开始。首先应该做好规划和计划,包括数据资产盘点、数据治理计划、数据需求计划等;然后对数据标准进行定义,制定数据管理规范,确保数据按照标准产生,从源头抓起。
(2)“存”期
需要对结构化、半结构和非结构化多样化的数据结构,批数据和流数据多种数据形式进行存储和处理。面对不同数据结构、数据形式、时效性、性能要求和存储与计算成本等因素,应该使用适合的存储形式与计算引擎。
(3)“用”期
数据因使用而升值,该阶段是数据真正产生价值的周期。在“用”这个期间要特别强调“数据复用”,这对于节省成本,提高效率非常重要。未来企业或组织在评估一个数据产品值不值得开发很重要的一个指标应该看能不能复用。
(4)“出”期
“出”期是将那些生命周期步入尾声的数据保存到低性能廉价的存储介质或直接销毁,是数据生命周期管理必不可少的步骤。对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。
09
一个平台全体系覆盖
数据治理是一个系统的、大型的、长期的工程,是数据问题的全面解决之道,选择合适的数据治理平台,能够让数据治理工作事半功倍。
睿治智能数据治理平台是由亿信华辰完全自主研发的、开创性的、一站式综合数据治理整体解决方案,它不仅涵盖了上述数据治理体系中元数据管理、数据标准管理、数据质量管理、主数据管理、数据交换、数据资产管理、数据安全管理、数据全生命周期管理这些核心板块,还包含优秀的数据集成管理和实时计算存储功能,帮助实现数据集中管理、分布式存储、实时决策支撑,打通数据治理各个环节。
十大功能模块可独立或自由组合使用,快速满足政企各类不同的数据治理需求场景,助力数据标准落地,提升数据质量,实现数据资产化。