一、传统的数据治理
传统的数据治理是一种数据优先的治理方法。这种传统方法缺乏响应数据用户需求的流动性——或者在新法规出现时适应新法规的灵活性。传统方法概述角色、创建数据标准、分配责任并创建公司范围的数据策略。因为它强调对数据的控制,这种方法威胁工作文化的情况并不少见。
这种对数据控制的传统关注削弱了社区协作。事实上,这种传统的治理模式制定了僵化的政策,常常疏远甚至吓倒数据工作者。在使用任何特定数据集之前,人们必须参考文档。类似一揽子的政策会产生额外的任务,从而降低整体效率。人们被要求遵守复杂的规则,“否则”在这种恐惧的气氛中,人们做出“战斗或逃跑”的反应并不罕见。许多人没有遵循复杂的数据集使用规则,而是完全放弃了该数据。其他人可能会在数据方面变得咄咄逼人。许多人将传统方法称为“命令和控制”风格是有原因的。
什么决定了被动/传统模型与主动治理模型是否最好?需求因业务而异。有一点是肯定的:传统方法是一种广泛的、孤立的方法,不会将数据用户带入涉及治理的领域。
数据不是一成不变的。它必须在一个连续的过程中进行改进。同样,有效的数据治理必须随着时间的推移进行调整和改进。今天的数据治理必须采用敏捷的 DevOps 思维并建立在机器学习的基础上,这样随着时间的推移,它会以更少的努力变得更好。
二、数据治理的四大障碍
1、数据孤岛
由于传统数据库架构缺乏弹性,当节点数超过一定规模后,再继续扩容往往反而会出现严重损害整个数据库系统性能的尴尬情况,使企业不得不设立多个集群来分别存储、分析数据。这种结构严重阻碍了整个企业中信息的共享和传播,甚至造成了不同业务板块之间的数据隔离。
无论是追踪数据沿袭、对数据进行分类,还是在系统中应用安全模型等,这一系列的数据治理行动在相互孤立又趋于混乱的数据系统中都是无法实现的。
2、数据质量差
数据质量差是数据治理过程中非常典型的问题之一。数据的可信度是数据驱动型企业的基石,这些企业需要来自众多不同渠道的海量数据,作为决策的参考和依据。
数据质量差可以分为两个层面:一是原始数据在从业务场景中获取时不够规范,出现的数据缺失、重复、损坏等。二是在进入数据库之后,需要数据库支持事务、高可用、强一致性等功能来保证数据的质量。
数据质量的好坏,一般表现在数据准确性、一致性、即时性、可用性和完整性五个方面。
3、数据不透明
你的企业有哪些数据?这些数据分别被存储在哪里?谁对什么样的数据拥有访问权限?这些个人或团队将通过特定种类的数据实现何种作业?回答好以上问题,才谈得上实现了数据的透明。
数据治理要求企业实现数据透明,而部分数据库难以直接调取内部数据,只能通过对外接口进行访问,在进行诸如数据分析、血缘分析、数据建模等上层应用时,被大大限制了灵活性,一些需要使用原始数据的场景无法实现,数据的价值也就无法发挥出来。
实际上,在很多企业的数据库中,这些问题的答案,被架构等历史遗留因素“埋藏”了起来。想要找出它们,需要通过数据管理过程对数据进行有效的收集、存储、处理和应用。
三、主动数据治理
主动数据治理通过在使用点显示策略和护栏来取得成功。这种非侵入性方法意味着人们在处理数据时了解治理最佳实践。此外,机器学习检测人类行为模式,这些模式表明工作中的数据治理过程。管理员会注意这种模式,他们可以反过来提醒他们的团队,因为他们正式制定了一个已经在实践中的流程。
通过将数据用户纳入决策制定,整体购买增加,这导致治理人员和前端用户之间加强合作。这允许一组自适应策略,可以随着业务需求的变化而持续优化。实际上,从传统数据治理到主动数据治理的转变将您的治理方法从被动变为主动。
随着治理成为一种负担,分析师的工作效率会下降,这通常会导致数据质量下降。然而,实施正确的治理模型可以在支持企业发展方面发挥重要作用。如果分析师和其他数据用户得到与他们一起工作的治理策略的支持,则可以在收集、存储和分析的整个周期内保持数据质量。