在当今的组织中,数据是多样的,分布在许多不同的部门、应用系统、数据仓库和数据湖(一些在内部,其他在云中),因此,准确地知道您拥有哪些数据和它们在哪里是一个挑战。此外,另外一个挑战是,数据在整个数据供应链上的移动缺乏可见性。随着数据源、类型和格式的增加,数据格局变得更加复杂。考虑由于这种情况而出现的下列挑战:
- 对组织数据分布数据的有限视图,使得获取组织的完整视图很难;单个应用往往只呈现业务活动的零碎画面。因此,您最终会丢失隐藏在数据中的宝贵业务洞察力。
- 数据完整性受损——数据仓库创建数据碎片,从而导致数据质量的潜在损失。而这种数据的弱点会导致分析问题,甚至造成昂贵的损失。例如,加拿大电力公司TransAlta在使用电子表格存储、分析和移动数据时,犯了一个简单的剪切粘贴错误,从而浪费了2400万美元。
- 数据泄露——在自助分析环境中,意外数据泄露风险高,可能会给企业造成损失,例如当员工离开联邦存款保险公司(FDIC)时意外下载了44000到个人系统,使这些数据脱离了与企业的关联。
- 成本增加——数据也会带来财务成本——存储数据会导致基础设施成本,移动数据会产生运输成本,甚至收集和使用数据、成本。在这种情况下,数据冗余、维护和复制等因素将需要更多的资源。
- 验证数据管道——合规要求需要确保所有经批准的数据资产都是从授权数据源独家获取数据,且数据管道不会错误地使用未经授权的数据。越来越需要知道敏感和个人数据资产在哪里,以及它们如何在组织中移动。
- 受阻的协作——数据仓库从组织分离形成的组织烟囱中出现。由于这些分离层相互建立在一起,既创造了文化边界,又造成了技术上的不兼容性,因此,组织内部的协作变得更加困难。
一、如何解决上述问题?
在软信天成看来,可以建立组织数据的单一真实来源——数据目录来解决上述所有问题。
数据目录通过发现、描述和组织分布式数据集来创建和维护数据资产的清单。
数据目录提供了上下文,使数据工程师、数据科学家、数据管理员、数据/业务分析师和其他业务线数据使用者能够找到并理解相关数据集,从而提取业务价值。
数据目录对于业务用户和决策者来说是必不可少的,因为它通过将组织的数据资产组织成一种简单易用的格式,从而综合了跨多个数据字典的组织数据资产的所有细节。
将企业数据转化为竞争优势需要业务用户能够在整个企业中轻松访问、理解和使用可信、干净、高质量的数据。
二、如何评估数据目录
在开始进行数据目录评估之前,您必须弄清楚您想用它完成什么。
数据目录工具可以使整个组织的数据民主化。然而,只有当数据丰富了来自人和元数据的上下文时,数据才对决策者有意义。将数据与其上下文联系起来是用数据做出正确或错误决策的区别。例如,使用英制和公制时,使用错误的单位定义似乎不是什么大问题。然而,对美国宇航局来说,这一认识上的差距在1999年花费了1.25亿美元。
为了解决这样的复杂性,今天越来越多的组织采用人工智能(AI)和机器学习模型,借助云的力量帮助他们做出明智的商业决策,创造竞争优势,加速数字化转型。据一家领先的分析公司称,人们对云功能、互联数据架构、元数据以及通过应用人工智能实现常规和非常规任务自动化的需求日益增长。
三、5大数据目录功能帮助企业充分利用数据
智能自动化:数据目录中的自动化过程,结合了机器学习和人工智能,有助于避免手动数据标记、分类和组织。这些技术还可以利用数据使用和查询将业务上下文链接或分配给大规模的数据资产。
数据民主化:可访问的数据目录甚至允许非技术用户定位和利用数据,实现跨企业的协作数据使用。
数据发现和沿袭分析:这是任何数据目录的两大支柱。它们共同帮助您建立对用于获取业务见解的数据的信任和信心。
数据治理/保护:将自动化数据治理解决方案与数据目录集成,确保数据用户能够根据自己的需要,安全、合规地访问数据。因此,尽管每个人都可以访问相同的数据目录,但只有具有相应权限的用户才能访问某些数据集,从而保护敏感数据。
元数据管理:随着组织越来越多地采用混合多云环境,可以连接到多个数据库(数据仓库/湖、ETL和BI工具)并从中提取元数据的数据目录工具,是在集中目录中扩展数据访问的关键。