一、说明
生成式人工智能已经开始撼动数据治理的世界,并且将继续这样做。
自 ChatGPT 发布以来才 6 个月,但感觉我们已经需要回顾了。在这篇文章中,我将探讨生成式人工智能如何影响数据治理,以及它在不久的将来可能会把我们带到哪里。让我强调一下,因为事情发展得很快,它们可以走很多不同的路。本文不是要预测未来 100 年的数据治理,而是要实际了解现在发生的变化以及即将发生的变化。
在深入研究之前,让我们提醒自己数据治理涉及的内容。
简单来说,数据治理是组织为确保数据可信而遵循的一组规则或流程。它涉及5个关键领域:
- 元数据和文档
- 搜索和发现
- 政策和标准
- 数据隐私和安全
- 数据质量
在这篇文章中,我们将看看一旦我们将生成式人工智能纳入其中,这些领域中的每一个将如何发展。
二、 元数据和文档
元数据和文档可能是数据治理中最重要的部分,而其他部分则大量构建了正确完成的这一部分。人工智能已经开始,并将继续改变我们创建数据上下文的方式。但我不想让你抱有太高的期望。在文档方面,我们仍然需要人类参与。
围绕数据生成上下文或记录数据分为两部分。第一个要素约占工作的70%,涉及记录一般信息,这在许多公司中很常见。一个非常基本的例子是“电子邮件”的定义,这是所有公司通用的。第二部分是关于写下贵公司独有的特定专业知识。
这是令人兴奋的部分:人工智能可以为前70%完成很多繁重的工作。这是因为第一个元素涉及一般知识,而生成式人工智能非常擅长处理这一点。
现在,贵公司特有的知识呢?每个组织都是独一无二的,这种独特性产生了你自己特定的公司语言。此语言是您的指标、KPI 和业务定义。而且它不是可以从外部导入的东西。它诞生于最了解业务的人=员工。
在与数据领导者的对话中,我经常讨论如何对这些业务概念达成共识。许多领导者都认为,为了实现这种一致性,他们将领域团队带到同一个房间里,讨论、辩论并就最适合其业务模型的定义达成一致。
让我们以“客户”的定义为例。对于基于订阅的企业,客户可以是当前订阅其服务的人。但对于零售企业,客户可能是在过去 12 个月内进行过购买的任何人。每家公司都以对他们最有意义的方式定义“客户”,这种理解通常来自组织内部。
当涉及到这些奇特的知识时,人工智能虽然聪明,但还不能做这部分。它不能旁听你的会议,加入讨论,或帮助新概念绽放。对于Andreessen Horowitz来说,当第二波人工智能来袭时,这可能会成为可能。目前,我们仍处于第 1 波。
我还想谈谈Benn Stancil提出的一个问题。Benn 问:如果机器人可以按需为我们编写数据文档,那么写下来有什么意义呢?
这有一定的道理:如果生成AI可以按需生成内容,为什么不在需要时生成内容,而不是费心记录所有内容呢?不幸的是,它不能像这样工作,原因有两个。
首先,正如我之前所解释的,文档的一部分涵盖了人工智能还无法捕获的公司的独特方面。这需要人类的专业知识。它不能由 AI 即时生成。
其次,虽然人工智能很先进,但它并非万无一失。它生成的数据并不总是准确的。您需要确保人工检查并确认所有AI生成的内容。
三、 搜索和发现
生成式人工智能不仅改变了我们创建文档的方式,还改变了我们消费文档的方式。事实上,我们正在见证搜索和发现方法的范式转变。分析师搜索数据目录以查找相关信息的传统方法正在迅速过时。
真正的游戏规则改变者在于人工智能能够成为公司中每个人的个人数据助手。在某些数据目录中,您已经可以通过特定的数据查询来接近 AI。您可以提出诸如“是否可以对数据执行操作X?”,“为什么我无法使用数据来实现Y?”或“我们是否拥有说明Z的数据?”之类的问题。如果你的数据用正确的上下文来丰富,人工智能将有助于在整个公司传播这种上下文。
我们期待的另一个发展是,人工智能将数据目录从被动实体转变为主动助手。可以这样想:如果你错误地使用了公式,人工智能助手可以给你一个提示。同样,如果你要编写一个已经存在的查询,人工智能可以让你知道并指导你完成现有的工作。
过去,数据目录只是坐在那里,等待您筛选它们以获得答案。但是有了人工智能,目录可以开始积极帮助你,在你意识到你需要它们之前提供见解和解决方案。这将是我们处理数据的方式的彻底转变,而且可能很快就会发生。
然而,AI 助手要有效工作有一个条件:必须维护数据目录。为了确保 AI 助手为利益相关者提供可靠的指导,基础文档必须 100% 可信。如果目录没有得到适当的维护,或者政策没有明确定义,那么人工智能助手将在整个公司传播不正确的信息。这比根本没有信息更有害,因为它可能导致基于错误背景的糟糕决策。
您可能已经理解:人工智能和数据治理是相互依存的。人工智能可以增强数据治理,但反过来,需要强大的数据治理来推动人工智能的能力。这导致了一个良性循环,每个组件都提升另一个组件。但是您需要记住,没有任何元素可以取代另一个元素。
四、 数据政策和标准
数据治理的另一个关键组成部分是治理规则的制定和实施。
这通常涉及在组织内定义数据所有权和域。目前,人工智能在定义这些政策和标准时无法胜任这项任务。人工智能在执行规则或标记违规行为方面大放异彩,但在负责创建规则本身时却缺乏。
原因很简单。定义所有权和领域与人类政治有关。例如,所有权意味着决定组织内谁对特定数据集拥有权限。这可能包括决定如何使用和何时使用数据、谁有权访问数据以及如何维护和保护数据的权力。做出这些决定通常涉及个人、团队或部门之间的谈判,每个人都有自己的兴趣和观点。出于显而易见的原因,人类政治不能被人工智能取代。
因此,我们预计,在不久的将来,人类将继续在治理的这一方面发挥重要作用。生成式人工智能可以在起草所有权框架或建议数据域方面发挥作用。然而,让人类参与其中仍然是必须的。
五、 数据隐私和安全
然而,生成式人工智能将改变治理部门的隐私。管理隐私权是传统上令人恐惧的治理方面。没有人喜欢它。它涉及手动创建复杂的权限体系结构,以确保敏感数据受到保护。
好消息是:人工智能可以自动化这个过程的大部分。给定用户数量及其各自角色等参数,AI 可以创建访问权限规则。访问权限的架构方面基本上是基于代码的,与人工智能的能力非常吻合。人工智能系统可以处理这些参数,生成相关代码,并应用它来有效地管理数据访问。
人工智能可以产生重大影响的另一个领域是个人身份信息(PII)的管理。如今,PII 标记通常是手动完成的,这对负责人来说是一种负担。这是人工智能可以完全自动化的东西。通过利用AI的模式识别功能,PII标记可以比人类完成时更准确地进行。从这个意义上说,使用人工智能实际上可以改善我们管理隐私保护的方式。
这并不意味着人工智能将完全取代人类的参与。尽管人工智能具有功能,但我们仍然需要人工监督来管理意外情况并在需要时做出判断。
六. 数据质量
我们不要忘记数据质量,这是治理的重要支柱。数据质量确保公司使用的信息准确、一致和可靠。保持数据质量一直是一项复杂的工作,但随着生成式人工智能的发展,情况已经发生了变化。
正如我上面提到的,人工智能擅长应用规则和标记违规行为。这使得算法可以轻松识别数据中的异常。您可以在本文中找到有关 AI 如何影响数据质量不同方面的详细说明。
人工智能还可以降低数据质量的技术门槛。这是SODA已经到位的东西。他们的新工具SodaGPT提供了一种无代码方法来表达数据质量检查,使用户能够仅使用自然语言执行质量检查。这使得数据质量维护变得更加直观和可访问。
七、结论
我们已经看到,人工智能可以以一种触发范式转变开始的方式增强数据治理。很多变化已经发生,而且它们将继续存在。
然而,人工智能只能建立在已经坚实的基础上。要使 AI 改变公司的搜索和发现体验,您必须已经在维护文档。人工智能很强大,但它不能奇迹般地修复一个有缺陷的系统。
要记住的第二点是,即使人工智能可以用来生成围绕数据的大部分上下文,它也不能完全取代人为因素。我们仍然需要人类在循环中进行验证并记录每个公司独有的知识。因此,我们对治理未来的一句话预测:由人工智能推动,以人类的辨别力和认知为基础。