谈人工智能和数据治理

news2024/11/23 12:05:59

一、说明

        生成式人工智能已经开始撼动数据治理的世界,并且将继续这样做。

        自 ChatGPT 发布以来才 6 个月,但感觉我们已经需要回顾了。在这篇文章中,我将探讨生成式人工智能如何影响数据治理,以及它在不久的将来可能会把我们带到哪里。让我强调一下,因为事情发展得很快它们可以走很多不同的路。本文不是要预测未来 100 年的数据治理,而是要实际了解现在发生的变化以及即将发生的变化。

        在深入研究之前,让我们提醒自己数据治理涉及的内容。

        简单来说,数据治理是组织为确保数据可信而遵循的一组规则或流程。它涉及5个关键领域:

  • 元数据和文档
  • 搜索和发现
  • 政策和标准
  • 数据隐私和安全
  • 数据质量

        在这篇文章中,我们将看看一旦我们将生成式人工智能纳入其中,这些领域中的每一个将如何发展。 

二、 元数据和文档

        元数据和文档可能是数据治理中最重要的部分,而其他部分则大量构建了正确完成的这一部分。人工智能已经开始,并将继续改变我们创建数据上下文的方式。但我不想让你抱有太高的期望。在文档方面,我们仍然需要人类参与。

        围绕数据生成上下文或记录数据分为两部分。第一个要素约占工作的70%,涉及记录一般信息,这在许多公司中很常见。一个非常基本的例子是“电子邮件”的定义,这是所有公司通用的。第二部分是关于写下贵公司独有的特定专业知识。

        这是令人兴奋的部分:人工智能可以为前70%完成很多繁重的工作。这是因为第一个元素涉及一般知识,而生成式人工智能非常擅长处理这一点。

        现在,贵公司特有的知识呢?每个组织都是独一无二的,这种独特性产生了你自己特定的公司语言。此语言是您的指标、KPI 和业务定义。而且它不是可以从外部导入的东西。它诞生于最了解业务的人=员工。

        在与数据领导者的对话中,我经常讨论如何对这些业务概念达成共识。许多领导者都认为,为了实现这种一致性,他们将领域团队带到同一个房间里,讨论、辩论并就最适合其业务模型的定义达成一致。

        让我们以“客户”的定义为例。对于基于订阅的企业,客户可以是当前订阅其服务的人。但对于零售企业,客户可能是在过去 12 个月内进行过购买的任何人。每家公司都以对他们最有意义的方式定义“客户”,这种理解通常来自组织内部。

        当涉及到这些奇特的知识时,人工智能虽然聪明,但还不能做这部分。它不能旁听你的会议,加入讨论,或帮助新概念绽放。对于Andreessen Horowitz来说,当第二波人工智能来袭时,这可能会成为可能。目前,我们仍处于第 1 波。

        我还想谈谈Benn Stancil提出的一个问题。Benn 问:如果机器人可以按需为我们编写数据文档,那么写下来有什么意义呢?

        这有一定的道理:如果生成AI可以按需生成内容,为什么不在需要时生成内容,而不是费心记录所有内容呢?不幸的是,它不能像这样工作,原因有两个。

        首先,正如我之前所解释的,文档的一部分涵盖了人工智能还无法捕获的公司的独特方面。这需要人类的专业知识。它不能由 AI 即时生成。

        其次,虽然人工智能很先进,但它并非万无一失。它生成的数据并不总是准确的。您需要确保人工检查并确认所有AI生成的内容。

三、 搜索和发现

        生成式人工智能不仅改变了我们创建文档的方式,还改变了我们消费文档的方式。事实上,我们正在见证搜索和发现方法的范式转变。分析师搜索数据目录以查找相关信息的传统方法正在迅速过时。

        真正的游戏规则改变者在于人工智能能够成为公司中每个人的个人数据助手。在某些数据目录中,您已经可以通过特定的数据查询来接近 AI。您可以提出诸如“是否可以对数据执行操作X?”,“为什么我无法使用数据来实现Y?”或“我们是否拥有说明Z的数据?”之类的问题。如果你的数据用正确的上下文来丰富,人工智能将有助于在整个公司传播这种上下文。

        我们期待的另一个发展是,人工智能将数据目录从被动实体转变为主动助手。可以这样想:如果你错误地使用了公式,人工智能助手可以给你一个提示。同样,如果你要编写一个已经存在的查询,人工智能可以让你知道并指导你完成现有的工作。

        过去,数据目录只是坐在那里,等待您筛选它们以获得答案。但是有了人工智能,目录可以开始积极帮助你,在你意识到你需要它们之前提供见解和解决方案。这将是我们处理数据的方式的彻底转变,而且可能很快就会发生。

        然而,AI 助手要有效工作有一个条件:必须维护数据目录。为了确保 AI 助手为利益相关者提供可靠的指导,基础文档必须 100% 可信。如果目录没有得到适当的维护,或者政策没有明确定义,那么人工智能助手将在整个公司传播不正确的信息。这比根本没有信息更有害,因为它可能导致基于错误背景的糟糕决策。

        您可能已经理解:人工智能和数据治理是相互依存的。人工智能可以增强数据治理,但反过来,需要强大的数据治理来推动人工智能的能力。这导致了一个良性循环,每个组件都提升另一个组件。但是您需要记住,没有任何元素可以取代另一个元素。

   

四、 数据政策和标准

        数据治理的另一个关键组成部分是治理规则的制定和实施。

        这通常涉及在组织内定义数据所有权和域。目前,人工智能在定义这些政策和标准时无法胜任这项任务。人工智能在执行规则或标记违规行为方面大放异彩,但在负责创建规则本身时却缺乏。

        原因很简单。定义所有权和领域与人类政治有关。例如,所有权意味着决定组织内谁对特定数据集拥有权限。这可能包括决定如何使用和何时使用数据、谁有权访问数据以及如何维护和保护数据的权力。做出这些决定通常涉及个人、团队或部门之间的谈判,每个人都有自己的兴趣和观点。出于显而易见的原因,人类政治不能被人工智能取代。

        因此,我们预计,在不久的将来,人类将继续在治理的这一方面发挥重要作用。生成式人工智能可以在起草所有权框架或建议数据域方面发挥作用。然而,让人类参与其中仍然是必须的。

五、 数据隐私和安全

        然而,生成式人工智能将改变治理部门的隐私。管理隐私权是传统上令人恐惧的治理方面。没有人喜欢它。它涉及手动创建复杂的权限体系结构,以确保敏感数据受到保护。

        好消息是:人工智能可以自动化这个过程的大部分。给定用户数量及其各自角色等参数,AI 可以创建访问权限规则。访问权限的架构方面基本上是基于代码的,与人工智能的能力非常吻合。人工智能系统可以处理这些参数,生成相关代码,并应用它来有效地管理数据访问。

        人工智能可以产生重大影响的另一个领域是个人身份信息(PII)的管理。如今,PII 标记通常是手动完成的,这对负责人来说是一种负担。这是人工智能可以完全自动化的东西。通过利用AI的模式识别功能,PII标记可以比人类完成时更准确地进行。从这个意义上说,使用人工智能实际上可以改善我们管理隐私保护的方式。

        这并不意味着人工智能将完全取代人类的参与。尽管人工智能具有功能,但我们仍然需要人工监督来管理意外情况并在需要时做出判断。

六. 数据质量

        我们不要忘记数据质量,这是治理的重要支柱。数据质量确保公司使用的信息准确、一致和可靠。保持数据质量一直是一项复杂的工作,但随着生成式人工智能的发展,情况已经发生了变化。

        正如我上面提到的,人工智能擅长应用规则和标记违规行为。这使得算法可以轻松识别数据中的异常。您可以在本文中找到有关 AI 如何影响数据质量不同方面的详细说明。

        人工智能还可以降低数据质量的技术门槛。这是SODA已经到位的东西。他们的新工具SodaGPT提供了一种无代码方法来表达数据质量检查,使用户能够仅使用自然语言执行质量检查。这使得数据质量维护变得更加直观和可访问。

七、结论

        我们已经看到,人工智能可以以一种触发范式转变开始的方式增强数据治理。很多变化已经发生,而且它们将继续存在。

        然而,人工智能只能建立在已经坚实的基础上。要使 AI 改变公司的搜索和发现体验,您必须已经在维护文档。人工智能很强大,但它不能奇迹般地修复一个有缺陷的系统。

        要记住的第二点是,即使人工智能可以用来生成围绕数据的大部分上下文,它也不能完全取代人为因素。我们仍然需要人类在循环中进行验证并记录每个公司独有的知识。因此,我们对治理未来的一句话预测:由人工智能推动,以人类的辨别力和认知为基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/766606.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

APP打包教程(使用HBuilder X工具打包uni-app)

App打包(使用Hbuilder进行App打包) 一、修改接口地址 1.打开uni-app下config/app.js修改接口地址,将下图红框中的地址修改成您的域名 二、配置参数 1.打开 uni-app 根目录下的 manifest.json 文件, 点击《基础配置》&#xff0…

户外运动耳机怎么选?这几款耳机最适合在运动时佩戴!

随着人们开始追求运动和健身带来的乐趣,以及在运动过程中享受音乐的过程,耳机逐渐成为当下的刚需,其中骨传导耳机凭借防水防汗、佩戴稳固不掉落加上开放式聆听受到当下消费者的热烈欢迎,有优点就有缺点,由于骨传导耳机…

opengauss 在一个机器上搭建主备集群

项目上需要高斯主备集群,试了好几个版本。最后搭建出一个在一个机器上的主备。用做测试,记录一下。 下载安装包 从openGauss开源社区下载对应平台的安装包。 a. 通过软件包 | openGauss登录openGauss开源社区,选择3.1.0版本对应平台极简版安…

【网络可用性】

网络可用性 Availability defined in a service-level agreement (SLA) between a network operator (carrier) and a customer. 关于SLA,可参考 思科Service Level Management: Best Practices White Paper 可用性对应的停机时间 转载于 https://blog.csdn.net/a…

Spark(27):Spark任务调度机制

目录 0. 相关文章链接 1. Spark任务调度概述 2. Spark Stage级调度 3. Spark Task级调度 3.1. 调度策略 3.1.1. FIFO调度策略 3.1.2. FAIR调度策略 3.2. 本地化调度 3.3. 失败重试与黑名单机制 0. 相关文章链接 Spark文章汇总 1. Spark任务调度概述 在生产环境下&am…

C#为什么不能成为大学编程入门的首选?

大学编程入门不以C#作为首选的原因有多个因素。虽然C#是一种功能强大的编程语言,但在大学编程入门阶段,通常会选择其他语言作为首选,以下是一些可能的原因: 我这里刚好有嵌入式、单片机、plc的资料需要可以私我或在评论区扣个6 …

投个 3D 冰壶,上班玩一玩 | 物理引擎

本篇文章将介绍如何使用物理引擎和图扑 3D 可视化技术来呈现冰壶运动的模拟。 Oimo.js 物理引擎 Oimo.js 是一个轻量级的物理引擎,它使用 JavaScript 语言编写,并且基于 OimoPhysics 引擎进行了改进和优化。Oimo.js 核心库只有 150K ,专门用…

抢滩“返校季”!这些品类拉开爆单之旅!

“返校季”作为仅次于“黑五网一”的购物旺季。在开学的前四到六周,家长与学生就会开始陆续采购返校季所需的物品,从七月下旬一直持续到九月,都将是“返校季”的购物高峰。今年的“返校季”又将呈现什么样的消费趋势?消费者的消费…

Julia变量作用域问题

变量作用域问题 1.软作用域与硬作用域 1.1软作用域 软作用域是指在代码块内部定义的变量,如果外部有同名变量,则内部变量会被优先使用,即“遮蔽”外部的同名变量,而不影响外部变量。 1.2硬作用域 硬作用域是指在代码块内部定…

DataGrip使用随笔

由于公司不让使用NAVIcat,顾用datagrip作为替代软件 1.下载和安装 从官网下载安装包https://download.jetbrains.com.cn/datagrip/datagrip-2023.1.2.exe后,选择安装位置并试用 2.链接数据库 需要先新建个项目存储所有的db连接信息,然后选…

安卓通过adb pull和adb push 手机与电脑之间传输文件

1.可以参考这篇文章 https://www.cnblogs.com/hhddcpp/p/4247923.html2.根据上面的文章,我做了如下修改 //设置/system为可读写: adb remount //复制手机中的文件到电脑中。需要在电脑中新建一个文件夹,我新建的文件夹为ce文件夹 adb pull …

2.9Frame 框架

2.9Frame 框架 这一次的效果将会像下面的图片一样. Frame 部件 Frame 是一个在 Windows 上分离小区域的部件, 它能将 Windows 分成不同的区,然后存放不同的其他部件. 同时一个 Frame 上也能再分成两个 Frame, Frame 可以认为是一种容器. ###定义一个label显示on the windo…

视频问答新增或修改视频问答

通过问答id新增或修改视频问答题目 新增或修改视频问答 图3:视频问答功能(观看效果) 图4:视频问答功能(观看效果) 图5:视频问答功能(观看效果) 单元测试 Testpublic voi…

Linux下九个实用脚本

目录 1.批量创建用户并设置密码脚本 2.查看网卡实时流量脚本 3.nginx访问日志脚本 4.dos防范攻击(自动屏蔽攻击脚本) 5.监控多台服务器磁盘利用率脚本 6.监控MySQL主从同步异常脚本 7.批量检查网站异常脚本 8.查看服务器资源利用率脚本 9.查找占…

高效出报表的工具有哪些?奥威BI报表工具怎样?

随着企业精细化数据分析的展开,数据分析报表的制作压力也随之增加。对企业而言,拥有一个高效出报表的工具十分重要。高效出报表的工具有哪些?奥威BI报表工具的效率够不够高? 高效出报表的工具有很多,奥威BI报表工具就…

java多线程之并发容器集合

一、多线程操作容器存在的问题 如下代码 public class NotSafeDemo {public static void main(String[] args) {List list new ArrayList();for (int i 0; i < 100; i) {new Thread(() -> {list.add(UUID.randomUUID().toString());System.out.println(list);}, &quo…

Vue导入Echarts实现散点图 axios解析excel流数据 echarts数据可视化前端展示

为实现从本地服务器下载xlsx文件至前端vue echarts中展示&#xff0c;踩过许多坑&#xff0c;现将完整流程和源码分享。 1、 vue axios get请求 返回304 Not Modified 不更新数据 原因&#xff1a;由于浏览器缓存了get请求&#xff0c;导致不管如何刷新&#xff0c;数据都不更…

Echarts:柱状图的第一个柱子超出了y轴

问题 使用Echarts绘制柱状图的时候&#xff0c;第一个柱子超出了y轴&#xff1a; 解决 boundaryGap 此属性与坐标轴两端空白有关。默认值为true即留空&#xff0c;false则表示柱子顶头,而出现上述现象,是因为代码中参数 boundaryGap设置为了false 将boundaryGap的值改为tru…

sadtalker-- 本地生成数字人

文章目录 概要工具讲解安装流程1. 安装Python2. 安装FFmpeg3. 安装Sadtalker4. 导入模型 使用流程1. 生成语音2. 上传图片跟语音3. 点击生成&#xff0c;漫长等待4. 虚拟内存 小结 概要 sadtalker&#xff0c;可以根据图片以及语音&#xff0c;生成动态视频&#xff0c;跟现在…

怎么将拼接的字符串element组件通过“v-html“渲染到页面

如上图所示&#xff0c;没那么多废话&#xff0c;直接上代码 html中 <div id"app"><div :html"tempHtml"></div> </div>vue中 new Vue({el: #app,data() {return {tempHtml: }},created() {this.getHtml()},mounted() {window.…