AI大模型在数据治理中的应用

news2025/1/16 8:57:34

目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推进带来了更多的困难。AI大模型的引入,可以有效地解决这一难题。相比传统的人工为主的数据治理,基于AI大模型的数据治理具有以下优势:

自动化:AI大模型可以通过学习和分析数据治理各项工作的特征和规则,自动化批量进行大规模数据的数据标准、元数据、数据质量管理、数据安全管理等数据治理任务,减少了人工处理的工作量,提升治理工作效率。

实时性:AI大模型可以实时监控和分析数据的变化,并及时进行预警或直接处理,提升数据治理的响应速度。
扩展性:AI大模型可以通过学习和迭代,持续提升自己的能力,以适应高度变化的业务和技术环境对数据治理的需求。
基于上述考量,在数据治理领域,基于AI大模型的能力,可以从如下主要场景实现从人工治理到智能治理的进化。

(一) 数据标准管理
无论是以人工为主的数据标准管理,还是基于AI大模型的智能化数据标准管理,首先都需要我们对企业的数据标准现状进行详尽的调研工作。调研的内容包括:企业当前的数据业务含义、数据标准分类、数据标准内容,业务和技术团队对当前数据标准的改进需求(以下简称“改进需求”),相关的国际标准、国家标准、地方标准和行业标准(以下统一简称为“外部标准”)等。

在此基础之上,利用AI大模型,可以从以下几个方面提升数据标准管理的智能化程度:

1.标准智能制定
基于企业现有标准、改进需求和外部标准,自动制定适合企业的数据标准。和人工制定的标准一样,自动制定的标准,也需要经过企业的业务和技术专家的审定后,才能正式发布使用。
2.标准智能落标
前向落标:按企业的数据标准实施策略,逐步赋能周边系统,在建表时,自动为字段推荐/匹配合适的数据标准。
后向落标:按企业的数据标准实施策略,逐步治理存量数据,批量自动化为其推荐/匹配合适的数据标准。

3.标准智能维护
随着业务需求和环境的变化,数据标准需要不断更新和维护。我们可以通过AI大模型,自动监测和分析业务数据的变化,提供标准的新增、变更、下线建议,帮助企业及时进行数据标准维护。
(二) 元数据管理
Gartner在其“数据编织”的架构中提出了Metadata Activation(国内一般翻译为“主动元数据”或“元数据激活”)的概念,随后又在其“元数据管理成熟度”中(见图3-2)对主动元数据进行了解释,概括来说就是:主动元数据指的是一种数据管理方式,即,发现、获取尽可能多的元数据,并以丰富的元数据为基础,利用各种AI技术手段(ML、NGL、知识图谱等),主动改进数据管理的工具和活动,提升数据管理的效率,降低管理成本。

图片

图3:Gartner数据编织架构

在这里插入图片描述

图4:Gartner元数据管理技术成熟度

Gartner在提出数据编织概念时,AI大模型还没出圈,但我们可以想象,如果Gartner更新其对数据编织的阐述,肯定会毫不犹豫地把AI大模型加入其架构中。

在元数据管理中,利用AI大模型,可以从以下几个方面提升智能化程度:

1.元数据智能挖掘
企业在做元数据采集时,由于源系统设计和管理的不规范,大多数情况下只能采集到最基础的技术元数据信息(如:数据库、Schema、表名、字段名等),需要花费大量人力和时间完善其他的核心元数据信息(如:表的中文名、业务口径、描述、标签,字段的中文名、描述、取值说明、敏感等级等)。通过AI大模型的推理能力,可以基于最基础的技术元数据信息和业务样例数据,自动填充其他的核心元数据信息。

2.数据血缘智能挖掘
业务和技术的发展,以及随之而来的日益复杂的加工逻辑、多源异构的数据库和多种类型的加工脚本,这些都给数据血缘解析(尤其是字段级血缘解析)带来了极大的挑战。通过AI大模型的代码解读能力,可以提升复杂代码、异构数据库和多类型的加工脚本场景下,血缘解析的成功率和准确率。再进一步,如果能利用AI大治理模型总结并生成表级和字段级的业务口径或者数据处理逻辑,将极大地提升人们理解数据、数据溯源和数据影响分析的效率。

3.数据智能分类
基于数据对象的元数据、业务样例数据,自动推荐数据对象所属的数据分类或挂载的数据目录。

4.数据推荐
基于企业中数据使用者的个人信息(部门、岗位、参与的业务等)、在大数据体系平台(数据开发平台、数据治理平台、BI报表平台等)中的操作行为(搜索、查看、收藏、订阅等)和数据对象的元数据、业务样例数据,向数据使用者推荐他们需要的数据对象。

(三) 数据质量管理
在数据质量管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:

1.质量规则推荐
基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则。

2.质量阈值推荐
通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。

3.质量异常自动定位
基于数据血缘链路和数据质量校验结果,自动定位数据质量异常的源头。

4.质量异常智能修复
针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。

(四) 数据安全管理
在数据安全管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:

1.敏感数据智能识别
基于数据对象的元数据、业务样例数据和企业的数据分级策略,自动识别数据对象的敏感等级。

2.脱敏/加密规则推荐
基于数据对象的元数据、业务样例数据、敏感等级和企业的数据安全策略,自动为数据对象推荐/匹配脱敏或加密规则。

3.数据风险智能识别
基于数据对象的元数据、血缘、敏感等级,企业的数据安全策略和已有的数据权限策略,自动识别数据风险并提供异常处理策略,应用场景主要包括:
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Java]面向对象

快速入门 计算机的核心作用就是处理数据, 变量用来存储单个数据, 数组用来储存一批数据, 对象用来存储一类数据 什么是对象: 对象就是一种特殊的数据结构, 在java中万物皆对象 面相对象编程的好处: 更加符合人类思维习惯 类和实例对象 在java中必须先设计类, 才能根据类创…

Python基本命令、函数、以及小项目

目录 1.基本操作 1.1 例子 1.2 输出结果 2.数据结构 2.1 例子 2.2 输出结果 3.字符串操作 3.1 例子 3.2 输出结果 4.文件操作 4.1 例子 4.2 输出结果 5.数学操作 5.1 例子 5.2 输出结果 6.模块导入 6.1 例子 6.2 输出结果 7.控制结构 7.1例子 输出结果 7…

Flink-StarRocks详解:第五部分查询数据湖(第55天)

系列文章目录 4.查询数据湖 4.1 Catalog 4.1.1 概述 4.1.1.1 基本概念 4.1.1.2 Catalog 4.1.1.3 访问Catalog 4.1.2 Default catalog 4.1.3 External Catalog 4.2 文件外部表 4.2.1 使用限制 4.2.2 开源版本语法 4.2.3 阿里云版本 5. 查询及优化 文章目录 系列文章目录前言4.查…

Java(十一)——内部类、成员内部类、静态内部类、局部内部类、匿名内部类

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

操作系统原理:程序、进程、线程的概念

文章目录 程序、进程、线程的概念程序(Program)进程(Process)线程(Thread)关系总结 在日常对操作系统的使用中,大家肯定对程序、进程和线程多少有所耳闻。作为操作系统的重要一部分,…

ROM修改进阶教程------修改自己适配的rom固件 禁止第三方修改 删除自定文件或app后自动重启的步骤解析

很多适配第三方系统的资深作者。都会在rom中加入一些防止他人任意修改的脚本。这种操作主要避免盗包的行为。而且前期有在rom中加入联网锁定id格式化分区的恶意操作。今天主要解析一种删除自带文件后重启手机后会反复重启的脚本步骤。 通过博文步骤可以初步了解; 1----了解删…

CAPL代码中判断网络是CAN还是CANFD

🍅 我是蚂蚁小兵,专注于车载诊断领域,尤其擅长于对CANoe工具的使用🍅 寻找组织 ,答疑解惑,摸鱼聊天,博客源码,点击加入👉【相亲相爱一家人】🍅 玩转CANoe&…

ardupilot开发 --- 网络技术综述 篇

不信人间有白头 一些概念参考文献 一些概念 以太网、局域网、互联网 以太网(Ethernet),是一种计算机局域网技术。以太网是一种有线网络技术,网络传输介质包括:以太网电缆,如常见的双绞线、光纤等。根据传输速度,可以氛…

2024107读书笔记|《火车快开(李娟诗集)》——我轰然经过你的生命,又悄然退却,你从不曾爱过我,你只爱我在你的生命中坠落

《火车快开(李娟诗集)》—— 文前第一部分 荒野碎片第二部分 弯路第三部分 告别 《火车快开(李娟诗集)》作者李娟,看的她的第一本书是《记一忘二三》,前段时间《我的阿勒泰》超级火,但我终于还是…

Codeforces Round 962 (Div. 3) A~F

A.Legs(贪心) 题意: 农夫约翰的农场又迎来了美好的一天。 农夫约翰来到农场后,数了数共 n n n条腿。众所周知,农场里只住着鸡和牛,一只鸡有 2 2 2条腿,而一头牛有 4 4 4条腿。 假设约翰农场…

Shell编程 --基础语法(1)

文章目录 Shell编程基础语法变量定义变量使用变量命令的使用只读变量删除变量 传递参数字符串获取字符串长度字符串截取 数组定义方式关联数组获取数组的长度 总结 Shell编程 Shell是一种程序设计语言。作为命令语言,它交互式解释和执行用户输入的命令或者自动地解…

数论——裴蜀定理、欧几里得算法、扩展欧几里得算法、逆元以及求解

裴蜀定理 若整数 a、b 互质(最大公约数为 1),则存在整数 x、y ,使得 ax by 1 。 更一般的情况是:设 a、b 是不全为零的整数,则存在整数 x、y ,使得 ax by gcd(a, b) ,其中 gcd…

第十一章:Kubernetes API服务器的安全防护

本章内容包括: 了解认证机制ServiceAccounts是什么及使用的原因了解基于角色(RBAC)的权限控制插件使用角色和角色绑定使用集群角色和集群角色绑定了解默认角色及其绑定 1 了解认证机制 在前面的内容中,我们说到API服务器可以配置一个到多个认证的插件(授…

等保2.0 | 人大金仓数据库测评

人大金仓数据库,全称为金仓数据库管理系统KingbaseES(简称:金仓数据库或KingbaseES),是北京人大金仓信息技术股份有限公司自主研制开发的具有自主知识产权的通用关系型数据库管理系统。以下是关于人大金仓数据库的详细…

室内养宠空气净化器哪家好?热门室内养宠空气净化器用户体验

自从家里有了4只英短后,一到季节我就得不停的拖地刷床,除了这些可以手动清理的猫毛之外,那么空气中的猫毛怎么办?真的不建议养猫,除非你能接受空气中飞舞着浮毛,衣服、床、筷子、鼻子里全都是猫毛&#xff…

STM32——外部中断(EXTI)

目录 前言 一、外部中断基础知识 二、使用步骤 三、固件库实现 四、STM32CubeMX实现 总结 前言 外部中断(External Interrupt,简称EXTI)是微控制器用于响应外部事件的一种方式,当外部事件发生时(如按键按下、传感器信号…

NC 合并区间

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 给出一组区间…

推流直播服务

pc端建立NVR服务器,并实现NVR功能,具有推流功能,推送给OBS,可以对接到抖音、快手等平台,实现实时直播,应用于无人值守,养殖、农场、旅游等场景 运行MediaServer和webserver 服务端口配置在confi…

C# 使用 NLog 输出日志到文件夹

在项目中使用 NuGet 安装 NLog 包以及 NLog.Config 包 配置 nlog.config 在项目的根目录下创建一个 Nlog.config 文件&#xff08;如果还没有&#xff09;&#xff0c;然后添加如下配置&#xff1a; <?xml version"1.0" encoding"utf-8" ?> <…

leetcode数论(​3044. 出现频率最高的质数)

前言 经过前期的基础训练以及部分实战练习&#xff0c;粗略掌握了各种题型的解题思路。现阶段开始专项练习。 描述 给你一个大小为 m x n 、下标从 0 开始的二维矩阵 mat 。在每个单元格&#xff0c;你可以按以下方式生成数字&#xff1a; 最多有 8 条路径可以选择&#xff1…