浅谈数据治理中的智能数据目录

news2024/9/28 13:22:57

在数字化转型的战略实施中,很多企业都在搭建自己的业务、数据及人工智能的中台。在同这些企业合作和交流中,越来越体会到数据目录是中台建设的核心和基础。为了更好地提供数据服务,发挥数据价值,用户需要先理解数据和信任数据。 企业拥有什么样的数据,这些数据在哪里,这些数据之间的关系及沿袭,数据是好是坏,这些都是数据目录需要回答的问题。

企业的数据环境具有复杂和多样性,数据分散在成百上千的本地和云端系统之中,其中包括传统的事务性数据库、大数据平台或者数据湖、基于云的市场营销等系统,还有不断涌现的新数据源和应用。人工智能和机器学习可使数据目录 “智能化”,使其具备自动发现,自动数据分类,自动分析和关联的能力,不断满足企业数据管理在处理规模、效率、创新和洞察力等方面的需求。

IBM很早就认识到将机器学习应用到数据管理的重要性,在IBM的Cloud Pak for Data中,机器学习无处不在,遍布数据集成、自动化数据管理、多云数据整合、数据准备、建议和数据洞察,其中Watson Knowledge Catalog致力于改进企业中数据管理者和数据使用者之间的数据流的通信、集成和自动化,被评为机器学习数据目录领导者。

1. 自动数据发现,快速构建数据目录

应对企业复杂和多样的数据环境,智能的数据目录可以自动快速地发现数据并进行识别,包括数据的轮廓,数据的业务含义,数据的分类,数据的质量,数据集之间的关系,是否有隐私或者敏感的数据,能快速地创建数据目录,高效地提供数据准备。

2. 关联数据资产,完整知识图谱

企业的各种信息,不是孤立的个体,之间存在各种的关系,例如业务分类同业务术语,业务术语同技术资产,业务规则同技术规则及数据资产,数据分类同数据资产,数据资产同数据管家等的关系。对于需要理解数据的用户,希望从任一个关注点出发,获取到与其相关的业务上、技术上、管理上等维度的关联的资产信息。

智能的数据目录,先将企业中存在于系统、流程和集体知识中的各类信息集合在一起,分析并关联,将企业的各类数据资产以关系图的形式展开,对于每个用户,可以从中截取自己关注的片段,并可以随信息的拓展而继续探索和发现新的知识,从而更好地理解数据,丰富自己的数据知识体系。

3. 自动数据校验,提升数据质量

在理解数据后,若要使用数据,需要进一步信任数据。数据质量是数据信任的基石,需提供细粒度的量化的数据质量监管和变化追踪,除了内置多种数据质量维度,自动进行数据质量打分外,还需要提供根据数据分类、业务特征、重要性等特定属性自动进行相关的数据规则校验,而不需要考虑数据的来源,大大提高数据管理的效率和范围。

4. 自动分析数据沿袭

用户需要对其数据细致了解,才能对数据更加自信和笃定,才能支撑分析和数据科学。

智能的数据目录能支撑从大量数据源中提取粗粒度—系统和系统之间的,数据集和和数据集合之间沿袭;同时支持细粒度—表和表之间,字段和字段之间的沿袭关系。

5. 智能搜索

无论是业务用户或者技术用户,无论数据处于企业什么位置,或者搜索时候输入模糊或者近似的信息,用户都能搜索到相应的结果,及大量相关联的信息。这些搜索结果会按照信息相关性从高到底给出。用户还可以在图形化的搜索对象上进行深入的展开和探查。对于搜索到的数据资产,用户可以预览数据,了解数据轮廓,进行数据可视化查看,为后续的数据分析和建模准备数据。

智能的数据目录,帮助用户揭示复杂的数据关系,高效创建可信赖的分析基础平台,从数据采集、数据治理到数据自助服务,提供端到端的一站式平台服务。

详情请访问IBM官网页面了解更多内容:IBM Knowledge Catalog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/984785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c高级day2(9.7)shell脚本

作业: 写一个1.sh脚本,将以下内容放到脚本中: 在家目录下创建目录文件,dir 在dir下创建dir1和dir2 把当前目录下的所有文件拷贝到dir1中, 把当前目录下的所有脚本文件拷贝到dir2中 把dir2打包并压缩为dir2.tar.xz 再把dir2…

基于docker环境的tomcat开启远程调试

背景: Tomcat部署在docker环境中,使用rancher来进行管理,需要对其进行远程调试。 操作步骤: 1.将容器中的catalina.sh映射出来,便于对其修改,添加远程调试相关参数。 注意:/data/produce2201…

【计算机网络】HTTP(下)

本文承接上文的代码进行改造,上文链接:HTTP上 文章目录 1. 实现网站跳转实现 自己的网站跳转 2. 请求方法(get) && 响应方法(post)GET方法POST方法GET与POST的应用场景 3. HTTP状态码在自己设计的代码中发现4043开头的状态码(重定向状态码)永久…

“交叉轮”轮融资后,哪吒汽车能否脚踏“风火轮”续写逆袭故事?

2023年的新能源汽车江湖,烟波浩渺的水面下暗潮汹涌。 从特斯拉年初打响降价第一枪,降价潮至今未见尾声。9月刚至,小鹏汽车、零跑汽车又推出了调价政策。 这一背景下,车企内卷加剧是必然。年初,哪吒汽车联合创始人、C…

2019 ICPC香港站 G. Game Design

Problem - G - Codeforces 问题描述:怪物只能在树叶子节点出生,向上走,可以花费一个值在一个节点建防御塔,防御塔会阻碍怪物向上走。最小花费可以让根节点无法被怪物走到的一个造塔方法算是一个方案。现给定方案数,让…

MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 论文阅读

论文信息 题目:MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者:Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 时间:2022 来源: IEEE/SICE International Symposium on System Integration …

Kubernetes(k8s)部署高可用多主多从的Redis集群

Kubernetes部署高可用多主多从的Redis集群 环境准备准备Kubernetes准备存储类 部署redis准备一个命名空间命令创建yaml文件创建(推荐) 准备redis配置文件准备部署statefulset的资源清单文件执行文件完成部署初始化集群 环境准备 准备Kubernetes 首先你…

【Go基础】编译、变量、常量、基本数据类型、字符串

面试题文档下链接点击这里免积分下载 go语言入门到精通点击这里免积分下载 编译 使用 go build 1.在项目目录下执行 2.在其他路径下编译 go build ,需要再后面加上项目的路径(项目路径从GOPATH/src后开始写起,编译之后的可执行文件就保存再…

chrome_elf.dll丢失怎么办?修复chrome_elf.dll文件的方法

Chrome是目前最受欢迎的网络浏览器之一,然而有时用户可能会遇到Chrome_elf.dll丢失的问题。该DLL文件是Chrome浏览器的一个重要组成部分,负责启动和管理程序的各种功能。当Chrome_elf.dll丢失时,用户可能无法正常启动Chrome或执行某些功能。本…

log4qt库的使用

log4qt库的使用 一,什么是log4qt?二,log4qt的下载三,如何集成log4qt?1.在vs2022中集成log4qt的方法:模块一:配置log4qt的步骤步骤一,将下好的log4qt库进行解压,然后再库文件中,新建build和Log4Qt文件夹步骤二,打开cmake,有两个填写路径的位置.步骤三,点击cmake的configure按钮…

(2023,Diffusion)稳定扩散模型是不稳定的

Stable Diffusion is Unstable 公众号:EDPJ(添加 VX:CV_EDPJ 进交流群获取资料) 0. 摘要 最近,文本到图像模型一直蓬勃发展。 尽管它们具有强大的生成能力,但我们的研究发现这一生成过程缺乏稳健性。 具体…

【C++】平衡二叉搜索树的模拟实现

🌇个人主页:平凡的小苏 📚学习格言:命运给你一个低的起点,是想看你精彩的翻盘,而不是让你自甘堕落,脚下的路虽然难走,但我还能走,比起向阳而生,我更想尝试逆风…

【数据结构】设计环形队列

环形队列是一种线性数据结构,其操作表现基于 FIFO(先进先出)原则并且队尾被连接在队首之后以形成一个循环。它也被称为“环形缓冲器”。 环形队列的一个好处是我们可以利用这个队列之前用过的空间。在一个普通队列里,一旦一个队列…

使用Caffeine实现帖子的缓存来优化网站的运行速度

导入依赖 <!-- https://mvnrepository.com/artifact/com.github.ben-manes.caffeine/caffeine --><dependency><groupId>com.github.ben-manes.caffeine</groupId><artifactId>caffeine</artifactId><version>3.1.7</version>…

【产品应用】一体化伺服电机在全自动咖啡研磨机中的应用

在现代社会中&#xff0c;咖啡已经成为人们生活中不可或缺的一部分。为了满足咖啡爱好者对于口感和品质的追求&#xff0c;全自动咖啡研磨机应运而生。 而其中的一体化伺服电机作为关键组件&#xff0c;发挥着重要的作用。本文将探讨一体化伺服电机在全自动咖啡研磨机中的应用&…

Magisk隐藏外挂解决方案

自2008年1.0测试版发布以来&#xff0c;安卓系统已经发展了近16年&#xff0c;凭借着优秀的开源生态&#xff0c;安卓系统飞速成长&#xff0c;已经成了当下手机系统中的龙头。据研究机构 Canalys 报告称&#xff0c;今年第一季度安卓设备的整体市场份额占比达到 78 %。 开源生…

走进中国水果罐头领军品牌真心罐头—快消食品企业的全链路数字化

近日&#xff0c;【数字中国-高效增长】名城优企游学系列之走进真心罐头活动成功举办&#xff01; 真心罐头食品有限公司&#xff08;以下简称为“真心罐头”&#xff09;初创于1990年&#xff0c;位于素有“北方明珠”、“黄桃之乡”美誉的海滨城市——辽宁省大连市&#xff0…

软件测试面试题(Python全栈自动化测试面试题)

1、你的测试职业发展是什么? 测试经验越多&#xff0c;测试能力越高。所以我的职业发展是需要时间积累的&#xff0c;一步步向着高级测试工程师奔去。而且我也有初步的职业规划&#xff0c;前3年积累测试经验&#xff0c;按如何做好测试工程师的要点去要求自己&#xff0c;不…

Java不定参数使用及一些注意情况

一、背景 在项目中使用到了StringUtils.isAllBlack(String …css)方法。可以很方便地传递不定数量的参数进行空判。 但开发过程中遇到了一些问题&#xff0c;所以特地记录一下。 二、不定参数传参 不定参数的传参本质上是一个泛型的数组。参数数量大于等于两个的时候&#x…