如何协调数据集成和数据质量?

news2024/10/6 8:34:31

想象一下用腐烂的木头制作的一件漂亮的家具或用劣质面料制成的高级时尚衬衫。材料的质量影响最终产品。那么,为什么数据洞察(贵公司庞大的数据管理工作的主要产品)会有所不同呢?

无论您的数据管理生态系统有多强大,或者您的数据集成、分析和可视化工具有多先进,都无关紧要。业务洞察的最终质量取决于用于生成它们的原始数据的质量。

“质量”一词不仅指准确性,还指一致性、完整性、一致性和完整性。当数据集高质量时,您可以更轻松地处理和分析它以创造业务价值。高质量的数据创造良性循环。当用户信任您的数据时,他们会更多地使用它并获得更好的结果。随后,它会在您的组织中创建更强大的数据文化。

另一方面是数据质量低或未知,这远非良性。不良数据可能会导致恶性循环,包括分析不准确、决策不明智、财务或声誉受损以及数据文化受到侵蚀。

谁对数据质量负责?

好的数据是每个人的愿望清单。但是,确保整个数据管理生态系统中的高质量数据的责任在哪里?从原始数据到最终业务洞察的过程中存在三个关键利益相关者:数据生产者、数据集成者和数据消费者。然而,由于过程变得复杂且往往缺乏透明度,这些利益相关者往往只关注自己的拼图。这意味着关系到每个人的数据质量往往成为任何人的责任。

如果没有以下三个亲自处理数据的利益相关者群体的积极参与,即使是专门任命的数据管理员也不会取得进展。

数据生产者

在大多数企业中,来自销售、营销、财务、制造和客户服务等日常业务运营的数据以 PB 为单位流动。物联网设备、边缘计算和第三方来源也以不断扩大的格式提供数据。

数据生产者对他们收集的数据有深入的了解,应该谨慎地收集具有真正商业价值的数据,而不是将他们生成的所有数据转储到分析中。最重要的是,数据收集、存储和处理会带来安全性和成本影响。明确定义的数据字段和限定符有助于保持数据的相关性并及时供下游使用。

数据集成商

数据工程师在将原始数据转化为业务洞察方面发挥着重要作用。在许多组织中,作为移动和转换数据的管道的创建者和所有者,数据质量的责任落在您身上。

虽然您擅长处理数据,但您可能缺乏对数据本身的深入理解。这可能会给数据质量管理带来挑战。例如,虽然数据使用者可能知道特定字段永远不会是负值,但您可能不知道。数据质量规则的文档定义了数据旅程每个步骤的应用方式和时间,将帮助您获得更一致的结果。

数据消费者

业务用户(例如销售、营销运营团队和数据分析师)需要可信、可用于业务的数据和见解。当他们能够观察出于质量目的而组合、更改或转换数据的位置以及影响数据的格式、来源和工作流程时,他们会对分析和见解更有信心。

然而,他们在技术上不如数据工程师——这意味着自助服务选项需要用户友好且直观,以便他们能够轻松实施。

永久修复数据质量的 3 条基本规则

对于大多数公司来说,数据工具的蔓延已经是一个挑战。再加上质量较差的数据,您就可以将昂贵的工程资源保持在持续的救火模式中,而不是专注于战略工作。事实上,41% 的 CDO表示他们必须提高数据质量以支持数据战略优先事项。

随着大多数现代组织在混合、多云环境中运营并转向人工智能驱动的数据堆栈,数据管理生态系统迫切需要干净、高质量的数据。如果没有这一点,生成式人工智能和大语言模型 (LLM) 管理的服务就无法改善结果。

以下是从“垃圾输入、垃圾输出”(GI-GO) 模式永久转变为“质量输入-质量输出”(QI-QO) 模式的三个基本规则。

1. 建立强大的数据质量基础

数据质量不是您可以随心所欲地弥补或改进的。高质量数据的要求需要融入到您企业的数据管理基础中。这包括:

  • 清晰的定义、规则和用户定义的指标,可以一致地应用于分析、清理、标准化、验证和删除重复数据。这可确保您正在处理的数据适合目的并符合数据处理法规。
  • 数据发现和可观察性工作流程,可更好地了解数据的运行状况并识别对每项操作成功至关重要的数据字段。
  • 与既定的数据治理实践保持一致,以帮助在整个数据生命周期中分配资源、定义工作流程并实施数据质量改进计划。

2.采取长期、全企业范围的数据质量方法

数据质量并不是只有在出现大问题时才会出现的战术解决方案。您不能等到问题追溯到数据质量或跨职能的数据质量不一致时才采取行动。毕竟,当今真正的业务优势来自于企业范围内的互联数据洞察。

就像数据本身不能被碎片化和孤立一样,您的数据质量框架也不能被分割和孤立,它可以使您的数据保持干净并适合用途。一次性快速修复可以暂时解决单个应用程序或特定业务流程中的问题。但是,它们通常不会为您的业务实现长期的数据质量改进。

端到端、企业范围内的数据质量方法将:

  • 确保数据消费者、集成商和生产者之间的协作:推动数据质量定义、规则和工作流程的清晰度和共识。将数据置于各种用例的上下文中。评估其对业务成果的真正价值。
  • 保持对应用程序、用例和部署模型的不可知性,在以下方面应用标准规则:数据管理生态系统中的新工具和技术。新的数据格式和结构不断发展。新兴数据领域,包括新领域(数据湖、人工智能、物联网)和新数据源。混合多云环境中基于云的数据集成工作流程。
  • 规范持续的影响监控和测量,以分析数据质量的下降或提高。

3. 利用人工智能的力量提高数据质量

由人工智能驱动的数据质量管理工具可以充当您的智能副驾驶,自动执行关键任务、降低成本并提高生产力。人工智能可以:

  • 从元数据中学习以识别模式和异常。推荐、创建和执行规则来解决这些问题。
  • 自动执行重复性任务。使用一组关键的预构建规则大规模分析、清理、标准化和丰富数据。
  • 重用数据质量规则来帮助协调新应用程序或数据源与现有数据。
  • 支持和丰富相关的数据质量流程,例如主数据管理、数据编目和数据治理。
  • 推动自助数据文化,为最了解数据的业务用户提供按需访问所需数据的自由,并在不依赖 IT 的情况下解决问题。 自然语言界面可帮助业务用户通过直观的拖动和配置功能快速构建、测试和运行数据质量计划。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1602280.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《自动机理论、语言和计算导论》阅读笔记:p139-p171

《自动机理论、语言和计算导论》学习第 7 天,p139-p171总结,总计 33 页。 一、技术总结 1.reversal p139, The reversal of a string a1a2…an is the string written backwards, that is anan-1…a1. 2.homomorphism A string homomorphism is a f…

点云语义分割:使用Cylinder3D训练SemanticKITTI数据集

点云语义分割:使用Cylinder3D训练SemanticKITTI数据集 一、环境二、数据准备3、训练4、测试5、可视化 一、环境 系统:Ubuntu18 Pytorch:1.5.0 GPU:Tesla V100 cuda:10.2 代码: Cylinder3D 二、数据准备 下载semanticKITTI数据集…

32.5k star!发现一个新的 API 调试工具!postman 要被替换了【文末有项目源码】

在软件开发过程中,API(应用程序接口)扮演着至关重要的角色。为了确保 API 的可靠性和性能,开发人员需要一种高效的方式来测试和调试它们。这方面的工具,大家经常用到的应该就是 postman 了。不过,今天想要给…

钡铼IOy系列模块深挖工业场景需求提供丰富多样的I/O解决方案

钡铼IOy系列模块以其灵活性和多样性,在工业场景中提供了丰富多样的I/O解决方案,满足了不同行业、不同应用场景的需求。以下是一些常见的工业场景需求及钡铼IOy系列模块提供的解决方案: 1. 工厂自动化 需求:工厂自动化需要对生产线…

03-JAVA设计模式-迭代器模式

迭代器模式 什么是迭代器模式 迭代器模式(demo1.Iterator Pattern)是Java中一种常用的设计模式,它提供了一种顺序访问一个聚合对象中各个元素,而又不需要暴露该对象的内部表示的方法。迭代器模式将遍历逻辑从聚合对象中分离出来…

斯坦福大学2024年人工智能发展和前景全面分析报告

2024 年指数是斯坦福大学迄今为止最全面的指数,恰逢人工智能对社会的影响力达到前所未有的重要时刻。今年,斯坦福大学扩大了研究范围,更广泛地涵盖人工智能的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态等基本趋势。 完整详细…

C++基本输入输出

C 中的输入和输出( I/O )主要是通过标准库中的输入输出流来实现的。最常用的是 iostream 1. 库,它提供了用于输入和输出的基本流类,包括 cin 、 cout 、 cerr 和 clog 。 1.标准输出流 ( cout ) cout 代表标准输出流&a…

Java 基于微信小程序的医院预约挂号小程序(V3)

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

短信防刷之滑动验证码

前言:最近想写一个滑动验证码,前台的样式虽然很好看,但是并不安全,网上也都是一些demo,不是前后台分离的,然后就自己查资料,自己来完成了 滑动验证码 一、为什么要使用滑动验证码 首先&#x…

C++ 秋招必知必会(数据结构与算法:下)

20. 二叉树的定义与操作 二叉树(binary tree)是一种非线性数据结构,代表着祖先与后代之间的派生关系,体现着“一分为二”的分治逻辑 与链表类似,二叉树的基本单元是节点,每个节点包含:值、左子…

吐血整理102个Python项目,从基础到高级,练完你就牛了!

前言 Python 初学者在迈过安装编程环境和基本语法的门槛,准备大展身手的时候,可能突然就会进入迷茫期: 不知道做些什么、再学些什么。。。 然后对编程的兴趣就会慢慢消退,找不到坚持下去的理由,从而慢慢淡忘之前学会…

JookDB下载安装使用

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

【Arduino IDE 环境配置】

目录 Arduino IDE 环境配置 1. 安装方式2. 操作方法(Arduino中文社区) 2.1. 安装Arduino IDE2.2. 下载固件2.3. 修改Arduino IDE语言2.4. 添加开发板管理网址2.5. 运行离线包2.6. 检查安装是否成功 下载Arduino IDE: 如果你还没有安装Arduin…

文件包含漏洞利用技术总结

开发人员一般会把重复使用的函数写到单个文件中,需要使用某个函数时直接调用此文件,而无需再次编写,这中文件调用的过程一般被称为文件包含。 allow_url_fopen On(是否允许打开远程文件) allow_url_include On&…

claude3国内能用吗

claude3国内能用吗 如果您在国内无法直接使用Claude模型,可以考虑以下几种解决办法: 镜像站点:和GPT模型相似,使用为国内用户设置的镜像网站可以是一个解决方案。这些镜像站点可能会提供Claude模型的本地化服务,确保…

CAPL 定时器数组 实现同时注入多条CAN报文

🍅 我是蚂蚁小兵,专注于车载诊断领域,尤其擅长于对CANoe工具的使用🍅 寻找组织 ,答疑解惑,摸鱼聊天,博客源码,点击加入👉【相亲相爱一家人】🍅 玩转CANoe&…

HTTP1.0、HTTP1.1、HTTP2.0、HTTP3.0傻傻分不清楚

一、HTTP1.0 默认使用短连接。无状态,无连接。 每个请求都需要新建TCP连接,性能较低。 不支持多路复用。 基于文本的协议。 不支持头部压缩。 请求头不支持Host头域。 不支持服务端推送。 不支持请求优先级。 不允许断点续传。 默认不加密,可…

【一刷《剑指Offer》】面试题 4:替换空格

力扣对应链接:LCR 122. 路径加密 - 力扣(LeetCode) 牛客对应链接:替换空格_牛客题霸_牛客网 (nowcoder.com) 核心考点 :字符串相关,特性观察,临界条件处理。 一、《剑指Offer》内容 二、分析问…

AlgorithmDay14

day14 二叉树基础 二叉树的种类 满二叉树 只有度为0和2的结点,并且度为0的结点在同一层 (深度为k 有2^k-1个结点) 完全二叉树 除了最底层可能每天,其余都填满了, 并且最底层的结点集中在该层的左边位置。 二叉…

机器学习引领金融革命:重塑金融服务领域新格局,开启智能化新篇章

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向的学习指导…