数据保管库的数据质量错误

news2024/9/21 2:50:23

数据保管库的数据质量错误

在过去的几年里,数据仓库发生了巨大的变化,但这并不意味着支撑健全数据架构的基本原理需要被抛在窗外。事实上,随着GDPR等数据法规的日益严格以及对优化技术成本的重新重视,我们现在看到了“Data Vault 2.0”数据建模的复兴。

虽然数据保险库有很多好处,但它是一种复杂而复杂的方法,可能会给数据质量带来挑战。在本文中,我们将深入探讨数据保管库架构、挑战和保持数据质量的最佳实践;以及数据可观测性如何提供帮助。

什么是数据保管库模型?

对于那些不熟悉的人来说,数据保险库是由Dan Linstedt(您可能熟悉Kimball或Imon模型)创建的数据仓库建模方法,创建于2000年,并于2013年更新。数据保管库收集和组织原始数据作为底层结构,以充当馈送 Kimball 或 Inmon 维度模型的源。

数据保险库范例解决了在半永久性原始数据存储之上叠加组织的愿望。数据保管库模型有三个组件:

  • 附属表:包含与特定业务概念相关的信息。
  • 中心表:通过标准键关系、组合键或包含哈希的更具安全意识的方法将附属表链接在一起。
  • 链接表:通过键(或等效项)将不同的中心表映射在一起。

数据保险库的优势

与其他方法(或根本不建模!)相比,数据保险库建模具有许多优势,例如它适用于审计、快速重新定义关系以及轻松添加新数据集。Pie Insurance 是一家领先的小型企业保险科技公司,利用数据保险库 2.0 架构(有一些细微的偏差)来实现其围绕可扩展性和元数据使用的数据集成目标。

“数据保险库数据模型旨在成为组织业务模型的物理实现,因此它成为从多个来源插入数据的标准位置。例如,当新数据添加到我们的数据仓库时,我们可以通过添加卫星表将数据插入到我们的模型中。或者,随着新的主题领域进入范围,我们可以根据我们的业务模型添加新的集线器和链接表,“Pie数据架构数据工程师Ken Wood说。

Pie从其数据保险库实施中获得的其他优势包括:

  • 组织 – Pie 可以快速找到他们需要的数据,因为它是按照其业务模型组织的。
  • 基础 – 数据保管库提供了一个坚实的基础,允许快速“快速获得见解”。当出现新问题时,他们可以在数据保管库表的下游构建维度表,甚至可以虚拟化下游内容(视图)。
  • 历史记录 – 卫星表的设计允许 Pie 搜索和查询随时间推移的数据更改,本质上是提供缓慢更改维度和数据的事实历史记录视图所需的数据。

如何实现数据保管库架构?

虽然部署会有所不同,但 Pie 的数据保险库架构实施包括构成其数据管道生态系统的四个数据架构概念层:

  • 摄取层 – 从源系统登陆和暂存原始数据。
    • 登陆 – 源文件登陆 AWS S3 存储桶
    • 暂存 – 原始源数据存储在雪花表内的 VARIANT 列中。
  • 策展层 – 组织原始数据。
    • 原始数据保管库 – 在 Snowflake 环境中,并按照数据保管库 2.0 方法的建议将其映射到中心、卫星和链接表进行小转换。
    • 业务数据模型 – Pie的数据保险库设计是其业务数据模型的物理模型 - 而不是尝试基于每个源系统的数据进行设计。这为他们提供了一个单一的模型,无论来源如何。
  • 转换层 – 使用业务逻辑转换和清理数据。
    • 业务保管库 – 遵循业务转换规则的预转换数据。
    • 信息仓库 – 仅此层遵循维度(或金博尔)星形(或雪花)数据模型。
  • 表示层–绝大多数用户的报告层。此图层具有最少的变换规则。
    • BI/报告工具 – Pie使用Looker,它有一个反映“信息仓库”(转换后的数据)的元数据层。
    • 未来报告工具插件 – 这允许在不进行重大开发的情况下添加未来的报告或查询工具,因为数据已经在数据库层中转换。
    • 动态规则 – 需要根据自助服务用户需要查看其信息的不同粒度或聚合视图进行更改的动态规则或计算。

“我们从左到右思考我们的架构。最左边是最原始形式的数据,最右边是已经完全转换、清理并准备供业务使用的信息,“Ken 说。

数据保管库的数据质量错误

数据保管库体系结构有很多好处,但与其他方法相比,它确实会创建更多具有更复杂的转换以及上游和下游资产之间关系的表。如果解决不当,这可能会带来数据质量挑战。

一些挑战可能包括:

  • 代码维护: 集线器、卫星表和链接表的 ETL 代码必须遵循与常见列值定义(如业务和哈希键定义)相同的规则,以使它们能够独立加载。因此,对代码的任何更改可能必须在多个位置完成,以确保一致性。
  • 层之间的多个复杂转换: 转换是使用任何方法的任何数据工程管道中的必要步骤,但它们可能会创建数据质量事件。当转换代码被修改(可能不正确)或输入数据与转换模型的基本预期不一致(可能是意外的架构更改或数据未按时到达)时,可能会发生这种情况。数据保管库体系结构中多个层的长转换代码块可能会加剧这些错误,并使根本原因分析更加困难。此处的最佳做法是使转换尽可能简单。
  • 维护集线器、链路和附属表的完整性: 数据保管库中心、链接和附属表中的任何负载(或其他错误)都会损坏下游查询,输出显示部分数据或缺失数据。在这种情况下,最好的做法是建立自动验证检查或数据可观察性,以便在这些异常发生时检测它们。
  • 了解依赖关系: 映射数据保管库体系结构中的所有依赖项可能具有挑战性,尤其是在多个层之间。在这种情况下,最好的做法是建立可观测性和监控,以便在出现问题时及时发现。

代码维护

集线器、卫星表和链接表的 ETL 代码必须遵循与常见列值定义(如业务和哈希键定义)相同的规则,以使它们能够独立加载。因此,对代码的任何更改可能必须在多个位置完成,以确保一致性。

一个提示?“我们的代码生成是元数据驱动的,因此当我们在一个地方更改元数据时,它会在使用该特定元数据的任何地方重新生成 ETL 代码,”Ken 说。

层之间的多个复杂转换

转换是使用任何方法的任何数据工程管道中的必要步骤,但它们可能会创建数据质量事件。当转换代码被修改(可能不正确)或输入数据与转换模型的基本预期不一致(可能是意外的架构更改或数据未按时到达)时,可能会发生这种情况。

数据保管库体系结构中多个层的长转换代码块可能会加剧这些错误,并使根本原因分析更加困难。此处的最佳做法是使转换尽可能简单。

“我们正在努力改进我们的设计,以便在数据管道中的一个位置(信息仓库)应用复杂的转换,”Ken 说。“随着原始数据保管库的扩展,转换逻辑变得更加复杂,因此我们正在设计降低复杂性的方法。

维护集线器、链路和附属表的完整性

数据保管库中心、链接和附属表中的任何负载(或其他错误)都会损坏下游查询,输出显示部分数据或缺失数据。

“关键是要有自动验证检查或数据可观察性,以便在这些异常发生时检测它们,”Ken说。

在此数据保管库图中,红点表示转换可能引入数据质量问题的位置。

了解依赖关系

映射数据保管库体系结构中的所有依赖项可能具有挑战性,尤其是在不了解源数据以将其映射到目标 Hub、Satellite 和 Link 表时,或者源系统具有目标模型中没有的其他意外业务键时。

“我们通过使用多活动卫星表来处理这个问题。这些为卫星表增加了一个键以匹配谷物,“Ken 说。或者,我们在引入新键时添加集线器和链接表,这与我们的业务模型一致。

扩展测试

跨数据仓库进行数据测试已经是一个令人头疼的问题,但对于数据保管库,这尤其困难。

这是因为没有人可以预测和编写针对数据中断的所有方式的测试,即使可以,也几乎不可能跨环境中的所有表和管道进行扩展。

在数据保险库架构方面尤其如此,因为需要覆盖 3 倍的表面积,并且多层和转换增加了更多未知的数据质量问题。

使用 ML 数据异常检测器提高数据保管库的可靠性

使用 ML 数据异常检测(在内部构建或在数据可观测性解决方案中构建)可以解决几个关键领域的数据保管库数据质量挑战:

  • Data Vault 架构的标志之一是它“100% 的时间收集 100% 的数据”,这可能会使回填原始保管库中的错误数据变得很痛苦。机器学习异常检测器可缩短检测时间,使数据团队能够关闭损坏管道的龙头,并阻止不良数据流流入原始保管库,从而减轻数据回填负担。
  • 从原始数据登陆区域到报告表,ML 数据异常情况检测可以确保数字范围和值类型符合预期。
  • 监视跨层移动数据的转换查询,以确保它们在预期时间以预期的负载量运行,以行或字节定义。自动数据沿袭将使Pie(和其他使用数据保险库的组织)能够大大加快其根本原因分析。
  • 随着数据保管库体系结构创建的表和列引用越来越多,监视架构更改(例如表或列名称更改)的需求也随之增加。

最终数据保管库建议

遵循数据保险库领域领导者的建议,如Pie,是一个很好的下一步。对于Ken来说,成功归结为与业务和商业模式的不断协调。

“避免仅对数据保险库表进行建模以轻松适应来自源系统的数据的诱惑 - 除非该源系统的数据模型是基于您企业的数据模型构建的,”他建议道。

您的团队已投入大量时间和专业知识来开发和维护数据保管库体系结构。确保每一步的数据信任将证明您辛苦赚来的劳动成果是合理的。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/448728.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式之备忘录模式(C++)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 一、备忘录模式是什么? 备忘录模式是一种行为型的软件设计模式,在不破坏封装的前提下,获取一个…

OpenCV实例(八)行人跟踪

OpenCV实例(八)行人跟踪 1.目标跟踪概述2.基于背景差分检测运动物体2.1 实现基本背景差分器2.2 使用MOG背景差分器2.3 使用卡尔曼滤波器寻找运动趋势 3.跟踪行人 作者:Xiou 1.目标跟踪概述 目标跟踪是对摄像头视频中的移动目标进行定位的过…

数据结构与算法基础-学习-20-查找之散列表(HASH TABLE)

目录 目录 一、基本思想 二、术语 1、散列方法 2、散列函数 3、散列表 4、冲突 5、同义词 三、如何减少哈希冲突 四、构造散列函数需考虑的情况 五、散列函数的构造方法 1、直接定址法 2、除留余数法 六、如何处理哈希冲突 1、开地址法 2、拉链法 七、散列表查…

【微服务笔记16】微服务组件之Gateway服务网关基础环境搭建、高可用网关环境搭建

这篇文章,主要介绍微服务组件之Gateway服务网关基础环境搭建、高可用网关环境搭建。 目录 一、Gateway服务网关 1.1、什么是Gateway 1.2、Gateway基础环境搭建 (1)基础环境介绍 (2)引入依赖 (3&#…

快速上手Navicat~

众所周知, Navicat是一款轻量级的用于MySQL连接和管理的工具,非常好用,使用起来方便快捷,简洁。下面我会简单的讲一下其安装以及使用的方法。并且会附带相关的永久安装教程。 简介 一般我们在开发过程中是离不开数据库的&#xf…

【Unity VR开发】结合VRTK4.0:添加对象追随器

语录: 我已经准备好了足够挡雨的伞,可是却迟迟没有等到雨的到来,这样的尴尬只是我漫长人生中的小插曲罢了。 前言: 对象追随器的目的是让一个或多个游戏对象跟随场景中的另一个对象,而无需将游戏对象嵌套在彼此之下。 …

『pyqt5 从0基础开始项目实战』13. 打包生成exe(保姆级图文)

目录 项目源码打包exe打开闪退需要db文件夹总结 欢迎关注 『pyqt5 从0基础开始项目实战』 专栏,持续更新中 欢迎关注 『pyqt5 从0基础开始项目实战』 专栏,持续更新中 项目源码 请查阅专栏上文获取源码 ## 安装库包 python pip install pyinstaller ![…

Stable Diffusion的原理

CSDN-markdown语法之怎样使用LaTeX语法编写数学公式 参考视频:【diffusion】扩散模型详解!原理代码! 用一颗桃树为你讲清楚 知识点:AI绘图原理 Diffusion扩散模型 Windows深度学习环境搭建:Windows深度学习环境搭建 …

FFmpeg开发笔记(三)FFmpeg的可执行程序介绍

外界对于FFmpeg主要有两种使用途径,一种是在命令行运行FFmpeg的可执行程序,该方式适合没什么特殊要求的普通场景;另一种是通过代码调用FFmpeg的动态链接库,由于开发者可以在C代码中编排个性化的逻辑,因此该方式适合厂商…

一篇文章介绍分布式事务

1、事务的基本概念 事务 事务指的就是一个操作单元,在这个操作单元中的所有操作最终要保持一致的行为,要么所有操作都成功,要么所有的操作都被撤销。简单地说,事务提供一种“要么什么都不做,要么做全套”机制。 本地…

【越早知道越好】的道理——能够大大提升效率的【快捷键】

文章目录 1️⃣虚拟桌面第一步:打开任务视图第二步:创建桌面第三步:桌面切换第四步:桌面删除 2️⃣窗口切换3️⃣桌面分屏如何分屏 前言🧑‍🎤:作为程序员👨‍💻&#xf…

scratch足球射门练习 中国电子学会图形化编程 少儿编程 scratch编程等级考试一级真题和答案解析2023年3月

目录 scratch足球射门练习 一、题目要求 1、准备工作 2、功能实现 二、案例分析

基于Java+SpringBoot+Vue前后端分离仓库管理系统设计实现

基于JavaSpringBootVue前后端分离仓库管理系统设计实现 博主介绍:5年java开发经验,专注Java开发、定制、远程、指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源码联系方式…

RocketMQ 5.0 时代,6 张图带你理解 Proxy!

大家好,我是君哥。今天来聊一聊 RocketMQ 5.0 中的 Proxy。 RocketMQ 5.0 为了更好地拥抱云原生,引入了无状态的 Proxy 模块,新的架构图如下: 引入 Proxy 模块后,Proxy 承担了协议适配、权限管理、消息管理等计算功能…

JVM垃圾回收GC 详解(java1.8)

目录 垃圾判断算法(你是不是垃圾?) 引用计数法 可达性算法 对象的引用 强引用 软引用 弱引用 虚引用 对象的自我救赎 垃圾回收算法--分代 标记清除算法 复制算法 标记整理法 垃圾处理器 垃圾判断算法(你是不是垃圾&…

Anaconda+PyTorch环境搭建

AnacondaPyTorch环境搭建 环境Anaconda安装配置下载镜像 cuda和cudnncudacudnn pytorch参考文章 环境 win10 22hx nvidia driver 528.89 Anaconda安装 在清华镜像中选择合适的版本及对应系统 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载好之后一路next即可…

vscode笔记

vscode怎么中止运行 控制台—输出,结束运行: 控制台右击,然后点击Stop Code Run或者CtrlAltM快捷键 停止正在运行的Python脚本 在VS Code的右下角,选择正在运行的终端, 点右键,终止终端 VS code怎么终止…

简单的小型C++项目怎么用CMAKE进行管理

项目目录: 根目录下共有两个文件夹,分别为include、src,有两个文件,分别为CMakeLists.txt和main.cpp main函数 可以看出,include了func.h,且func.h的声明在include文件夹下,定义在src文件夹下的…

全网唯一!Matlab世界顶尖艺术品配色包Rmetbrewer

想要绘制一幅颜色搭配合理、好看又不花哨的论文插图,该如何操作呢? 正所谓求其上者得其中,求其中者得其下。 那么,向高手借鉴思路,无疑是一种不落下乘的好策略。 而在色彩搭配领域,像莫奈、梵高这些世界…

WPS表格数据出现绿色小三角,单引号,E+的原因说明和完美解决方案,终结版。

复盘问题的原因,了解原因的原因,预测事件的结果,推测结果产生的结果。 问题描述:好好的数据,复制进wps,左上角就会出现绿色三角。怎么去掉呢? 迷惑问题2:点击之后,绿色三…