读数据湖仓08数据架构的演化

news2024/10/6 7:48:51

1. 数据目录

1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中

  • 1.1.1. 元数据

  • 1.1.2. 数据模型

  • 1.1.3. 本体

  • 1.1.4. 分类标准

1.2. 数据目录类似于图书馆的图书检索目录

  • 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书

  • 1.2.2. 数据目录的运行方式与此类似,它负责连接组织中的所有文档和数据库

  • 1.2.3. 利用数据目录在基础数据中进行检索,能够节约大量的时间

1.3. 永久维护

  • 1.3.1. 数据目录经常被忽略的一个因素是它总在变化

  • 1.3.2. 数据目录也在不断地被更新维护

  • 1.3.3. 持续不断更新维护数据目录的原因

    • 1.3.3.1. 业务环境持续变化

    • 1.3.3.2. 系统不断变化

    • 1.3.3.3. 不断加入新系统

1.4. 开放

  • 1.4.1. 数据目录应该是开放的,且可供组织中的任何人分析使用,唯一例外的是那些试图对组织发起恶意行为的人

  • 1.4.2. 管理人员

  • 1.4.3. 文员

  • 1.4.4. 日常运营人员

  • 1.4.5. 审计师

  • 1.4.6. 分析人员

1.5. 不同数据类型的内部结构

  • 1.5.1. 结构化的数据目录可以在不同类型的数据之间产生关系

1.6. 分析工具可以用于处理数据目录中的数据,就像它可以用于分析基础数据中的详细数据一样

  • 1.6.1. 以独立于基础数据对数据目录进行分析

  • 1.6.2. 与大容量存储器不同,数据目录是数据湖仓的必要组成部分

2. 数据架构的演化

2.1. 数据架构是多类型数据处理的核心

  • 2.1.1. 没有数据架构,就没有坚实的数据基础可依赖

  • 2.1.2. 人工智能、机器学习和数据网格只有依赖数据架构,才能在各自的环境中取得成功

2.2. 数据湖仓中的基础数据是基于深思熟虑和精细设计的数据架构而来的

2.3. 伊始

  • 2.3.1. 应用程序只能读取输入,处理后并生成输出

  • 2.3.2. 简单的应用程序能够在企业等组织中高效地执行重复性工作,从而为组织节省大量工作时间

2.4. 应用程序

  • 2.4.1. 发现还可以编写更加复杂的应用程序

  • 2.4.2. 由于新的应用程序开始处理大量数据,并且生成更多的数据,因此,当时使用的存储介质(如打孔卡片和纸带)已经不足以存储这些数据

2.5. 磁带文件

  • 2.5.1. 随着发展,磁带文件成为数据存储的主要媒介

  • 2.5.2. 相比早期媒介,磁带文件能够存储更多的数据

  • 2.5.3. 与打孔卡片相比,磁带文件有许多优势,如存储成本更低,不需要固定长度的记录,并且可以重复使用

  • 2.5.4. 随着磁带文件的出现,主文件(Master File)的概念随之而来

    • 2.5.4.1. 主文件对于收集和存储组织的主要实体(如客户、产品和运输)的相关数据非常有用,它的理念是将相关信息集中存储在一个地方
  • 2.5.5. 磁带文件可以更有效地存储数据,但是在使用磁带文件时,要想访问单条记录,则必须读取整个文件

    • 2.5.5.1. 导致长时间的低效处理
  • 2.5.6. 虽然磁带文件解决了打孔卡片的众多问题,但也引入了一系列新的挑战

  • 2.5.7. 磁带文件也不能长时间保存数据

    • 2.5.7.1. 当磁带文件存储一段时间后,磁带文件上的氧化物会磨损而导致文件损坏,进而变得毫无价值

2.6. 硬盘存储

  • 2.6.1. 随着硬盘存储系统的出现,我们能够更加便捷地电子化存储和访问数据

  • 2.6.2. 数据库管理系统应运而生,负责管理这些数据

  • 2.6.3. 随着时间的推移,硬盘存储的生产成本逐步降低,最终变得经济实惠

  • 2.6.4. 硬盘存储带来的一项创新功能是可以便捷地直接存取数据,而不需要遍历整个文件

2.7. OLTP

  • 2.7.1. 由于数据能够快速存取,因此出现了一种被称为联机事务处理(OLTP)的技术

  • 2.7.2. OLTP使得计算机成为组织日常业务处理的重要组成部分

  • 2.7.3. OLTP将计算机的角色从仅处理后台任务提升到直接与客户进行接口交互

  • 2.7.4. 当计算机不可用或响应速度变慢时,业务将会受到影响

  • 2.7.5. OLTP应用程序会尽可能快地丢弃数据以保持响应速度

  • 2.7.6. 在历史数据变得愈发重要时,OLTP中却没有适合存储历史数据的位置

2.8. 个人计算机

  • 2.8.1. 个人计算机变得非常受欢迎。它的价格低廉,轻量便携,甚至可以随身携带

  • 2.8.2. 个人计算机为那些从未接触过计算机技术的人群打开了学习计算机的大门

  • 2.8.3. 个人计算机赋予终端用户更多自主权

  • 2.8.4. 多年来,IT部门一直是决定构建哪些应用程序以及允许哪些计算机能够被访问的唯一决策机构

  • 2.8.5. 随着个人计算机的进一步普及,IT部门逐渐失去计算机的控制权

2.9. 4GL处理技术和数据抽取应用程序

  • 2.9.1. 4GL(Fourth Generation Language,第四代编程语言)处理的技术应运而生

  • 2.9.2. 4GL处理技术使终端用户不再需要依赖IT部门来进行处理和编程

  • 2.9.3. 数据抽取应用程序在不同应用程序之间迁移和传递数据方面扮演重要角色

  • 2.9.4. 数据抽取应用程序与众多应用程序的结合导致了数据的不一致性问题

    • 2.9.4.1. 现在面临的挑战不再是找不到数据,而是要找到可信的数据
  • 2.9.5. 数据的不一致性问题是一个架构问题,而非技术问题

    • 2.9.5.1. 增加更多技术只会让问题变得更糟,而不是更好
  • 2.9.6. 从应用程序生成的数据到企业数据的转换并不是唯一的问题

  • 2.9.7. 长时间存储数据变得相当必要

    • 2.9.7.1. 在数据仓库应用程序出现之前,事务处理仅能够存储较短时间的数据,通常为几周到一个月

    • 2.9.7.2. 如果应用程序数据存储时间较长,那么事务响应速度会受到影响

    • 2.9.7.3. 人们发现将数据存储时间延长超过几周是有价值的

      2.9.7.3.1. 历史数据有助于我们发现和分析消费者的消费习惯

2.10. 数据仓库

  • 2.10.1. 提供企业数据视图

  • 2.10.2. 可用于分析即时可用的数据

  • 2.10.3. 可通过多种方式重塑粒度数据

  • 2.10.4. 可以将历史数据用于长期分析

  • 2.10.5. 数据仓库的架构持续了相当长的时间,至今仍在使用

2.11. 数据集市

  • 2.11.1. 为了满足对特定领域中数据使用的需求,一种被称为数据集市的架构出现

  • 2.11.2. 数据集市使用数据仓库中已有的粒度数据,并将其重塑为终端用户需求的形式和结构

  • 2.11.3. 通过数据集市,不同部门能够获取一致的数据,因为它们所看到的数据来源是相同的,那就是数据仓库

2.12. ⑩互联网和物联网数据

  • 2.12.1. 互联网还提供了大量来自世界各地的数据

2.13. ⑾数据湖

  • 2.13.1. 在技术和数据的竞合过程中出现了一种数据架构——数据湖

  • 2.13.2. 数据湖就会变成数据沼泽,或者也可以称为数据臭水沟

  • 2.13.3. 由于数据湖中的数据是未集成的,因此人们不清楚很多数据的内容

  • 2.13.4. 数据湖巨大无比,这导致人们难以找到他们想要的具体数据

  • 2.13.5. 数据湖中的数据没有进行任何整合,人们没有办法将其中一种类型的数据与其他类型的数据进行合理关联

  • 2.13.6. 由于数据形式非常混乱,人们无法有效地连接多个数据元素

2.14. ⑿数据湖仓

  • 2.14.1. 在数据湖混乱的背景下,数据湖仓诞生

  • 2.14.2. 数据湖仓为数据湖添加了功能——分析基础设施,并在将数据存入数据湖仓之前进行集成

  • 2.14.3. 数据湖仓成为一个可行的数据架构,能够满足组织的分析需求

  • 2.14.4. 前数据湖仓是一个成熟的架构,可以满足需求

  • 2.14.5. 未来肯定还会出现架构增强的数据湖仓,以及与数据湖仓不同的形式,以支持新的需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2191439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《深度学习》OpenCV 摄像头OCR 过程及案例解析

目录 一、摄像头OCR 1、含义 2、一般操作步骤 1)安装OpenCV库 2)设置摄像头 3)图像采集 4)图像预处理 5)文本识别 6)文本处理 7)结果显示 二、案例实现 1、定义展示图像函数 2、定…

CANoe_TestModule截图功能TestReportAddWindowCapture

前言 TestReportAddWindowCapture方法作为CAPL脚本中的一个重要功能,其能够将指定窗口的屏幕截图添加到测试报告中,对于记录和验证界面状态具有重要意义。本文将全面解析TestReportAddWindowCapture方法的使用方法、参数解释、示例应用以及注意事项&…

从介质失效看互联网时代的信息过载

来读一篇文章:90年代的硬盘已大规模变砖,没啥好担心的,好事。 结合我两年前的粗浅认知 互联网时代无信息,按照 “动” 的观念看,当信息越来越多,信息密度越来越大时,信息的寿命就会越来越短&am…

智谱AI开源CogView3及升级版,文生图技术新突破!

Ai 智能办公利器 - Ai-321.com 智谱AI近日震撼宣布,向公众开放其最新研发的CogView3及进阶版CogView-3Plus-3B,这两款模型无疑为文本转图像技术领域带来了革命性的突破。 人工智能 - Ai工具集 - 全球热门人工智能软件ai工具集合网站 CogView3作为首款运…

PMP--三模--解题--161-170

文章目录 10.沟通管理--沟通管理计划--沟通管理计划是项目管理计划的组成部分,描述将如何规划、结构化、执行与监督项目沟通,以提高沟通的有效性。该计划包括如下信息:干系人的沟通需求。--凡信息,找沟通。161、 [单选] 一家公司的…

【X线源】微焦点X射线源的基本原理

【X线源】微焦点X射线源的基本原理 1.背景2.原理 1.背景 1895年11月8日,德国物理学家威廉伦琴在研究阴极射线时偶然发现了X射线。当时,他注意到阴极射线管附近的荧光屏发出了光,即使它被纸板遮挡住。经过进一步实验,他意识到这种…

开源模型应用落地-模型微调-模型研制-模型训练(二)

一、前言 模型训练是深度学习领域中的关键环节。随着技术的发展,预训练模型的出现极大地改变了模型构建的格局。这些预训练模型在大规模数据集上进行了初步的学习,蕴含了丰富的通用知识。然而,不同的实际应用场景有着各自独特的需求。例如在医疗影像诊断领域,预训练模型可能…

Linux和指令初识

前言 Linux是我们在服务器中常用的操作系统,我们有必要对这个操作系统有足够的认识,并且能够使相关的指令操作。今天我们就来简单的认识一下这个操作的前世今生,并且介绍一些基础的指令操作 Linux的前世今生 要说Linux,还得从U…

GitLab flow工作流及其使用

问题背景 Git flow和Github flow及其问题 使用GitLab flow 目录 什么是GitLab工作流 功能分支 生产分支 使用GitLab flow环境分支 使用GitLab flow发布分支 使用GitLab flow合并/拉取请求 使用GitLab flow进行问题跟踪 链接和关闭合并请求中的问题 用rebase压缩提交…

ElasticSearch备考 -- Multi field

一、题目 Create the index hamlet_2 with one primary shard and no replicas Copy the mapping of hamlet_1 into hamlet_2, but also define a multi-field for speaker. The name of such multi-field is tokens and its data type is the (default) analysed string Reind…

【工程测试技术】第6章 信号处理初步,频谱分析,相关系数

目录 6.1 数字信号处理的基本步骤 6.2 离散信号及其频谱分析 6.2.1 概述 6.2.2 时域采样、混叠和采样定理 6.2.3 量化和量化误差 6.2.4 截断、泄漏和窗函数 6.2.5 频域采样、时域周期延拓和栅栏效应 6.2.6 频率分辨率、整周期截断 6.3 相关分析及其应用 6.3.1 两…

Emissive CEO Fabien Barati谈《消失的法老》背后的故事:XR大空间体验的创新与未来

在最近的一次播客访谈中,虚拟现实之声(Voices of VR)的主持人Kent Bye与Emissive公司的联合创始人兼CEO Fabien Barati进行了深入交流。Emissive是全球顶级的VR大空间体验制作商之一,以其沉浸式探险项目如《永恒的巴黎圣母院》和《胡夫地平线》而闻名。以下是这次访谈的核心…

VSCode debug模式无法跳转进入内置模块

在使用VSCode调试python代码的时候, 需要查看第三方库的代码,进行调试。 但是VSCode默认是不进入的, 因此需要更改Debug配置: 在launch.json 里加入如下的代码: "justMyCode": false 这样就能进入第三方库…

计算有向无环图中两节点间简单路径的数量

计算有向无环图中两节点间简单路径的数量 主要步骤:伪代码:C代码实现:解释:在给定一个有向无环图(DAG)以及两个节点s和t时,我们需要计算从节点s到节点t之间的简单路径的数量。为了实现这一目标,我们可以使用动态规划的思想,在拓扑排序的基础上解决问题。 主要步骤: 拓…

【Linux第五课-进程概念下】环境变量、程序地址空间

目录 环境变量main参数 --- 命令行参数环境变量环境变量特性 --- 命令行操作main函数的参数获取环境变量environ获取环境变量getenv()获取环境变量unset移除本地变量或环境变量set显示本地变量 代码获取和设置环境变量 本地变量 程序地址空间什么是进程地址空间为什么有地址空间…

预算有限也能玩转 AI:香橙派、树莓派与 Jetson 的选择攻略

随着 AI 技术的迅猛发展,越来越多的边缘计算设备可以处理从轻量级任务到复杂的 AI 模型。在本文中,我们将对比几款主流的边缘 AI 设备,包括 NVIDIA Jetson 系列、香橙派 和 树莓派 5,并探讨 Hailo 加速器 在边缘 AI 领域的潜力。我…

【学习笔记】手写一个简单的 Spring MVC

目录 一、什么是Spring MVC ? Spring 和 Spring MVC 的区别? Spring MVC 的运行流程? 二、实现步骤 1. DispatcherServlet 1. 创建一个中央分发器 拦截所有请求 测试 2. 接管 IOC 容器 1. 创建配置文件 2. 修改 web.xml 配置文件 …

vSAN03:vSAN故障处理、节点维护、删除节点、关闭/重启/删除vSAN集群

目录 vSAN故障处理单节点维护从vSAN集群中永久删除节点关闭vSAN集群重启vSAN集群删除vSAN集群 vSAN故障处理 级别状态处理可能原因活动正常无无缺失vSAN 检测到临时组件故障,且其中的组件可以恢复并还原其工作状态,则该组件将处于“缺失”状态。&#x…

分析JS Crash(进程崩溃)

一、JS Crash异常检测能力 1、JS Crash日志规格 以下是进程崩溃日志信息中对应字段解释。 Build info:XXX-XXXX X.X.X.XX(XXXXXXXX) <- 版本信息 Module name:com.example.myapplication <- 模块名 Version:1.0.0 <- 版本号 Pid:579 <- 进程号 Uid:0 <- 用户ID…

【Qt】Qt学习笔记(一):Qt界面初识

Qt 是一个跨平台应用程序和 UI 开发框架。使用 Qt 您只需一次性开发应用程序&#xff0c;无须重新编写源代码&#xff0c;便可跨不同桌面和嵌入式操作系统部署这些应用程序。Qt Creator是跨平台的Qt集成开发环境。 创建项目 Qt的一些界面&#xff0c;初学时一般选择Qt Widgets …