Database数据库 vs Data Warehouse数据仓库 vs Data Mart数据集市 vs Data Lake数据湖

news2024/9/23 1:40:27

1.DATABASE 数据库

  • 数据库是一个结构化的数据集合,用于存储、管理和检索数据。数据库设计用于支持事务处理(OLTP,Online Transaction Processing)和日常操作。

在这里插入图片描述

  • 数据库通常由数据库管理系统(DBMS)控制,其中关系数据库管理系统(RDBMS)是最流行的子集。

  • 企业通常在需要快速访问数据时使用数据库。例如,航空公司可能依赖数据库来处理顾客的在线购票,而像亚马逊这样的电子商务公司可能使用数据库来跟踪库存水平并推荐顾客可能感兴趣的产品。

为了确保事务的完整性,数据库需要具备四个组成部分:
在这里插入图片描述

  1. 原子性(Atomicity):整个事务要么全部执行成功,要么全部不执行。

  2. 一致性(Consistency):事务执行前后,数据库必须保持一致性约束。

  3. 隔离性(Isolation):确保多个事务可以并发执行,而不会导致数据库状态不一致。

  4. 持久性(Durability):一旦事务执行完成,对数据库的更新和修改必须被永久保存,即使系统发生故障也不能丢失。

在这里插入图片描述


2. Data Warehouse 数据仓库

  • 数据仓库是一个集中的数据存储平台,帮助企业从各种运营源收集和整合数据。
  • 这些数据被用于生成报告,用于数据分析和业务智能工作。数据仓库在运营的关键方面起着支柱作用。

在这里插入图片描述

许多当今领先的企业,包括航空、酒店、医疗保健和零售行业,都在使用数据仓库来优化数据收集,减少浪费,并提高数据生成的效率。
在这里插入图片描述

  • 大多数情况下,数据仓库存储结构化数据,通常来自数据库。

数据仓库的一些好处:
在这里插入图片描述

    1. 数据集成
      数据仓库使企业能够从各种外部来源收集数据,然后将这些数据整合到一个中心存储平台中。这样数据分析团队可以更轻松地分析所有数据,因为不存在数据孤岛。
    1. 数据历史
      数据仓库可以按照时间顺序存储数据,使分析人员能够查看数据如何随时间变化。例如,Microsoft团队可以确定谁创建了文件,谁修改了它,以及何时修改的。
    1. 更好的数据质量
      数据仓库使组织能够通过打破数据孤岛来提高数据质量。这使得组织能够充分发挥结构化数据的潜力,获得宝贵的洞察。
    1. 更好的数据洞察
      有了更多的有价值数据,并减少了数据孤岛,分析团队可以更好地理解他们的数据基础设施,从而获得更深入的洞察。进而,他们可以找出增强业务智能和影响的最佳路径。

3.DATA Mart 数据集市

  • 数据集市是数据仓库的一个子集,通常专注于单个部门、功能区域或业务单位的数据需求

在这里插入图片描述

  • 与整个企业数据存储在数据仓库中不同,数据集市通常是针对特定用户群体或特定用途进行优化和设计的

  • 数据集市可以独立于整体数据仓库进行构建和部署,或者作为数据仓库的一部分存在。

  • 数据集市提供了更具体、更精细化的数据视图和分析能力,以满足特定业务需求。

在这里插入图片描述


以下是数据集市的三种类型:
在这里插入图片描述

    1. 独立数据集市(Independent Data Mart
      独立数据集市不依赖于现有的数据仓库,通常专注于特定的业务目标。数据可以来自内部或外部来源,可以根据需要进行数据分析和业务智能工作。
    1. 依赖数据集市(Dependent Data Mart
      依赖数据集市建立在现有数据仓库之上。数据存储在集中位置,并且在运行分析时仅访问相关的数据。
    1. 混合数据集市(Hybrid Data Mart
      混合数据集市整合了来自外部运营来源的数据与现有数据仓库中的数据。其主要优点包括更高的速度、灵活性和处理大型存储结构的能力。

数据集市能够根据不同的业务需求和用户需求,提供定制化的数据视图和访问权限,以支持更有效的数据分析和业务决策。


4.DATA LAKE 数据湖

  • 数据湖(Data Lake)是一个数据存储库,可以存储结构化数据、半结构化数据和非结构化数据,而无需预定义数据结构。

  • 数据湖强调数据的存储和采集,而不是预定义的数据处理。

  • 数据湖的运作方式类似其名字所暗示的:所有数据,无论其格式如何,都以原始形式存储。
    在这里插入图片描述

可以想象每个企业数据的一小部分就像水滴一样。这些小水滴数据自由流动,从各种源头汇聚成河流,最终汇入数据湖,形成一个庞大的数据湖泊。
在这里插入图片描述

  • 数据湖的主要优势之一是可以在不进行预处理的情况下存储数据。数据只是简单地流入数据湖,等待分析师和业务用户未来的请求,用于其他业务功能。

  • 此外,这种自由流动的过程意味着可以收集、存储和检索比以往任何时候都多的数据。

  • 由于数据湖本身是非结构化的,因此更容易访问和修改其中的数据。

在这里插入图片描述

  1. 无限数据源:由于其自由流动的特性,数据湖可以处理来自无限数量来源的数据。

  2. 原始和非结构化数据的存储:由于数据湖的灵活构造,它可以接收结构化和非结构化数据,与大多数传统数据仓库不同。

  3. 消除数据孤岛:数据湖消除了数据孤岛,帮助组织最大化利用所有数据的潜力,包括非结构化数据。

  4. 降低成本:数据湖通过消除过时的传统数据存储方法,可以为组织节省大量资金。


创作不易~ 一键三连呀🤣

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1922651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webRtc架构与目录结构

整体架构 目录结构 webrtc Modules目录

基于PCIe总线架构的2路1GSPS AD、4路1GSPS DA信号处理平台(100%国产化)

板卡概述 PCIE723-165是基于PCIE总线架构的2通道1GSPS采样率14位分辨率、4通道1GSPS采样率16位分辨率信号处理平台,该板卡采用国产16nm FPGA作为实时处理器,支持2路高速采集以及4路高速数据回放,板载2组DDR4 SDRAM大容量数据缓存,…

宝兰德参编金融智能体标准,深耕大模型场景化落地

随着数智化浪潮的不断推进,人工智能技术正深刻影响着金融服务的模式和流程,金融智能体在大模型的加持下,业务场景的应用能力得到强化。然而,作为新型技术,金融智能体在隐私保护、透明性、数据泄露等方面仍存在诸多风险…

图片存储问题总结

参考博客: https://blog.csdn.net/BUPT_Kwong/article/details/100972964 今天发现图片保存的一个神奇的问题,就是说原始的jpg图片打开后,重新保存成jpg格式,会发现这个结果不是很对的 example from PIL import Image import n…

房屋出租管理系统小程序需求分析及功能介绍

房屋租赁管理系统适用于写字楼、办公楼、厂区、园区、商城、公寓等商办商业不动产的租赁管理及租赁营销;提供资产管理,合同管理,租赁管理, 物业管理,门禁管理等一体化的运营管理平台,提高项目方管理运营效率…

【qt】QTcpSocket相关的信号

QTcpSocket可以在这里找到相关的信号 进行信号槽的关联 connect():这个信号在connectToHost()被调用并且连接已经成功建立之后发出 disconnected():该信号在套接字断开连接时发出 stateChanged(QAbstractSocket::SocketState socketState):每当QAbstractSocket的状态发生变化…

基于Adaboost的数据分类算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于Adaboost的数据分类算法matlab仿真,分别对比线性分类和非线性分类两种方式。 2.测试软件版本以及运行结果展示 MATLAB2022A版本运行 (完整程序…

Python - Word转TXT文本,或TXT文本转Word

Word文档(.doc或.docx)和纯文本文件(.txt)是两种常用的文件格式。Word文档通常用于复杂的文档处理和排版,而纯文本文件则用于存储和传输纯文本信息。了解如何在这两种格式之间进行转换能提高工作效率,并便于…

Spring Boot中@Async注解的使用及原理 + 常见问题及解决方案

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

AV1 编码标准帧间预测技术详细说明

AV1 编码标准帧间预测 AV1(AOMedia Video1)是一种开源的视频编码格式,它在帧间预测技术上做出了显著的改进和扩展,以提供比现有标准更高的压缩效率和更好的视频质量。以下是AV1帧间预测技术的几个关键点: 参考帧扩展&a…

关于正点原子的alpha开发板的启动函数(汇编,自己的认识)

我傻逼了,这里的注释还是不要用; 全部换成 /* */ 这里就分为两块,一部分是复位中断部分,第二部分就是IRQ部分(中断部分最重要) 我就围绕着两部分来展开我的认识 首先声明全局 .global_start 在 ARM 架…

基于SpringBoot+VueJS+微信小程序技术的图书森林共享小程序设计与实现:7000字论文+源代码参考

博主介绍:硕士研究生,专注于信息化技术领域开发与管理,会使用java、标准c/c等开发语言,以及毕业项目实战✌ 从事基于java BS架构、CS架构、c/c 编程工作近16年,拥有近12年的管理工作经验,拥有较丰富的技术架…

4.4 文件管理

大纲 文件结构 真题 树形文件 真题 空间存储 一般考位示图法 真题

vue3使用Echarts图表生成项目进度甘特图

先看效果 代码展示 <template><h1>项目进度甘特图</h1><div id"app"><!-- Echarts 图表 --><div ref"progressChart" class"progressChart"></div></div> </template><script setup&…

The Web3 社区 Web3 产品经理课程

概述 / 深耕区块链行业 11 年&#xff0c;和很多产品经理都打过交道&#xff1b;遇到过优秀的产品经理&#xff0c;也遇到过比较拉垮的产品经理。多年工作中&#xff0c;曾在某些团队&#xff0c;承载技术兼产品经理的角色&#xff1b;也参与过很多 Web3 外包项目&#xff0c;包…

CSS技巧专栏:一日一例 5-纯CSS实现背景色从四周向中心填充的按钮特效

特此说明 本专题专注于讲解如何使用CSS制作按钮特效。前置的准备工作和按钮的基本样式,都在本专栏第一篇文章中又详细说明。自本专栏第四篇文章起,本专栏都将直接跳过前面的内容,不再重复复制,需要了解按钮基础样式的同学,请移步:《CSS技巧 - 一日一例 (1):会讨好的热…

物联网可编程中央控制主机

物联网可编程中央控制主机&#xff08;Programmable Central Control Host for IoT&#xff0c;如GF-MAXCC&#xff09;在多个领域都有广泛的应用。这些应用领域包括但不限于&#xff1a; 1. 智能家居 GEFFEN在智能家居系统中&#xff0c;物联网可编程中央控制主机充当着家庭…

CT金属伪影去除的去噪扩散概率模型| 文献速递-基于深度学习的多模态数据分析与生存分析

Title 题目 A denoising diffusion probabilistic model for metal artifact reduction in CT CT金属伪影去除的去噪扩散概率模型 01 文献速递介绍 CT图像中的金属伪影是在CT扫描视野内存在金属物体&#xff08;如牙科填充物、骨科假体、支架、手术器械等&#xff09;时出…

DP(3) | 0-1背包 | Java | 卡码 46 LeetCode 416 做题总结

代码随想录笔记 AcWing-背包九讲专题 一道例题 dd大牛背包9讲 背包笔记 对于面试的话&#xff0c;其实掌握01背包&#xff0c;和完全背包&#xff0c;就够用了&#xff0c;最多可以再来一个多重背包。 01背包&#xff1a;n种物品&#xff0c;每种物品只有 1 个&#xff0c;每…

Linux 内核编译安装 - Deepin,Debian系

过程 下载 网站下载linux内核源码[^1] [^2]&#xff0c;并解压&#xff0c;进入源码目录&#xff1b; https://www.kernel.org/ https://mirrors.tuna.tsinghua.edu.cn/kernel/v6.x/ 安装依赖 参考脚本安装依赖[^3]&#xff1b; sudo apt install git wget fakeroot build…