什么是数据仓库

news2025/1/12 9:56:32

数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员开发出了“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决与这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。

在大组织里,多个决策支持环境独立运作是典型的情况。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。处理过程包括收集、清洗、整合来自多个数据源的数据,并为每个决策支持环境做部分数据复制。数据源通常是早已存在的操作型系统,很多是遗留系统。此外,当一个新的决策支持环境形成时,操作型系统的数据经常被再次复用。用户访问这些处理后的数据。

数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse一书中首次提出了被广为认可的数据仓库定义。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。这个定义有些复杂并且难以理解,下面我们将它分解开来进行说明。

  1. 面向主题

传统操作型系统是围绕公司的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据。例如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的“销售”就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。

  1. 集成

集成的概念与面向主题密切相关。还用销售的例子,假设公司有多条产品线和多种产品销售渠道,而每个产品线都有自己独立的销售数据库。此时,要想从公司层面整体分析销售数据,必须将多个分散的数据源统一成一致的、无歧义的数据格式,然后再放置到数据仓库中。因此数据仓库必须能够解决诸如产品命名冲突、计量单位不一致等问题。当完成了这些数据整合工作后,该数据仓库就可称为是集成的。

  1. 随时间变化

为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量历史数据。这与联机事务处理(OLTP)系统形成鲜明对比。联机事务处理反应的是当前时间点的数据情况,要求高性能、高并发和极短的响应时间。出于这样的需求考虑,联机事务处理系统中一般都将数据依照活跃程度分级,把历史数据迁移到归档数据库中。而数据仓库关注的是数据随时间变化的情况,并且能反映在过去某个时间点的数据是怎样的。换句话说,数据仓库中的数据是反映了某一历史时间点的数据快照,这也就是术语“随时间变化”的含义。当然,任何一个存储结构都不可能无限扩展,数据也不可能只入不出地永久驻留在数据仓库中,它在数据仓库中也有自己的生命周期。到了一定时候,数据会从数据仓库中移除,移除的方式可能是将细节数据汇总后删除、将老的数据转储到大容量介质后删除或直接物理删除等。

  1. 非易失

非易失指的是,一旦进入到数据仓库中,数据就不应该再有改变。操作型环境中的数据一般都会频繁更新,而在数据仓库环境中一般并不进行数据更新。当改变的操作型数据进入数据仓库时会产生新的记录,这样就保留了数据变化的历史轨迹。也就是说,数据仓库中的数据基本是静态的。这是一个不难理解的逻辑概念。数据仓库的目的就是要根据曾经发生的事件进行分析,如果数据是可修改的,将使历史分析变得没有意义。

除了以上四个特性外,数据仓库还有一个非常重要的概念,就是粒度。粒度问题遍布于数据仓库体系结构的各个部分。粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。例如,单个事务是低粒度级别,而一个月全部事务的汇总就是高粒度级别。

数据粒度一直是数据仓库设计需要重点思考的问题。在早期的操作型系统中,当细节数据被更新时,几乎总是将其存放在最低粒度级别上;而在数据仓库环境中,通常不这样做。例如,如果数据被装载进数据仓库的频率是每天一次,那么一天之内的数据更新将被忽略。

粒度之所以是数据仓库环境的关键设计问题,是因为它极大地影响了数据仓库的数据量和可以进行的查询类型。粒度级别越低,数据量越大,查询的细节程度就越高,查询范围就越广泛,反之亦然。

大多数情况下,数据会以很低的粒度级别进入数据仓库,如日志类型的数据或点击流数据,此时应该对数据进行编辑、过滤和汇总,使其适应数据仓库环境的粒度级别。如果得到的数据粒度级别比数据仓库的高,那将意味着在数据存入数据仓库前,开发人员必须花费大量的设计和资源来对数据进行拆分。

本文节选自《Greenplum构建实时数据仓库实践》,内容发布获得作者和出版社授权。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/547739.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

flutter 在动图上添加文字

前言 有这样一个场景,在一个展示很多文字的App中背景图片可以自定义,当然也可以是动态的,但是这个主页是可以分享出去的,也就是我需要在一个动态的背景上写上文字并保存为一张新的图片并分享出去。 实现 前置准备 需要导入一个…

【计算机视觉 | 目标检测】Objects365 :最新大规模高质量目标检测数据集

文章目录 一、前言二、数据集的规模三、数据集的质量四、泛化能力五、结语 一、前言 2019 年 4 月,在北京举行的智源学者计划启动暨联合实验室发布会上,北京旷视科技有限公司与北京智源人工智能研究院共同发布了全球最大的目标检测数据集 : …

ChatGPT国内免费访问

背景 ChatGPT作为一种基于人工智能技术的自然语言处理工具,近期的热度直接沸腾🌋。 作为一个程序员,我也忍不住做了一个基于ChatGPT的网站,免费!免梯子!!国内可直接对话ChatGPT,也…

使用Python和Scrapy实现抓取网站数据

Scrapy是一个功能强大的网络爬虫框架,允许开发者轻松地抓取和解析网站内容,这篇文章主要为大家介绍了如何使用Python的Scrapy库进行网站数据抓取,需要的可以参考一下 在本文中,我们将介绍如何使用Python的Scrapy库进行网站数据抓…

00后才是内卷界的扛把子,被卷的头皮发麻....

人们都说00后躺平了,但是有一说一,该卷的还是卷。这不,前一周时间我们公司来了个00年的,工作没两年,跳槽到我们公司起薪20K,都快接近我了。后来听同事说才知道人家是个卷王,从早干到晚就差搬张床…

哈希表应用——布隆过滤器

注:布隆过滤是用来处理海量数据且允许存在误判 目录 布隆过滤器提出 布隆过滤器概念 布隆过滤器的理论知识 布隆过滤器的实现 布隆过滤器的删除 布隆过滤器优点 布隆过滤器缺陷 布隆过滤器的应用场景 哈希切分 布隆过滤器/哈希切分面试题 布隆过滤器提出 …

免交互Here Document

文章目录 免交互Here Document1 定义2 语法格式2.1 免交互方式实现对行数的统计2.2 通过 read 命令接收输入并打印2.3 通过 passwd 给用户设置密码2.4 支持变量替换2.5 多行注释 3 expect4 实例4.1 su切换用户4.2 嵌入执行模式4.3 实现ssh自动登录 免交互Here Document 1 定义…

Linux CentOS7中yum的使用更新yum源

我们在windows中我们是经常需要下载一些我们需要的软件,那么我们在Linux中理所当然也是需要的,那么我们如何安装软件呢?? Linux中软件安装的方法 1.源代码安装:源代码安装就是直接自己安装源代码,并且是自…

MyBatis动态推理参数类型

前言 思考一个问题,前面的#{}和${}的区别中,我们知道了#{},MyBatis底层调用的是preparestatement这种预编译的方式,这种方式sql语句会预先编程 select * from t_user where id ?这种形式,随后调用setInt(),setString…

【Java数据结构】——第十节(上).直接插入排序、希尔排序

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:Java初阶数据结构 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!!! 文章目…

iptables 防火墙(一)

目录 一:iptables概述 二:netfilter/iptables关系 三:四表五链 1.规则表和规则链的作用 2. 四表 3.五链 ​4.规则链之间的匹配顺序 (1)主机型防火墙 (2)网络型防火墙 5.规则链内的匹配…

考研复试刷题第十四天: 表达式树 【二叉树,表达式运算】

1.概念解释: 表达式树其实就是叶节点装树,其他节点装符号的二叉树。 2.题目部分 这道题一开始没理解它的意思,以后写题一定要理解题意之后再动手。尤其是看清楚注意事项。 我一开始拿到题目,以为会有这种情况就是说一个节点之下会有一遍没…

面了一个测试工程师要求月薪26K,总感觉他背了很多面试题...

最近有朋友去华为面试,面试前后进行了20天左右,包含4轮电话面试、1轮笔试、1轮主管视频面试、1轮hr视频面试。 据他所说,80%的人都会栽在第一轮面试,要不是他面试前做足准备,估计都坚持不完后面几轮面试。 其实&…

OpenLayers多图层切换显示隐藏,支持多个Layer同时显示和隐藏,以百度地图和高德地图为例实现vue的Layer图层管理组件

前言 OpenLayers默认并没有提供图层管理组件,实现起来也很简单,评论区里有同学提到了这个,必须立刻满足,这就着手区实现一个简单又强大的地图图层管理组件。 那么本章就专门讲一下在vue中如何使用ElementUI的下拉框做一个简单的图层管理组件。 话不多说,让我们直接开始吧…

CentOS中vim的使用

vim是我们linux中很经典的一款编译器,所以使用vim是我们在学习过程中必不可少的,我们下面说一下vim的使用和安装 在某些服务器上刚开始不一定时有vim的,或者是vim的版本比较老一点,所以这时我们就可以安装一下vim sudo yum -y i…

最简单的 Java 项目——Hello world(小白快速入门指南)

文章目录 最简单的 Java 项目——Hello world步骤1:新建 Java 项目步骤2:编写最简单的 Hello World 程序步骤3:测试 附录1、.iml文件(iml是 intellij idea的工程配置文件,里面是当前project的一些配置信息。&#xff0…

免费开源PCB设计工具--KiCad安装,FreeCAD下载方法

中小企业在使用AD等工具时,会被律师函关照,下面介绍一款跨平台开源PCB设计工具KiCad 。本文仅介绍安装方法。 1. KiCad 简介 KiCad 一个跨平台的开源电子设计自动化套件。 KiCad EDA 是一款用于印刷电路板设计的开源自由软件,最初由法国人…

Shell编程——iptables防火墙

Shell编程——iptables防火墙 一、Linux包过滤防火墙1、Linux防火墙概述2、netfilter3、iptables4、netfilter/iptables关系 二、四表五链1、表链作用2、四表3、五链4、数据包到达防火墙时,规则表之间的优先顺序5、规则链之间的匹配顺序 三、iptables的安装四、ipta…

Swing简述

一、Swing概述 GUI(图形用户界面)为程序提供图形界面,它最初的设计目的是为程序员构建一个通用的GUI,使其能够在所有的平台上运行,但Java 1.0中基础类AWT(抽象窗口工具箱)并没有达到这个要求&a…

chatgpt赋能Python-python3_kafka

简介 Kafka是一个分布式的消息队列系统,由LinkedIn开源。它被设计成高性能、高吞吐量的消息传输系统,适用于分布式系统中的实时数据流处理。 Kafka的优势 在使用Kafka之前,我们需要考虑以下问题: 1.数据处理速度是否快速&…