数据仓库的基本概念、基本特征、体系结构

news2024/11/17 19:46:52

个人看书学习心得及日常复习思考记录,个人随笔。

数据仓库的基本概念、基本特征

数据仓库的定义:数据仓库是一个面向主题的集成的不可更新的随时间不断变化的数据集合,用以更好地支持企业或组织的决策分析处理。

数据仓库中数据的4个基本特征:

  • 数据仓库中的数据是面向主题的
  • 数据仓库中的数据是集成的
  • 数据仓库中的数据是不可更新的
  • 数据仓库中的数据是随时间不断变化的

如前所述,数据仓库产生的原因 ,传统数据库系统主要面向以操作型处理为主的联机事务处理应用,无法满足决策时的分析型处理要求。

主题、主题域、面向主题

主题:抽象概念,在较高层次上将企业信息系统中数据进行综合、归类分析利用的抽象每一个主题基本对应一个宏观分析领域,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。对应某一分析领域的分析对象。

主题是对应某一分析领域的分析对象,所以主题的抽取应由分析的要求而定。概括各种分析领域的分析对象,可综合得到其他主题。每个主题有着各自独立的逻辑内涵,对应一个分析对象。

主题域:通常为关联关系较为紧密的数据主题的集合。以业务需求为导向,将这些数据主题划分到不同的主题域。主题域的确定必须以业务需求为导向并且以数据为驱动共同完成。

面向主题的数据组织方式是基于分析要求将数据组织成一个完备的分析领域(主题域),主题域应具备:

  • 独立性,该主题域可以与其他主题域存在交叉部分,但其必须具备独立内涵,即要求有明确的界限。
  • 完备性,对某一主题的分析处理要求,应能在该主题内找到该分析处理所要求的一切内容,如果对该主题分析处理要求涉及现存主题以外的数据,则应将这些数据增加到该主题中,逐步完善该主题。

主题是一个逻辑上的概念,在实现时如果其数据项过多,则可采用各种划分策略来将其划分。

举例说明:

注意:从数据角度的前提是已经经过分析、梳理列出所有可能的数据主题,此处数据主题是细粒度的,是从微观到宏观。

主题域、主题、实体间关系:
在这里插入图片描述

面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。

面向主题的数据组织分为两步:抽取主题、确定每个主题所应包含的数据内容。

“传统的面向应用的数据组织方式” 与 “面向主题的数据组织方式” 区别

传统的面向应用的数据组织方式:将数据按照应用的需求进行划分和组织。每个应用都有自己独立的数据存储和管理系统,数据之间存在较强的耦合性。这种方式下,数据被分散存储在不同的数据库中,不同应用之间的数据共享和交互较为困难。例如,一个企业可能有多个应用系统,如人力资源管理系统、财务管理系统和客户关系管理系统,每个系统都有自己的数据库和数据模型。

面向主题的数据组织方式:将数据按照主题进行组织和集中管理。主题可以是企业的业务领域、业务过程或者业务对象等。这种方式下,数据被集中存储在一个或者少数几个数据库中,不同应用可以共享和访问这些数据。主题导向的数据组织方式可以提高数据的一致性、准确性和可用性,同时也方便了数据的分析和挖掘。例如,一个企业可以建立一个统一的数据仓库,将各个应用系统的数据集成到其中,供企业内部的各个部门使用。

数据仓库中的数据是集成的

数据仓库中的数据是按照主题组织的,主题所涉及的数据往往分散于多个操作型数据库中,或是保存在数据文件中等,因此数据仓库中的数据是从其他数据源中抽取得到的(颗粒归仓)。由于很多数据分散于不同的数据源中,会有重复甚至是不一致的地方(数据不一致问题),因此数据在进入数据仓库前,首先要进行清洗、转换并加以整合,要统一原始数据中所有矛盾之处,如:字段的同名异义、异名同义、单位不统一、字长不一致等,原始数据结构从面向应用转变为面向主题,再进行数据综合和计算

  • 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
  • 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

数据仓库中的数据是不可更新的

操作型数据库中的数据通常是根据业务的变化不断更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作

数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。

只有当数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。数据仓库中一般有大量的查询操作,但修改和删除操作较少,通常只需要定期加载和刷新

数据仓库的特点使得数据仓库管理系统(DWMS)可比数据库管理系统(DBMS)简单一些,因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。在数据仓库中,数据库管理系统中与事务相关的并发控制、完整性检查控制可简化甚至可省去。例如:不再需要元组一级的封锁机制,可省去大量的加封解锁操作。但是由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,它要求采用各种复杂的索引技术;同时由于数据仓库面向的是商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。

数据仓库中的数据是随时间不断变化的

前述数据仓库中的数据不可更新是针对具体的数据应用而言,数据仓库用户在进行数据分析时一般不进行数据更新操作从数据集成加载进数据仓库到最终被删除的整个数据生存周期中,数据仓库中所有的数据并不是永远不变的
具体表现三个方面:

  • 数据仓库随时间变化不断增加新的数据。数据仓库系统必须不断捕捉联机事务处理数据库(OLTP)中变化的数据,追加到数据仓库中去,也就是要不断地生成OLTP数据库的快照,经统一集成后增加到数据仓库中去。
  • 数据仓库会将不需要的数据转存到其他存储设备(一般会基于数据生命周期以及数据冷热冰分级)。数据仓库的数据也有存储期限,一旦超过了这一期限,过期数据就要被退役或归档。只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。在操作型环境中一般只保存有60-90天的数据,而在数据仓库中则需要保存较长时限的数据(如5~10年),以适应决策支持系统(DSS)进行趋势分析的要求。
  • 数据仓库中包含有大量的综合数据,这些数据要随着时间的变化不断地进行重新综合。如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。
    因此,数据仓库中数据的主码一般都包含时间项,以标明数据的历史时期

数据仓库数据的 4个特征表明,数据仓库实际上是一种数据存储,它将各种异构数据源中的
数据集成在一起并保持其语义一致,从而为企业决策提供支持
。数据仓库是一组与分析目标有关的数据集合,这些数据是从现有数据库及外部数据源集成得到的。

数据仓库的发展经历

简单报表阶段该阶段表现形式大部分为数据库和前端报表工具,系统主要目标是解决一些常态化工作中业务报表,以及针对决策分析所需数据汇总并生成简易化报表等。
数据集市阶段该阶段以业务需求为导向进行数据采集、整理,并以多维报表的形式展现支撑分析决策数据
数据仓库阶段:该阶段主要是按照一定的数据模型进行采集、整理,并且能够按照各业务部门需求,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为分析决策提供全面的数据支持

数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。因此,数据模型的建设,对于我们数据仓库的建设,有着决定性的意义。

数据仓库的体系结构

数据仓库系统由数据源、集成工具、数据仓库与数据仓库服务器、联机分析处理(OLAP)服务器、元数据管理工具与元数据、数据集市、前端分析工具等组成。
在这里插入图片描述

数据源:数据仓库系统基础及源泉,主要包括企业内部数据和外部数据,通常存放于操作型数据库(关系型数据库管理系统)

集成工具:主要包括数据抽取(extracting)、清洗(cleaning)、转换(transformation)、加载(load)、维护工具,简称为ETL工具,完成数据集成工作

  • 数据抽取:指从数据源中选择数据仓库所需数据。针对不同平台、不同结构、不同类型的数据库,设计抽取。
  • 数据清洗:对抽取得到的数据进行清洗,保证其数据质量,以便保证其数据一致性(同名异义、异名同义),统一计量单位、估算默认值等等。
  • 数据转换:将清洗后的数据按照数据仓库的主题组织。
  • 数据加载:将数据装载至数据仓库。

一般而言,ETL工具还负责建立元数据。元数据主要说明数据仓库中数据的来源、加工过程等(自动化)。

数据仓库服务器:负责管理数据仓库中的数据,存储企业级的数据,为整个企业的数据分析提供一个完整、统一的视图。一般由关系型数据库管理系统扩展而成。

OLAP服务器:对分析需要的数据按多维数据模型进行再次重组,以支持用户多角度、多层次的数据分析。其主要实现结构:

  • ROLAP结构:该结构采用关系数据库管理系统或扩展的关系型数据库管理系统来存储和管理数据,用OLAP服务器提供聚集计算、查询优化等功能。各种粒度等数据均以关系表的形式存储在数据库。
  • MOLAP结构:该结构采用多维数组来存储数据。多维数组存储可对数据直接定位、计算速度快、无需索引,但在数据稀疏情况下需要进行数据压缩,以减少存储空间。
  • HOLAP结构:该结构将ROLAP结构和MOLAP结构结合,不仅具备ROLAP结构的可扩展性,而且还具备MOLAP结构计算速度快。
  • 特殊SQL服务器:为了满足联机分析处理需求,一些关系型数据库或数据仓库厂家在原来系统基础上扩展,只读环境下星形模型或雪片模型基础上进行SQL查询提供支持。

前端分析工具:主要包括各种数据分析工具,如查询报表工具、OLAP工具、数据挖掘工具等。
其中OLAP工具主要针对OLAP服务器进行数据分析,而查询报表工具和数据挖掘工具可在数据仓库和OLAP服务器上进行分析。各种数据分析工具除了可从数据仓库中获取数据,还可以从数据集市中获取数据

元数据管理对于数据仓库的可持续发展是必不可少的。

综上所述,在数据仓库系统中,数据从数据源到最终分析结构呈现给用户,其过程:

  1. 抽取适当的源数据。数据仓库不是简单的生产系统业务数据堆积(不是数据垃圾堆),只能选取对现在和将来决策分析有用的业务数据进行抽取。
  2. 数据加工过程。转换、清洗等过程,数据仓库中的数据是面向分析和决策的,按照主题进行组织,必须将业务数据进行重组,数据仓库中主题的数据模式往往与业务系统中的数据模式存在差异。
  3. 建立海量、高效的企业级数据仓库。企业级数据仓库必须建立于海量数据基础之上,服务于大量并发用户,并且满足数据处理速度、查询速度快的要求。
  4. 基于特定的分析主题,建立专门的数据集市。仅依靠数据仓库进行分析,其速度不一定能满足需求,为了支撑某些常用分析的速度快,有必要为这些分析问题分别单独做数据重组和优化,建立数据集市以加快分析速度。
  5. 前端展现应用。最终用户界面必须简易化且功能强大,具备权限控制且易于维护。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1515225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[LeetCode][LCR169]招式拆解 II——巧妙利用字母的固定顺序实现查找复杂度为O(1)的哈希表

题目 LCR 169. 招式拆解 II 某套连招动作记作仅由小写字母组成的序列 arr,其中 arr[i] 第 i 个招式的名字。请返回第一个只出现一次的招式名称,如不存在请返回空格。 示例 1: 输入:arr "abbccdeff" 输出:a…

基于SSM的协同过滤算法的电影推荐系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的协同过滤算法的电影推荐系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通…

LDA主题模型学习笔记

(1)LDA的基本介绍(wiki) LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题…

软考高级:信息系统开发方法2(形式化方法、统计过程方法等)概念和例题

作者:明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

前端学习笔记 | WebAPIs(DOM+BOM)

一、作用和分类 1、基本概念 作用:使用JS去操作HTML和浏览器 分类:DOM(文档对象模型)和BOM(浏览器对象模型) html的标签JS的DOM对象 2、获取DOM对象-参数必须加引号 (1)选择匹配的第…

计算机三级错题整理

计算机三级整理 注意事项 第二道大题1.(第二套)2.(第四套真题)3.三十一套 第三道大题1.(第一套真题)2.(第二份真题)3.(第四套真题)4.二十九套5.三十套6.三十三…

《智能便利,畅享便利柜平台的架构奇妙之旅》

便利柜平台作为一种智能化、便捷的自助服务解决方案,正在逐渐走进人们的生活。本篇博客将深入探讨便利柜平台的架构设计理念、优势和实践,帮助读者了解如何构建智能便利柜平台,提供更便捷的自助服务体验。 ### 便利柜平台架构设计 #### 1. …

UE4案例记录

UE4案例记录(制作3D角色显示在UI中) 制作3D角色显示在UI中 转载自youtube视频 https://www.youtube.com/channel/UCC8f6SxKJElVvaRb7nF4Axg 新建项目 创建一个Actor 场景组件->摄像机组件->场景捕获组件2D,之后添加一个骨骼网格体…

Python基础课堂最后一课23——正则对象

文章目录 前言一、正则对象是什么?二、正则表达式基本分类1.普通字符2.元字符 总结 前言 很开心能和你们一些学习进步,在这一个多月的时间中,是你们让我坚持了下来,完成了python基础课堂编写,不管如何,我们…

ubuntu 23.04 安装 中文输入法

1、安装 fcitx sudo apt install fcitxfcitx 安装好后,可以使用 fcitx-configtool 命令进行配置,其界面如下所示。在这里可以配置不同输入法的切换快捷键,默认输入法等。刚安装系统后,这里只有一个输入法,所以接下来要…

SORA和大语言模型的区别

OpenAI的文生视频模型SORA与大语言模型(LLM)的主要区别在于它们的应用领域和处理的数据类型,数据处理能力、技术架构、多模态能力和创新点。SORA作为一款专注于视频生成的模型,展现了在处理视觉数据方面的独特优势和创新能力。 1…

HttpContext请求接收上下文模块设计与实现(http模块四)

目录 类功能 类定义 类实现 编译测试 类功能 类定义 // HttpContext接收请求上下文模块功能设计 typedef enum {RECV_HTTP_ERROR,RECV_HTTP_LINE,RECV_HTTP_HEAD,RECV_HTTP_BODY,RECV_HTTP_OVER } HttpRecvStatu;class HttpContext { private:int _resp_statu; …

刷题日记——反转公约数、循环位移(厦门大学机试)

题目 分析 将输入的数字看作字符串&#xff0c;然后将字符串转成真实值计算两个真实值&#xff0c;然后从1开始遍历公约数&#xff0c;每次发现一个更大的公约数就替换&#xff0c;直到找不到公约数 代码 #include <cstdio> #include <map> #include <string…

Redis第8讲——Cluster集群模式详解

前面两篇文章介绍了Redis主从和哨兵模式&#xff0c;不难发现&#xff0c;它们都有一些共同的缺点&#xff0c;首先在主从切换的过程中会丢失数据&#xff1b;另一个就是只有一个master&#xff0c;只能单点写&#xff0c;并没有水平扩容能力。而且每个节点都保存了所有的数据&…

请说一下卷积神经网络里的特征图和感受野怎么计算?VGG网络的特点?如何解释?

请说一下卷积神经网络里的特征图和感受野怎么计算&#xff1f; 特征图的计算 首先要明确什么是特征图&#xff1f; 特征图是卷积层输出的二维数组&#xff0c;每个元素表示一个特定区域的特征。特征图的大小取决于输入图像的大小、卷积核的大小、步幅&#xff08;stride&…

专升本 C语言笔记-08 goto语句

goto语句 无条件跳转运算符(凡是执行到goto语句会直接跳转到 定义的标签) 缺点&#xff1a;滥用goto语句将会导致逻辑混乱&#xff0c;导致系统崩溃等问题! ! ! 代码演示 int i 0; //定义标签 jump(名字随便起哦) jump:printf("%d ",i); i; if(i < 10)goto j…

JS高级_数据类型

undefined与null的区别? undefined代表没有赋值null代表赋值了, 只是值为null // 1. undefined与null的区别?var a1var a2 nullconsole.log(a1, a2)什么时候给变量赋值为null呢? var a null //已经确定a是一个对象, 但还没具体赋值&#xff08;开始&#xff09;a null …

软考高级:系统工程方法(霍尔三维结构、切克兰德方法等)概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

六 超级数据查看器 讲解稿 详情1 概述

六 超级数据查看器 讲解稿 详情1 概述 点此此处 以新界面 打开B站 当前视频教程 APP下载地址 百度 下载地址 ​ 讲解稿全文&#xff1a; 大家好&#xff0c;今天我们讲解一下超级数据查看器详情界面。由于内容较多&#xff0c;讲解要分为7集&#xff0c;这是第一集 首…

云仓酒庄北京朝阳区旗舰店发布活动盛况:红酒品鉴沙龙共筑美好

原标题&#xff1a;云仓酒庄北京朝阳区旗舰店活动盛况&#xff1a;红酒品鉴沙龙与招商交流共筑美好未来 在繁忙的都市中&#xff0c;有一片静谧的天地&#xff0c;那便是云仓酒庄北京朝阳区旗舰店。这里不仅是红酒爱好者的聚集地&#xff0c;更是商业交流的新平台。近日&#…