数据仓库 基础教程

news2025/1/18 19:00:35

数据仓库 基础教程

1. 数据仓库概述

Data Warehousing Tutorial

数据仓库(Data Warehouse,简称DW或者DWH)是通过集成来自多个异构数据源的数据来构建的。它支持分析报告、结构化和/或特别查询和决策制定。本教程采用循序渐进的方法来解释数据仓库的所有必要概念。


“数据仓库”一词最早是由Bill Inmon在1990年提出的。根据Inmon的说法,数据仓库是面向主题的、集成的、时变的、非易失性的数据集合。这些数据有助于分析人员在组织中做出明智的决策。

由于事务的发生,操作数据库每天都要经历频繁的变化。假设业务主管想要分析任何数据(如产品、供应商或任何消费者数据)的先前反馈,那么该主管将没有可用的数据来分析,因为先前的数据已经由于事务的变化而更新。

数据仓库在多维视图中为我们提供一般化和整合的数据。除了一般化和统一的数据视图外,数据仓库还为我们提供了在线分析处理(OLAP)工具。这些工具帮助我们在多维空间中进行交互式和有效的数据分析。这种分析的结果是数据泛化和数据挖掘。

将关联、聚类、分类、预测等数据挖掘功能与OLAP操作集成在一起,增强了多层次抽象知识的交互式挖掘。这就是为什么数据仓库现在已经成为数据分析和在线分析处理的重要平台。


理解数据仓库

  • 数据仓库是一个数据库,它与组织的操作数据库分开。
  • 数据仓库中不需要进行频繁的更新。
  • 它拥有统一的历史数据,这有助于组织分析其业务。
  • 数据仓库帮助管理人员组织、理解和使用他们的数据来制定战略决策。
  • 数据仓库系统有助于集成各种不同的应用系统。
  • 数据仓库系统有助于合并历史数据分析。

为什么要将数据仓库与操作数据库分开?

数据仓库与操作数据库需要分开的原因如下:

  • 操作数据库是为众所周知的任务和工作负载构建的,例如搜索特定记录、索引等。相较而言,数据仓库查询通常很复杂,它们呈现的是一种通用的数据形式。
  • 操作型数据库支持并发处理多个事务。操作数据库需要并发控制和恢复机制,以确保数据库的健壮性和一致性。
  • 操作数据库查询允许读取和修改操作,而OLAP查询只需要对存储的数据进行只读访问。
  • 操作数据库维护当前数据,而数据仓库维护历史数据。

数据仓库的特点

数据仓库的主要特性如下所述:

面向主题—数据仓库是面向主题的,因为它提供围绕主题的信息,而不是组织正在进行的操作。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库并不关注正在进行的操作,而是关注用于决策制定的数据建模和分析。

集成式:通过集成关系数据库、平面文件等异构数据源的数据来构建数据仓库。这种集成增强了对数据的有效分析。

时变性−数据仓库中收集的数据以特定的时间段标识。数据仓库中的数据从历史角度提供信息。

非易失性−非易失性是指添加新数据时不擦除原有数据。数据仓库与操作数据库保持分离,因此操作数据库的频繁更改不会影响数据仓库。

数据仓库不需要事务处理、恢复和并发控制,因为它是物理存储的,与操作数据库是分开的。


数据仓库的应用

如前所述,数据仓库帮助业务主管去组织、分析和使用他们的数据进行决策。数据仓库是企业管理 计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛应用于以下领域:−

金融服务

银行服务

消费品服务

零售部门

控制生产


数据仓库的类型

信息处理、分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用

信息处理−数据仓库可以对存储在其中的数据进行处理。数据可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理。

分析处理−数据仓库支持对存储在其中的信息进行分析处理。可以通过基本的OLAP操作来分析数据,包括切片分析、向下钻取(drill down)、向上钻取(drill up,)和旋转(pivoting)。

数据挖掘−数据挖掘通过发现隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以通过可视化工具呈现出来。

OLAP VS OLTP

Sr.No.Data Warehouse (OLAP)Operational Database(OLTP)
1它涉及信息的历史处理。它涉及到日常的处理。
2OLAP系统由知识工作者(如执行人员、经理和分析师)使用。OLTP系统由文员、dba或数据库专业人员使用。
3它被用来分析业务。它是用来经营业务的
4它关注的是信息输出。它关注的是数据输入。
5它基于星型模式、雪花模式和事实星座模式。它基于实体关系模型。
6它关注的是信息输出。它是面向应用的。
7它包含历史数据。它包含当前数据。
8它提供了汇总和合并的数据。它提供了原始的和非常详细的数据。
9它提供了数据的汇总和多维视图。它提供了详细而扁平的数据关系视图。
10用户数量数以百计。用户数量以千为单位。
11访问的记录数以百万计。访问的记录数以10计。
12数据库大小从100GB到100tb。数据库大小为100mb ~ 100gb。
13这些都是高度灵活的。它提供了高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1848023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VS编译器字体颜色设置

默认颜色不好看,颜色之间代码各个关系之间没有很强关联性所以要设置字体颜色 颜色一步到位版本: 第一步: 第二步: 第三步:One dark Pro 第四步: 等待安装完后重启VS 点击Modify,一段时间结束后选…

142. 环形链表 II(中等)

142. 环形链表 II 1. 题目描述2.详细题解3.代码实现3.1 Python哈希表快慢指针 3.2 Java哈希表快慢指针 1. 题目描述 题目中转:142. 环形链表 II 2.详细题解 判断链表是否形成了环路,非常常规和直观的思路是,依次遍历每个结点并记录下来&…

我的Mac疯了!居然可以生成这样的奇葩AI图片!

在当今人工智能领域,midjourney无疑是生成图片的王者,但是苦于付费才能使用,今天我就给大家分享一下midjourney平替stable diffusion,实现本地生成不逊色于midjourney的图片 效果图 先上一个我自己生成的效果(就是在我的Mac上用C…

内江科技杂志内江科技杂志社内江科技编辑部2024年第13期目录

科教兴国 内江市科技局“五个强化”助力“五经普”工作有序推进 本刊通讯员; 1 内江市多措并举融入成渝中线科创走廊建设 本刊通讯员; 2 科学管理《内江科技》投稿:cnqikantg126.com 数字化社会公共图书馆的服务效能提升策略研究 闫永凤;臧萌;王亚博;王…

Uniapp App 微信登录苹果登录

核心逻辑,通过第三方登录获取唯一值(openId | userId),调接口获取此唯一值对应的账号,如果未绑定跳转绑定页 微信授权返回的是一个会变的code(每次都不一致),需要调用微信相关api换取…

二分练习题(C. Earning on Bets)

二分练习题(C. Earning on Bets) 原题链接:点击此处 Earning on Bets 题面翻译 有人提议让您玩一个游戏。在这个游戏中,有 n n n 种可能的结果,对于每一种结果,您都必须下注一定整数的硬币。如果 i …

永辉超市:胖东来爆改,成色几何?

单日业绩暴涨14倍。来,看看,这是被胖东来爆改后重新开业后的门店, 不出意外的流量爆炸。胖东来爆改,真是解决实体商超困境的灵丹妙药吗? 今天我们聊聊——永辉超市 最近两年实体商超日子都不好过,去年13家…

36 - shell之sed

sed grep就是查找文本当中的内容,扩展正则表达式。 一、sed 1.1、sed的定义 sed是一种流编辑器,一次处理一行内容。 如果只是展示,会放在缓冲区(模式空间),展示结束,会从模式空间把结果删除…

约束求解器方案设计

1.约束求解介绍 给定一个几何对象(点、直线段、圆、圆弧、平面等)的集合G和一个关于集合G中几何对象之间约束(点的位置、直线段的长度、圆弧对应的圆心角角度、垂直、相切等) 的集合C,则在二元组(G,C)中根…

探索全球奇趣,开启你的海外盲盒app开发之旅!

在追求个性化和独特体验的今天,你是否渴望拥有一款能够带你穿越国界、领略世界各地新奇好物的App?为了满足广大用户对于未知的好奇与探索欲望,我们精心打造了一款海外盲盒App,带你踏上一段充满惊喜的全球购物之旅。 一、产品介绍…

DVWA 靶场 Authorisation Bypass 通关解析

前言 DVWA代表Damn Vulnerable Web Application,是一个用于学习和练习Web应用程序漏洞的开源漏洞应用程序。它被设计成一个易于安装和配置的漏洞应用程序,旨在帮助安全专业人员和爱好者了解和熟悉不同类型的Web应用程序漏洞。 DVWA提供了一系列的漏洞场…

山东济南比较出名的起名大师的老师,中国最厉害的改名大师颜廷利:短命的小草,年年自损;长寿的大树,万古长青。。。(升命学说)

在中国第一起名大师的老师颜廷利教授的《升命学说》中,通过“净化论”、“和合法则”、“唯悟主义”以及“镜正理念”的阐述,我们得以窥见生命的不同维度。他以自然界中短命的小草与长寿的大树为例,揭示了生命形态的对比与哲理。 小草&#…

106、从中序与后序遍历序列构造二叉树

给定两个整数数组 inorder 和 postorder &#xff0c;其中 inorder 是二叉树的中序遍历&#xff0c; postorder 是同一棵树的后序遍历&#xff0c;请你构造并返回这颗 二叉树 。 提示: 1 < inorder.length < 3000postorder.length inorder.length-3000 < inorder[i]…

远程医疗软件到底哪个好用?

随着科技进步的不断推进&#xff0c;远程医疗已经成为现代医疗体系的一个重要支柱。远程医疗软件&#xff0c;通过网络通信技术的运用&#xff0c;打破了地理限制&#xff0c;实现了医疗资源的有效整合与共享&#xff0c;为民众提供了前所未有的便捷高效的医疗服务体验。那么&a…

期末考后怎样发成绩?

老师们&#xff0c;下周可就是期末考啦&#xff0c;又到了头疼发成绩的时候了。每当这个时候&#xff0c;家长们总是急切地咨询孩子的考试表现&#xff0c;向老师们询问成绩。这种场景几乎成了每学期结束时的常态。 别担心&#xff0c;我来安利一个超棒的工具——“易查分小程序…

跨境多账号需知:指纹浏览器需要用独立IP吗?

指纹浏览器也成为反检测浏览器&#xff0c;旨在安全管理多个账户。在跨境多账号中&#xff0c;多个账号容易引发网站怀疑并最终导致大量账户被暂停&#xff0c;使用反检测浏览器的主要目的是通过创建新的浏览器指纹来隐藏用户的真实浏览器指纹。 但浏览器指纹并不是网站关注的唯…

拒绝吸烟,远离慢阻肺——朗格力复合营养素助力守护肺部健康

#肺科营养#朗格力#班古营养#复合营养素#肺部营养#肺部健康# 你知道吗?慢阻肺这一疾病在我国的患者数量已突破亿级大关,尤其在40岁以上的成年人中,平均每7个人中就有1位可能受其困扰。然而,很多人对慢阻肺的严重性认识不足,常常将其视为一种普通的咳嗽或喘息,忽视了它潜在的危…

为什么伦敦金新手不能用一小时图及以下的时间周期?

刚进入伦敦金市场的投资者&#xff0c;一般不建议使用较低的时间周期&#xff0c;如1小时图或以下。不仅如此&#xff0c;新手或者兼职投资者会被要求使用较高的时间周期交易&#xff0c;如4小时图或日线图&#xff0c;这有什么道理呢&#xff1f;下面我们就来讨论一下。 新手的…

C++初学者指南第一步---11.字符串(基础)

C初学者指南第一步—11.字符串&#xff08;基础&#xff09; 文章目录 C初学者指南第一步---11.字符串&#xff08;基础&#xff09;1. std::string2. char std::string的元素类型3. std::string字符串操作4. 字面量4.1 C风格字符串字面量4.2 "std::string 字面量"s…

河南大学24计算机考研数据,有三个学院招收计算机相关专业,都是考的408!

河南大学&#xff08;Henan University&#xff09;&#xff0c;简称“河大”&#xff0c;是河南省人民政府与中华人民共和国教育部共建高校&#xff0c;国家“双一流”建设高校&#xff0c;入选国家“111计划”、中西部高校基础能力建设工程、卓越医生教育培养计划、卓越法律人…