数据挖掘(7.1)--数据仓库

news2024/11/8 11:52:50

目录

引言

一、数据库

1.简介

2.数据库管理系统(DBMS)

二、数据仓库

数据仓库特征

数据仓库作用

数据仓库和DBMS对比

分离数据仓库和数据库


引言

数据仓库的历史可以追溯到20世纪60年代,当时计算机领域的主要工作是创建运行在主文件上的单个应用,这些应用以报表处理和程序为特征,一般使用早期的程序设计语言如Fortran或COBOL编写。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。到了20世纪70年代,随着计算机技术的发展,数据库管理系统(DBMS)开始出现,用于管理数据和改善访问效率。
1975年,Sperry Univac推出了MAPPER,这是一个数据库管理和报告系统,其中包括世界上第一个专为建设信息中心而设计的平台4GL,这是当代数据仓库技术的先驱。到了20世纪80年代,随着个人计算机(PC)和第四代编程语言(4GL)等更为新颖的技术出现,数据仓库的概念开始出现。

一、数据库

1.简介

数据库因数据处理的需要而产生。例如,在20世纪60年代后期,美国为了战争的需要,将各种情报收集在一起,存储隐藏在计算机内,这就是数据库的起源。随着计算机技术的发展,数据库从文件系统阶段发展为数据库阶段,再到高级数据库阶段。现在,数据库已经广泛应用于实际应用、计算机技术和网络技术中,如分布式数据库、面向对象数据库和网络数据库等。

数据:数据库中存储的基本对象,用于描述事物的符号记录

数据库:以一种结构化的方式存储数据的文件系统

数据库由表组成,表由记录组成,记录由字段组成

①:域

②:记录

③:数据

2.数据库管理系统(DBMS)

使用户可以定义,创建和维护数据库并且提供数据库受控访问的一个软件系统。

例如:DB2, Oracle, MS SQL Server, MySQL, MS Access

DBMS的重要功能:

数据存储, 检索 (SQL), 和更新(创建/插入,读取,更新,删除)

事务支持,确保对应一个给定的事务所有更新都做了或者都没

并发控制服务,确保当多个用户同时更新数据库时,数据库正确更新

二、数据仓库

数据仓库是一种语义上一致的仓库,可作为一个决策支持数据模型的物理实现,存储企业作出的战略决策所需要的信息。数据仓库被看做是一个建筑,通过整合来自多个异构数据源而构建,用来支持结构或即席查询,分析报告和做出决策.

数据仓库特征

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。

面向主题的

(1)围绕重要的课题或主题,如顾客.产品和销售。
(2)着眼于决策者的数据建模和分析,而不是日常对数据的操作或事务处理。
(3)通过排除对决策支持过程中无用的数据,提供一个围绕特定主题的简明的意见。

集成的

(1) 数据仓库的建立是通过集成和整合多个不同的异构数据源,数据源包括关系型数据库、数据文件和联机事务记录等。
(2)在数据仓库的建立过程中,数据清洗和数据集成技术得到应用。其目的是为了保证在集成不同数据源时,保证数据在命名规则、编码结构和属性度量等方面的一致性。此外,当数据被放人数据仓库时,数据往往经过了一定的转换。

时变的

(1)在时间层面上数据仓库中的数据明显地比操作性数据库中的数据存储时间要长,其表现为操作性数据库中的数据往往存储的是当前的数据,而数据仓库是从历史数据的角度提供数据。例如,数据仓库中存储的是5~10年之间的数据,而操作性数据库中存储的是当前时间段的数据。
(2)在数据仓库中,关键结构都显式或者隐式地包含时间元素。与之不同的是,在操作性数据库中,关键结构不一定包含时间元素。

非易失的

(1)数据仓库物理地分开存放数据,而这些数据都来源于操作性数据库,最极端的情况下,如果数据仓库中的数据被损坏了,还可以通过操作性数据库中的数据信息进行恢复。
(2)在数据仓库中,通常的操作行为如更新数据不会发生。此外,数据仓库并不需要事务处理、恢复、并发控制机制等操作。数据仓库中只有两种类型的数据操作方式:初始化装载数据和访问数据。

数据仓库作用

提升客户关注度

  • 购买模式、购买偏好

微调生产策略

  • 重新配置产品和管理产品组合

分析业务操作和寻找利润来源

管理客户关系

数据仓库和DBMS对比

OLTP (On-Line Transaction Processing,联机事务处理):传统相关DBMS的主要任务。日常运作:购买、库存、金融、生产制造、工资单、登记、会计等

OLAP (On-Line Analytical Processing,联机分析处理):数据仓库系统的主要任务、数据分析和决策

OLTP和OLAP的主要区别

(1)处理对象:

  • OLTP是面向顾客的,为顾客提供事务处理和查询处理等操作;
  • OLAP是面向市场的,为数据分析人员提供数据分析的支持。

(2)数据内容:

  • OLTP处理的数据是当前详细的数据;
  • OLAP处理的数据是历史的数据,合并集成统一后的数据。

(3)数据库的设计:

  • OLTP系统是采用“实体关系"模型,也就是ER图的数据模型和面向应用的数据设计;
  • OLAP往往采用星型模式和面向主题的数据库设计。

(4)视图:

  • OLTP关注的是当前和本地的数据,而不去关注历史的数据信息;
  • OLAP关注的数据是不同演变和不同数据源集成过来的数据信息。

(5)访问模式:

  • OLTP中访问模式包括对数据的更新、查询等操作,这种操作需要并行化的控制和恢复机制;
  • OLAP的数据访问模式主要是只读操作,而且这种读操作大部分是比较复杂的查询操作。

分离数据仓库和数据库

提高两个系统的高性能

  • DBMS ——OLTP(查询、并发控制、恢复)
  • 数据仓库——OLAP (复杂的OLAP查询)

不同功能和不同数据

  • 决策支持需要历史数据,而业务数据库并没有保存

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/636048.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LaravelPHP笔记-响应头去掉(隐藏)X-Powered-By

最近想搞个小项目,后端先用PHP,框架是Laravel但http响应头如下: 头带有X-Powered-By: PHP/7.3.33,这样很不安全,应该要隐藏,查了下百度。都是一个抄一个。 在代码中添加: header_remove(x-pow…

【几分醉意赠书活动 - 02期】 | 《前端系列丛书》

个人主页: 几分醉意的CSDN博客主页_传送门 个人主页: 陈老板的CSDN博客主页_传送门 赠书活动 | 第二期 本期好书推荐:《前端系列丛书》 粉丝福利:书籍赠送:共计送出30本 参与方式:关注公众号:码…

Flutter控件封装之轮播图Banner

Flutter中实现轮播图的方式有很多种,比如使用三方flutter_swiper,card_swiper等等,使用这些三方,可以很快很方便的实现一个轮播图展示,基本上也能满足我们日常的开发需求,如果说,想要一些定制化…

CloudFlare系列--使用第三方来自定义CDN的IP(笨牛简洁版)

原文网址:CloudFlare系列--使用第三方来自定义CDN的IP(笨牛简洁版)_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍CloudFlare的CDN如何自定义第三方IP。 概述 CloudFlare官网接入域名的方式只能是 NS 接入,这样默认DNS服务器只能改为CloudFlare的D…

第3章 需求分析

第3章 需求分析 3.1 需求分析任务 3.1.1 确定对系统的综合要求 1. 功能需求 通过需求分析应该划分出必须完成的所有功能。 2. 性能需求 性能需求指定系统必须满足的定时约束或容量约束 3. 可靠性和可用性需求 可靠性需求定量地指定系统的可靠性 可用性与可靠性密切相关&…

北京某金融公司面试题,精选10道讲解!

你好,我是田哥 面试造火箭工作拧螺丝,最近一位朋友在面试中被问到各种各样的分布式微服务的面试题,也回答上来了。可是,等正式入职后,发现这家公司居然全部是使用单体项目,完全没有分布式微服务的东东&…

个人PC机使用网线与树莓派进行连接

目录 0. 前言1. 查看网络状况2. 设置网络共享3. 获取树莓派的IP 0. 前言 你需要准备一个树莓派4B,自己的电脑,以及一根超五类网线 操作系统:Windows10 专业版、Raspbian OS 开发环境:树莓派4B 1. 查看网络状况 windows控制台…

今年程序员去大厂面试的必备条件:985或211计算机专业,上家公司是大厂,毕业3年且30岁以下,之前产品qps在一万以上!...

什么样的程序员能拿到大厂的面试入场券? 一位网友总结,今年程序员想约到一二三线公司面试需要同时满足以下条件,缺一不可: 1.985或者211硕士,计算机专业; 2.上家公司是大厂; 3.毕业3年以上且年龄…

chatgpt赋能python:Python中的变量定义

Python中的变量定义 在Python中,变量是一种用来存储数据的容器。它们允许程序员为数据分配一个名称,并将该名称与特定的值关联起来。Python语言的灵活性和易用性使得变量定义变得极为简单。 定义变量的基本语法 在Python中,定义变量的语法…

pikachu靶场漏洞演练(更新中)

文章目录 一、XSS(Cross-Site Scripting)1.XSS概述2.漏洞危害3.常用payloadb.反射型XSS(post)c.存储型XSSd.DOM型XSSe.DOM型XSS-X 一、XSS(Cross-Site Scripting) 1.XSS概述 XSS中文叫做跨站脚本攻击(Cross-site scripting)&…

BitSet—位图

BitSet 🔎概念🔎位图的模拟实现set()get()reSet()getUsedSize()完整代码 🔎利用位图进行排序🔎结尾 🔎概念 位图 用某一位表示存储的状态 位图的适用场景 海量数据数据为自然数(≥ 0)数据不重复 举个栗子&#x1f3…

内网隧道代理技术(二)之LCX端口转发

LCX端口转发 LCX介绍 LCX是一款端口转发工具,分为Windows版和Linux版,Linux版本为PortMap。LCX有端口映射和端口转发两大功能,例如当目标的3389端口只对内开放而不对外开放时,可以使用端口映射将3389端口映射到目标的其他端口使…

计算两个向量的外积numpy.outer()

【小白从小学Python、C、Java】 【等级考试500强双证书考研】 【Python-数据分析】 计算两个向量的外积 numpy.outer() 以下说法正确的是: import numpy as np a np.array([1,2]) print("【显示】a ",a) b np.array([3,4,5]) print("【显示】b &q…

SpringBoot进阶-SpringBoot如何实现配置文件脱敏

目录 参考一、概述二、实现1、引入pom2、在配置文件中添加密钥3、生成加密之后的数据4、将加密之后的数据添加到配置文件中 三、踩坑Encryption raised an exception. A possible cause is you are using strong encryption algorithms and you have not installed the Java Cr…

python系列27:jupyter转web app的工具Mercury

1. 简介 官网:https://runmercury.com/ Mercury可以将 Jupyter Notebook 呈现为 Web 应用程序。类似的package还有streamlit和voila 使用import mercury as mr进行安装。Mercury的页面分为左边的输入部分,和右边的输出部分,下面是极简例子&a…

C++函数重载学习

C 允许多个函数拥有相同的名字&#xff0c;只要它们的参数列表不同就可以&#xff0c;这就是函数的重载&#xff08;Function Overloading&#xff09;。 一个基本的例子&#xff1b; #include<iostream> using namespace std;void print(int i) {cout<<"a …

远程控制之原理和实践

按理来说&#xff0c;本人不该发表此类专业文章&#xff0c;鄙人零星碎片化的开发经历&#xff0c;让本人斗胆向诸位网友&#xff0c;在远控方面做一点演示说明&#xff0c;谈论一点自己的认识。 程序工程代码地址&#xff1a;点击此处下载。 程序分为两个部分&#xff0c;控…

OpenCV 项目开发实战--对图像中的斑点进行检测(Python、C++代码实现)

什么是斑点? Blob 是图像中一组连接的像素,它们共享一些共同的属性(例如,灰度值)。在上图中,暗连接区域是斑点,斑点检测旨在识别和标记这些区域。 文末附相关测试代码的下载链接 SimpleBlobDetector 示例 OpenCV 提供了一种基于不同特征检测和过滤斑点的便捷方法。让…

计算机组成原理笔记(王道考研)(持续更新)

文章目录 前言概论计算机的发展计算机系统计算机硬件组成各个硬件的工作原理计算机系统的层次结构计算机系统结构、组成、实现 计算机性能指标储存器CPU整体指标Amdahl定律与加速比 前言 本文是对王道计算机考研《计算机组成原理》课程的总结&#xff0c;主讲咸鱼学长讲的确实…

那些曾经考过的turtle绘图题(1~5)

【编程实现绘图 -1】 使用使用turtle库的函数,绘制三个彩色的圆,圆的颜色按顺序如图,圆的半径从里至外分别是20,50, 100,效果如图所示 # 样例代码 from turtle import * # 导入turtle库 list_r = [20, 50, 100] # 定义半径列表 list_color = ["red", "…