一文说清什么是数据仓库

news2024/11/15 22:32:06

01 数据仓库的概念

数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员开发出了“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。

目前对数据仓库(Data Warehouse)的标准定义,业界普遍比较认可的是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:数据仓库是一个面向主题的、集成的、相对稳定的(非易失的)、反映历史变化的数据集合,通常用于支持企业管理决策。这个定义有些复杂并且难以理解。下面我们将它分解开来进行说明。

  • 面向主题

传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据。例如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。

  • 集成

集成的概念与面向主题是密切相关的。还用销售的例子,假设公司有多条产品线和多种产品销售渠道,而每个产品线都有自己独立的销售数据库。此时要想从公司层面整体分析销售数据,必须将多个分散的数据源统一成一致的、无歧义的数据格式后,再放置到数据仓库中。因此数据仓库必须能够解决诸如数据分散存储、产品命名冲突、计量单位不一致等问题。当完成了这些数据整合工作后,该数据仓库就可称为是集成的。

  • 随时间变化

为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量的历史数据。这与联机事务处理(OLTP)系统形成鲜明的对比。联机事务处理反映的是当前时间点的数据情况,要求高性能、高并发和极短的响应时间,出于这样的需求考虑,联机事务处理系统中一般都将数据依照活跃程度分级,把历史数据迁移到归档数据库中。而数据仓库关注的是数据随时间变化的情况,并且能反映在过去某个时间点的数据是怎样的。换句话说,数据仓库中的数据是反映了某一历史时间点的数据快照,这也就是术语“随时间变化”的含义。当然,任何一个存储结构都不可能无限扩展,数据也不可能只入不出地永久驻留在数据仓库中,它在数据仓库中也有自己的生命周期。到了一定时候,数据会从数据仓库中移除。移除的方式可能是将细节数据汇总后删除、将老的数据转储到大容量介质后删除和直接物理删除等。

  • 非易失

非易失指的是,一旦进入到数据仓库中,数据就不应该再有改变。操作型环境中的数据一般都会频繁更新,而在数据仓库环境中一般并不进行数据更新。当改变的操作型数据进入数据仓库时会产生新的记录,这样就保留了数据变化的历史轨迹。也就是说,数据仓库中的数据基本是静态的。这是一个不难理解的逻辑概念。数据仓库的目的就是要根据曾经发生的事件进行分析,如果数据是可修改的,将使历史分析变得没有意义。

图片

对数据仓库的概念再来做一个总结,我们抓住两个重点:第一,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;第二,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

02 数据仓库技术发展历程

图片

03 为什么要建立数据仓库?

现在,大家应该已经熟悉并了解了数据仓库的概念,那么数据仓库里的数据从哪里来呢?通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是Oracle、MySQL、SQL Server等关系数据库里的结构化数据,可能是文本、CSV等平面文件或Word、Excel文档中的非结构化数据,还可能是HTML、XML等自描述的半结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的即席查询、分析系统、数据集市、报表系统、数据挖掘系统等。

从以上描述可以看到,从存储的角度看,数据仓库里的数据实际上已经存在于业务应用系统中,那么为什么不能直接操作业务系统中的数据用于分析,而要使用数据仓库呢?其实这个问题我们可以反过来想一下,不建立数据仓库,数据分析时直接访问业务系统中的数据会存在哪些问题?自然就会有答案了。

我们来列举一些直接访问业务系统无法工作的业务场景:

  • 某些业务数据由于安全或其他因素不能直接访问。

  • 很难建立和维护需要汇总来源于多个业务系统数据的报表。

  • 业务系统的数据格式,如日期、数字的格式不统一。

  • 业务系统的表结构为事务处理性能而优化,有时并不适合查询与分析。

  • 没有适当的位置存储元数据。

  • 通常事务处理的优先级比分析系统高,所以如果分析系统和事务处理运行在同一硬件之上,分析系统往往性能很差。

  • 有误用业务数据的风险且极有可能影响业务系统的性能。

尽管需要增加软硬件的投入,但建立独立数据仓库与直接访问业务数据相比,无论是成本还是带来的好处,这样做都是值得的。随着处理器和存储成本的逐年降低,数据仓库方案的优势更加明显,在经济上也更具可行性。

04 数据仓库价值

图片

  • 提供全面准确的业务洞察:通过对多源数据的整合和分析,数据仓库能够帮助企业获得全面准确的业务洞察,发现隐藏在数据中的规律和趋势。

  • 支持决策制定:数据仓库能够为企业的决策制定提供有力支持,通过多维分析和可视化报表,让企业能够更直观地了解业务状况,制定更准确的战略。

  • 增强企业竞争力:通过数据仓库对市场的洞察力和预测力,企业能够更灵活地应对市场变化,提高竞争力。

  • 降低运营风险:通过对历史数据的分析,数据仓库能够揭示出业务发展过程中的问题和风险,帮助企业及时调整策略,降低运营风险。

05 数据仓库应用场景

针对不同需求的用户 , 数据仓库可以开发如下几种应用:即席查询系统(Ad hoc query)、联机分析处理系统(OLAP)、领导信息系统(Executive Information System)、业务流程重整(Business Process Reengineering)。

数据仓库被广泛应用于各大行业:

  • 电商行业:在电商行业中,数据仓库可用于对用户行为、购买偏好、流量分布等进行深入分析,为企业提供个性化推荐和营销策略。

  • 金融行业:在金融行业中,数据仓库可用于对客户画像、风险评估、欺诈检测、市场趋势等进行分析,帮助金融机构做出更准确的信贷和投资决策。

  • 医疗行业:在医疗行业中,数据仓库可用于对病患画像、疾病分布、治疗效果等进行分析,为医疗机构提供更精确的疾病诊断和治疗方案。

  • 电信行业:在电信行业中,数据仓库可用于客户流失预测、网络性能监测、个性化服务推荐,帮助企业优化客户服务。

  • 物流行业:在电信行业中,数据仓库可用于路线优化、仓储管理、供应链可视化,帮助企业提高物流效率,降低仓储成本。

  • 制造业:在制造业中,数据仓库可用于对产品生产流程、设备运行状况、质量控制等进行分析,提高生产效率和产品质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2105814.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高级组件封装技巧--tree的封装

el-tree是一个经常用到的组件,但是它不支持v-model,使用起来很麻烦,这篇教程封装了el-tree,使得它使用起来很简单,并且支持搜索,支持叶子节点横向排列,这样就算数据多了,也会显的很紧凑,同时它支持提交half…

springboot+mybatis+vue2分页功能开发

前端框架代码 <div class"block"><span class"demonstration">完整功能</span><el-paginationsize-change"handleSizeChange"current-change"handleCurrentChange":current-page"currentPage4":page-s…

MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略

MLM&#xff1a;多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略 目录 相关文章 AI之MLM&#xff1a;《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读 MLM之CLIP&#xff1a;CLIP…

Draw.io for Mac/Win:免费且强大的流程图绘制工具

在数字化时代&#xff0c;流程图已成为表达复杂过程和逻辑关系的重要工具。Draw.io&#xff08;现也称为diagrams.net&#xff09;&#xff0c;作为一款免费且功能强大的流程图绘制工具&#xff0c;无论是对于Mac还是Windows用户&#xff0c;都是不可多得的选择。 一、跨平台兼…

计算机毕业设计 半成品配菜平台 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

智能电网中巡检机器人的信息安全技术应用

随着电力行业的数字化和智能化发展&#xff0c;智能巡检机器人作为电力系统自动化运维的重要工具&#xff0c;能够在无人干预的情况下&#xff0c;对电网设备进行实时监测和故障诊断。这种高效、可靠的巡检方式在智能电网建设中发挥了重要作用。然而&#xff0c;随着机器人在电…

yolo 3d车辆目标检测(教程+代码)

关于3D目标检测及其与YOLO3D相关性的概览&#xff1a; 3D目标检测&#xff1a;开启视觉感知的新维度 随着计算机视觉技术的发展&#xff0c;目标检测算法已经成为人工智能领域的重要组成部分。从自动驾驶汽车到无人机导航&#xff0c;再到增强现实&#xff08;AR&#xff09;应…

Java项目:137 springboot基于springboot的智能家居系统

作者主页&#xff1a;源码空间codegym 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 本基于Springboot的智能家居系统提供管理员、用户两种角色的服务。 总的功能个人中心、基础数据管理、家具管理、任务管理和用户管理。本系统…

计算机工具软件安装攻略:Visual Studio Code下载、安装和使用

Visual Studio Code下载、安装和使用 1 Visual Studio Code简介 Visual Studio Code通常简称为VS Code&#xff0c;是一款由微软开发的免费、开源的轻量级代码编辑器。它在开发者社区中非常受欢迎&#xff0c;具有强大的功能和扩展性&#xff0c;适用于多种编程语言和开发场景…

git如何设置嵌套仓库(设置子树或子模块),并解决直接将一个仓库拖拽到另一个仓库中导致的问题

git 将一个仓库拷贝到另一个仓库的文件夹下。默认git并不会处理&#xff0c;上传上去之后&#xff0c;只会创建一个文件夹&#xff0c;但是这个文件夹点不开。 在 git add . 的时候&#xff0c;会报出警告&#xff1a; 警告&#xff1a;正在添加嵌入式 git 仓库&#xff1a;cl…

微链接: 利用 MinIO 实现计算和存储的还原

Microblink 是一家专门从事图像检测的 AI 公司。他们从 BlinkID、BlinkID Verify 和 BlinkCard 等产品开始进入身份空间。最近&#xff0c;他们的图像检测能力催生了可以处理其他类型图像的产品。例如&#xff0c;可以对收据执行产品检测&#xff0c;从而使用收据上的产品描述来…

Update Azure OpenAI npm Package to 2023-12-01-preview Version

题意&#xff1a;将 Azure OpenAI npm 包更新到 2023-12-01-preview 版本 问题背景&#xff1a; I am currently using the azure-openai npm package in my project with version 2023-03-15-preview. As per the latest updates, version 2023-12-01-preview is available a…

【论文分享】MyTEE: Own the Trusted Execution Environment on Embedded Devices 23‘NDSS

目录 AbstractINTRODUCTIONBACKGROUNDARMv8 ArchitectureSecurity statesTrustZone extensionsVirtualization Communication with Peripherals MOTIVATIONATTACK MODEL AND ASSUMPTIONSYSTEM DESIGNOverviewExecution Environments IsolationDMA FilterExternal DMA controlle…

负载均衡--资源申请说明(三)

1.负载方式&#xff1a;分为四层负载和七层负载 2.负载协议&#xff1a;四层负载为TCP和UDP&#xff0c;七层负载为HTTP和HTTPS 4.负载端口&#xff1a;填写虚地址的端口&#xff08;一般与后端服务端口保持一致&#xff09; 5.真实服务IP&#xff1a;指被负载的后台真实服务…

零售自动化新趋势:AI 智能名片与 S2B2C 商城系统助力零售业变革

摘要&#xff1a;本文深入探讨零售业所面临的多重压力&#xff0c;分析客户期望不断提高的现状&#xff0c;强调零售商追求自动化的必要性。引入零售自动化的概念&#xff0c;阐述其通过技术实现零售体验自动化或半自动化&#xff0c;提供线上线下无缝连接、快速和个性化体验的…

MATLAB实现跳频多频移键控通信系统仿真

1. 简介 在现代无线通信系统中&#xff0c;跳频技术和多频移键控&#xff08;MFSK&#xff09;调制被广泛应用于抗干扰和提高通信系统性能。本文将通过 MATLAB 仿真分析跳频 MFSK 通信系统的性能&#xff0c;特别是在不同信道干扰条件下的误码率&#xff08;BER&#xff09;表…

ultralytics框架实现ByteTrack目标追踪算法

在ultralytics框架中&#xff0c;提供了两种用于目标追踪的算法&#xff0c;分别是ByteTrack算法与Botsort算法&#xff0c;这两种算法都是在Sort算法的基础上改进的&#xff0c;今天&#xff0c;我们学习一下ByteTrack算法。 存在问题 首先&#xff0c;我们看下ByteTrack所解…

《数字信号处理》学习04-离散时间系统中的线性时不变系统

目录 一&#xff0c;系统及离散时间系统 二&#xff0c;离散时间系统中的线性时不变系统 1&#xff0c;线性系统 1) 可加性 2) 比例性(齐次性) 3&#xff09;叠加原理(叠加性质) 2&#xff0c;时不变系统(移不变系统) 通过前几篇文章的学习&#xff0c;此时我对序列的相关概…

毒枸杞事件启示录:EasyCVR视频AI智能监管方案如何重塑食品卫生安全防线

一、方案背景 近年来&#xff0c;食品安全问题频发&#xff0c;引发了社会各界的广泛关注。其中&#xff0c;毒枸杞事件尤为引人关注。新闻报道&#xff0c;在青海格尔木、甘肃靖远等地&#xff0c;部分商户为了提升枸杞的品相&#xff0c;违规使用焦亚硫酸钠和工业硫磺进行“…

深度学习5从0到1理解RNN(包括LTSM,GRU等):内容丰富(下)

续 5.4.4 LSTM 举例 网络里面只有一个 LSTM 的单元&#xff0c;输入都是三维的向量&#xff0c;输出都是一维的输出。这三维的向量跟输出还有记忆元的关系是这样的。假设 x2 的值是 1 时&#xff0c; x1 的值就会被写到记忆元里&#xff1b;假设 x2 的值是-1 时&#xff0c;就…