【数据仓库】

news2024/11/8 7:19:45

1、概述

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。

数据仓库是企业中用于集中存储和管理来自多个源的经过处理和组织的数据的系统。它为复杂的查询和分析提供了一个优化的环境,使得用户能够执行高级数据分析,以支持商业决策。数据在进入仓库之前经过清洗、转换和集成,以确保质量和一致性。这使得企业能够通过商业智能工具和报告软件,对历史和当前数据进行深入分析,以洞察趋势、预测未来并优化战略。

2、特点

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:

  • 效率足够高。
    数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
  • 数据质量。
    数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
  • 扩展性。
    之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
    数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。
    广义的说,基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心。
  • 面向主题
    操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
    主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,可以理解为用户使用数据仓库进行决策时所关心的重点方面。
    每一个主题对应一个宏观的分析领域,一个主题通常与多个操作型信息系统相关。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。
  • 数据仓库是集成的
    数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  • 数据仓库是不可更新的
    数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
  • 数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。
  • 汇总的
    操作性数据映射成决策可用的格式。
  • 大容量
    时间序列数据集合通常都非常大。
  • 非规范化的
    Dw数据可以是而且经常是冗余的。
  • 元数据
    将描述数据的数据保存起来。
  • 数据源
    数据来自内部的和外部的非集成操作系统。

3、为什么需要数据仓库?

  • 整合不同数据源
    企业运营涉及多个部门和系统,各自产生格式和结构不同的数据。数据仓库的作用是将这些多源数据集中存储并统一格式化,使得数据更加标准化和一致,便于交叉分析和全面洞察。
  • 支持复杂查询和报告
    数据仓库专为查询和报告而设计,它对数据进行优化存储,使得执行复杂的数据分析查询时,速度更快,效率更高。这对于快速制定决策策略,特别是在需要整合大量数据进行深入分析时,至关重要。
  • 提升决策质量
    数据仓库允许企业存储大量的历史数据,为用户提供了评估长期趋势和性能的能力。通过分析过去的数据,企业可以做出更精确的预测,制定更明智的战略决策。
  • 提升系统性能
    数据仓库与在线事务处理系统(OLTP)相分离,允许企业将针对报告和分析的复杂查询操作与日常业务事务处理分开。这种分离减轻了OLTP系统的负担,确保了事务数据处理的高效性和响应速度。同时,数据仓库专门针对读取操作和分析查询进行了优化,提高了分析处理的性能,避免了两个系统的性能互相影响的问题,确保了双方系统运行的最优效率。
  • 数据治理和安全
    数据仓库通过集中管理和强化安全措施,帮助企业在数据治理方面遵守法规要求。它提供了访问控制、审计跟踪等功能,确保对敏感数据的保护,同时增加了数据的可靠性和信任度。

4、数据仓库有哪些实际应用?

  • 客户关系管理
    数据仓库集中了客户的所有互动信息,帮助企业分析客户行为、购买模式和喜好。公司可以根据历史交易数据和客户反馈创建个性化的营销策略。此外,通过分析客户留存情况和流失率,企业能够设计更有效的客户忠诚度计划。通过数据仓库提供的深度分析,企业能够提升客户满意度,并更好地预测未来需求。
    例如,零售连锁店可以使用数据仓库来分析顾客的购物历史,从而提供个性化的优惠券和推荐产品。
  • 供应链管理
    数据仓库优化了供应链的各个方面,从库存管理到订单履行。企业可以根据季节性需求和过往销售数据预测未来的库存需求。通过监控供应链中的数据,企业能够及时发现瓶颈,减少延迟。数据仓库还能帮助企业评估供应商绩效,确保成本效益。
    例如,制造公司可以利用数据仓库来预测产品需求,优化库存水平,并减少过剩或缺货的情况。
  • 财务分析
    数据仓库提供了一个全面的视图来分析和管理企业的财务状况。它帮助企业追踪收入、成本、利润率和其他关键的财务指标。通过数据仓库,企业能够执行预算编制和财务规划。企业也利用数据仓库进行审计和合规性报告,确保财务透明度。
    例如,保险公司可以使用数据仓库来分析不同保险产品的盈利性,并据此调整定价策略。
  • 人力资源管理
    数据仓库中的人力资源数据帮助企业分析员工绩效和人事趋势。企业可以评估培训计划的有效性,以及员工满意度对留存率的影响。数据仓库还支持招聘分析,帮助企业识别招聘渠道的效果。
    例如,企业可以利用数据仓库来追踪员工发展周期、职位晋升路径和离职率,从而改进人才管理策略。
  • 运营效率分析
    企业使用数据仓库来监控各个业务单元的性能,识别效率低下的领域。它使得企业能够基于事实进行决策,减少基于直觉的决策。通过比较分析不同时间段的运营数据,企业能够实施改进措施,提高整体效率。
    例如,餐饮企业可以通过分析各分店的销售数据和运营成本,识别提高利润率的关键策略。

5、数据仓库和数据湖的区别?

数据仓库是针对结构化数据经过精细加工用于分析和报表的集中式存储系统,数据湖则存储大量未加工的结构化和非结构化数据以便灵活分析。下表简单对比了数据湖和数据仓库的主要区别:

对比项数据仓库数据湖
定义为企业整合、清洗、存储和分析结构化数据而设计的中央存储系统。用于存储大量原始数据,无论其结构如何,以后可供分析使用的存储系统。
数据类型主要存储结构化数据,经过清洗和转换。存储结构化、半结构化和非结构化数据,原始形式保留。
存储模式通常采用星型或雪花模式,便于分析。通常是平面结构,数据以原始形态存储。
用户群体高层管理者、决策者和业务分析师等。数据科学家、分析师和数据工程师等。
用途用于复杂的查询分析,支持企业决策。用于数据发现、大数据处理和机器学习等。
数据治理强调数据的一致性、质量和治理。数据治理较为宽松,原始数据被保留,治理按需实施。
数据处理需要ETL(提取、转换、加载)处理。数据通常以原始格式存储,按需进行处理。
实施和成本实施成本和时间较高,由于规模大和复杂性高。实施成本较低,尤其是初期存储原始数据较为简单。

6、数据仓库的工作原理是什么?

在这里插入图片描述

数据仓库的工作原理可分为以下几个关键步骤:

  • 数据抽取
    数据仓库的第一步是从不同的源系统中抽取数据。这些源系统可能包括关系数据库、文件系统、OLTP系统、网站日志等。抽取过程是定期进行的,比如每天或每周,以确保数据是最新的。
  • 数据存储
    数据仓库中的数据通常按照特定的模式存储,如星型模式、雪花模式或其他多维数据模式。这些模式有助于支持复杂的分析查询,并允许用户通过维度切片、切块和钻取数据。
  • 数据清洗和转换
    抽取出的数据通常需要经过清洗和转换的过程,以提高数据质量和一致性。清洗包括修正错误、去除重复项、处理缺失值等。转换则是将数据转化为统一的格式,以便在数据仓库中进行有效存储和查询。
  • 数据加载
    清洗和转换后的数据被加载到数据仓库中。这个过程可能涉及对数据的进一步加工,如聚合、摘要和索引创建,以优化查询性能。
  • 数据访问与分析
    数据仓库完成数据存储后,用户可以通过商业智能工具、SQL查询、报表工具等进行数据访问和分析。数据仓库支持从宏观趋势分析到微观细节探究的各种分析需求。

10、资料

  • 什么是数据仓库
  • 数据仓库
  • OLAP数仓入门问答-基础篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

成都栩熙酷网络科技有限公司抖音小店探索

在数字经济的浪潮中,电商行业正以前所未有的速度蓬勃发展,而短视频平台的崛起更是为这一领域注入了新的活力。成都栩熙酷网络科技有限公司(以下简称“栩熙酷”),作为这股浪潮中的佼佼者,凭借其敏锐的市场洞…

基于ViT的无监督工业异常检测模型汇总

基于ViT的无监督工业异常检测模型汇总 论文1:RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection(2024)1.1 主要思想1.2 系统框架 论文2:Inpainting Transformer for Anomaly Detecti…

传输协议设计与牧村摆动(Makimoto‘s Wave)

有一条活鱼和一条死鱼,你准备怎么做,你会将活鱼红烧或将死鱼清蒸吗?好的食材只需要最简单的烹饪,不好的食材才需要花活儿。 我此前的文字几乎都在阐述一个观点,广域网就是那条死鱼,数据中心则是那条活鱼。…

基于Python的旅游景点推荐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

程序员的生活周刊 #7:耐克总裁被裁记

0. 庙宇 这张图来自 Tianshu Liu, 被树木环绕的宝塔庙宇 1. 耐克总裁 耐克最近的总裁 John Donahoe 干了 5 年,终于被裁掉了。 这位总裁即不了解球鞋文化,也没有零售经验,但不懂事的董事会还是聘用它,寄托把耐克从运…

全面解析:区块链技术及其应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 全面解析:区块链技术及其应用 全面解析:区块链技术及其应用 全面解析:区块链技术及其应用 区…

工作流初始错误 泛微提交流程提示_泛微协同办公平台E-cology8.0版本后台维护手册(11)–系统参数设置

工作流初始错误 泛微提交流程提示_泛微协同办公平台E-cology8.0版本后台维护手册(11)–系统参数设置...-CSDN博客 工作流初始错误 泛微提交流程提示_泛微OA 工作流WebService接口使用说明 工作流初始错误 泛微提交流程提示_泛微OA 工作流WebService接口使用说明-CSDN博客 工作…

每日OJ题_牛客_春游_贪心+数学_C++_Java

目录 牛客_春游_贪心数学 题目解析 C代码 Java代码 牛客_春游_贪心数学 春游 描述: 盼望着,盼望着,东风来了,春天脚步近了。 值此大好春光,老师组织了同学们出去划船,划船项目收费如下:…

关于elementui el-radio 赋值问题

今天遇到这样的问题&#xff1a; 点击的时候&#xff0c;同时选中 照抄官网&#xff01; 后来发现了问题&#xff1a; 也就是说如果你的版本太低&#xff0c;就不能用value&#xff0c;而得用label&#xff0c;于是修改 <el-radio-group v-model"searchTime"&g…

设计者模式之策略模式

前言 在软件构建过程中&#xff0c;某些对象使用的算法可能多种多样&#xff0c;经常改变&#xff0c;如果将这些算法都写在对象中&#xff0c;将会使对象变得异常复杂&#xff1b;而且有时候支持不频繁使用的算法也是一个性能负担。 如何在运行时根据需要透明地更改对象的算…

MetaGeneMark:宏转录组转录本基因预测

GeneMark™ download 下载 gunzip gm_key_64.gz tar -xvzf MetaGeneMark_linux_64.tar.gz #查看安装 (完整路径)/gmhmmp #解压文件里面这个比较重要 MetaGeneMark_linux_64/mgm/MetaGeneMark_v1.mod #复制gm_key文件到主路径 mv gm_key_64 .gm_key cp .gm_key /home/zhongpei…

阿里云-防火墙设置不当导致ssh无法连接

今天学网络编程的时候&#xff0c;看见有陌生ip连接&#xff0c;所以打开了防火墙禁止除本机之外的其他ip连接&#xff1a; 但是当我再次用ssh的时候&#xff0c;连不上了才发现大事不妙。 折腾了半天&#xff0c;发现阿里云上可以在线向服务器发送命令&#xff0c;所以赶紧把2…

【go从零单排】Strings and Runes 字符串和字符

Don’t worry , just coding! 内耗与overthinking只会削弱你的精力&#xff0c;虚度你的光阴&#xff0c;每天迈出一小步&#xff0c;回头时发现已经走了很远。 概念 在Go语言中&#xff0c;rune 是一个内置的数据类型&#xff0c;用于表示一个Unicode字符。它实际上是一个别名…

JDK1.5 java代码打包jar HmacSha256

文章目录 demo地址背景实现编写代码编译class文件打包 JAR 文件执行生成的 JAR 文件辅助验证方式 常见问题和解决方法常规生成jar方案maven插件idea工具 demo地址 https://github.com/xiangge-zx/HmacSha256 背景 最近接到一个需求,做一个可以用来HmacSha256加密的小工具&am…

履带机器人(一、STM32控制部分--标准库)

一、履带机器人整体逻辑框架 通过在PC端搭建上位机,使得在PC端可以给STM32发送控制指令并且接受STM32的状态信息。 通过RS485通信,使得STM32可以和电机进行通信,STM32发送启动、停止、转速、方向等指令,并接受电机返回的状态信息。 二、STM32逻辑框架 整体逻辑: 1、先…

yakit中的规则详细解释

官方文档 序列前置知识之高级配置 | Yak Program Language 本文章多以编写yaml模版的视角来解释 规则一览 匹配器 在编写yaml中会使用到这里两个东西 点击添加会在返回包的右下角出现匹配器 上面有三个过滤器模式&#xff0c;官方解释 丢弃&#xff1a;丢弃模式会在符合匹配…

从0开始学习机器学习--Day14--如何优化神经网络的代价函数

在上一篇文章中&#xff0c;解析了神经网络处理分类问题的过程&#xff0c;类似的&#xff0c;在处理多元分类问题时&#xff0c;神经网络会按照类型分成多个输出层的神经元来表示&#xff0c;如下&#xff1a; 处理4个分类问题时的神经网络 我们可以看到&#xff0c;相较于之…

LINUX下的Myql:库的操作

目录 1.库的创建 2.字符集和校验集 1.查看db1默认的字符集合校验集 2.设置字符集和校验集 3.库的查看 4.数据库的修改 5.数据库的删除 6.数据库的备份 1.库的创建 create database db1; 创建一个名为db1的数据库&#xff0c;LINUX会创建一个名为db1的文件夹。 show data…

Java多线程详解⑤(全程干货!!!)线程安全问题 || 锁 || synchronized

这里是Themberfue 在上一节的最后&#xff0c;我们讨论两个线程同时对一个变量累加所产生的现象 在这一节中&#xff0c;我们将更加详细地解释这个现象背后发生的原因以及该如何解决这样类似的现象 线程安全问题 public class Demo15 {private static int count 0;public …

【taro react】 ---- 常用自定义 React Hooks 的实现【六】之类渐入动画效果的轮播

1. 效果 2. 场景 css 效果实现:可以看到效果图中就是一个图片从小到大的切换动画效果,这个效果很简单,使用 css 的 transform 的 scale 来实现图片的从小到大的效果,切换就更加简单了,不管是 opacity 还是 visibility 都可以实现图片的隐藏和显示的切换。React.Children.m…