大数据开发-数据仓库介绍

news2024/9/20 12:33:16

目录标题

    • 1、数据仓库
      • 1.1 数仓为何而来?
      • 1.2 数据仓库的主要特性
      • 1.3 数据仓库与数据库的区别
      • 1.4 数据仓库三层架构
      • 1.5 实战-美团酒旅数仓建设
      • 1.6 ETL、ELT
        • 1.6.1 ETL
        • 1.6.2 ELT

1、数据仓库

数据仓库Data Warehouse 简称DH,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持

数据仓库不产生数据 – 数据来自数据库、日志、爬虫等
数据仓库不消费数据 – 分析结果给外部的报表平台等展示

常见的数据源:

  • RDBS关系型数据库-业务数据
  • log file --日志文件
  • 爬虫
  • 其他数据

1.1 数仓为何而来?

答:为了分析数据而来

每天有大量的用户信息产生,如何存储?
要求:处理速度要快,且安全
存放在关系型数据库中—因为事务支持

事务的四大特性:原子性、一致性、隔离性、持久性

but随着业务越来越多,运营如何决策?—需要数据分析
基于业务数据开展数据分析,基于分析结果给决策提供支持
在哪里数据分析?
虽然可以直接在数据库分析,但没必要,因为:

  1. 数据分析也是对数据进行读取操作,会让读取压力倍增
  2. 数据库OLTP仅存储近期的数据
  3. 数据可能分析在不同数据库中,字段类型属性不统一

需要把数据拿过来搭建专门分析的地方—数据仓库出现了
即能进行分析,也可以保证数据不受影响

在这里插入图片描述
OLTP面向事务的数据库–开展业务的
数据仓库 – 开展分析的

结论:

  • 先有数据库再有数据仓库
  • 数据仓库不是大型的数据库,只是一个数据分析平台

1.2 数据仓库的主要特性

数据仓库是面向对象的、集成的、非易失的、时变的数据集合
面向主题
主题与数据可以是:1对1,1对多的关系
在数仓中开展分析,先确定主题,然后基于主题寻找、采集数据

集成性
对于来自多个数据源的数据进行规范化处理

ETL:抽取、转化、加载
在这里插入图片描述
非易失性:
一般存储的是历史数据
数据仓库中一般是查询操作,修改和删除操作很少
实时数仓是反例

时变性:
站在时间角度变化

1.3 数据仓库与数据库的区别

数据库与数据仓库的区别实际是OLTP和OLAP的区别

  • 操作型处理,叫联机事务处理OLTP,也可以称为面向交易的处理系统。用户较为关注操作的响应时间—MySQL注重优化
    OLTP系统注重的是数据安全、完整、响应效率,通常指的是关系型数据库
    T —transaction事务的
  • OLAP。A-analytical分析的。面向分析支持分析
  • 数据仓库不是大型的数据库,也没有要取代数据库的目标,只是一个数据分析平台

注意:某些场所下,说oracle也是OLAP系统,如何理解?
如果把RDBMS只用作数据分析作用,就是OLAP系统

1.4 数据仓库三层架构

按照数据流入流出的过程,数据仓库架构可分为—源数据、数据仓库、数据应用。
企业会在这基础的三层架构中增加其他层
在这里插入图片描述

数据源:数据库OLTP、日志数据、爬虫数据、其他

数据仓库层:
数仓开展数据分析的基本步骤:

  1. 确定分析的主题
  2. 基于主题采集和主题相关的数据(主题和数据可能一对一,也可能一对多)
  3. 在主题下面基于业务需求,模型展开各种分析
  4. 分析的结果支持各种数据应用(Aata app)

ODS 操作型数据处理,一般叫做源数据层,通俗叫做临时存储层

  • ODS层的数据来自各个不同的数据源,主要目的是把数据和数据源之间进行解耦合
  • 因为是临时存储,且数据源之间差异较大,一般不用于直接分析

在这里插入图片描述
分层好处:

  • 解耦合,员工职责明确,只需要局部调整
  • 空间换时间,可以提取执行。提高最后应用层的效率

1.5 实战-美团酒旅数仓建设

架构变化情况:
在这里插入图片描述
数仓是不断完善,根据业务情况不断调整的

1.6 ETL、ELT

数据仓库从各数据源中获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(extract抽取、transform转化、load装载)

1.6.1 ETL

传统的
在这里插入图片描述
抽取–转换

1.6.2 ELT

大数据时代,企业更偏向ELT
在这里插入图片描述
抽取-进Hadoop–在数仓中转换

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/358840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Centos7.9源码编译安装dpdk

近日遇到一个需求,需要在Centos7.9上源码编译安装dpdk-21.11.2,并且dpdk的安装目录为/opt/。安装过程较为复杂,特此记录一下,方便日后查看。 相关配置参数编译环境虚拟机Centos7.9内核版本3.10.0-957dpdk版本21.11.2DPDK是INTEL公…

Java并发编程面试题——JUC专题

文章目录一、AQS高频问题1.1 AQS是什么?1.2 唤醒线程时,AQS为什么从后往前遍历?1.3 AQS为什么用双向链表,(为啥不用单向链表)?1.4 AQS为什么要有一个虚拟的head节点1.5 ReentrantLock的底层实现…

组合实现多类别分割(含实战代码)

来源:投稿 作者:AI浩 编辑:学姐 摘要 segmentation_models_pytorch是一款非常优秀的图像分割库,albumentations是一款非常优秀的图像增强库,这篇文章将这两款优秀结合起来实现多类别的图像分割算法。数据集选用CamVid…

Java实现JDBC工具类DbUtils的抽取及程序实现数据库的增删改操作

封装DbUtils 工具类 不知道我们发现没有,不管是对数据库进行查询,还是标准的JDBC 步骤,其开端都是先实现JDBC 的加载注册,接着是获取数据库的连接,最后都是实现关闭连接,释放资源的操作。那我们何不直接把…

起薪2万的爬虫工程师,Python需要学到什么程度才可以就业?

爬虫工程师的的薪资为20K起,当然,因为大数据,薪资也将一路上扬。那么,Python需要学到什么程度呢?今天我们来看看3位前辈的回答。 1、前段时间快要毕业,而我又不想找自己的老本行Java开发了,所以面了很多P…

【Python】用sympy判断函数的单调性和极值

文章目录单调性和奇异性连续性、极值、周期、不动点单调性和奇异性 sympy.calculus.singularities提供了4个关于单调性判定的函数,分别是 is_decreasing(expr, interval, symbolNone) is_increasing(expr, interval, symbolNone) is_strictly_decreasing(expr, in…

【期末复习】例题讲解Dijkstra算法

使用场景Dijkstra算法用于解决单源点最短路径问题,即给一个顶点作为源点,依次求它到图中其他n-1个顶点的最短距离。例题讲解Dijkstra算法将图中所有顶点分成两部分,第一部分是已知到源点最短距离的顶点Known(K),第二部分是不知道到…

教你如何搭建人事OA-考勤管理系统,demo可分享

1、简介1.1、案例简介本文将介绍,如何搭建人事OA-考勤管理。1.2、应用场景可查看员工考勤的数据统计,可进行考勤签到、补签、请假、加班、调休等流程。2、设置方法2.1、表单搭建1)新建表单【考勤签到】,字段设置如下:名…

VS Code Spring 全新功能来了!

大家好,欢迎来到我们 2023 年的第一篇博客!我们想与您分享几个与 Spring 插件、代码编辑和性能相关的激动人心的更新,让我们开始吧! Spring 插件包的新入门演练 演练(Walkthrough) 是一种多步骤、向导式的体…

跨境进口税费计算

以前搞跨境进口的时候,需要计算商品税费。税费计算比较复杂,把信息整理了一下,分享给大家。 一、基础知识 1.1税费类型 BBC/BC:跨境电商进口综合税 关税*0 (消费税进口环节增值税)*70%CC:行邮税,税额低…

Vue3电商项目实战-商品详情模块1【01-商品详情-基础布局、02-商品详情-渲染面包屑、03-商品详情-图片预览组件、04-商品详情-图片放大镜】

文章目录01-商品详情-基础布局02-商品详情-渲染面包屑03-商品详情-图片预览组件04-商品详情-图片放大镜01-商品详情-基础布局 目的:完成商品详情基础布局,路由配置,搭好页面架子。 大致步骤: 准备组件结构容器提取商品推荐组件且…

十二月券商金工精选

✦研报目录✦ ✦简述✦ 按发布时间排序 华宝证券 主动暴露的得与失—从Barra框架到私募指增因子分析方法 发布日期:2022-12-01 关键词:股票、Barra、风险暴露、指数增强 主要内容:本文针对私募指数增强产品的策略流程,设计…

<JVM上篇:内存与垃圾回收篇>11 - 垃圾回收相关算法

对象存活判断 在堆里存放着几乎所有的 Java 对象实例,在 GC 执行垃圾回收之前,首先需要区分出内存中哪些是存活对象,哪些是已经死亡的对象。只有被标记为己经死亡的对象,GC 才会在执行垃圾回收时,释放掉其所占用的内存…

vue项目开发(vue2与vue3对比)

vue中使用typescrip 初与typescrip的约定情愫:最近项目要用到vue3,所以打算使用typescrip语法! 安装: npx tyarn add typescript vue/cli-plugin-typescript -D npx tsc --init修改 tsconfig.json: {"compilerOptions&quo…

LVS中的keepalived高可用

文章目录前言一、Keepalived简介二、keepalived工作原理三、配置文件四、实验1.某台Real Server down2.LVS本身down实验过程:五、代码详细演示整体过程调度器安装软件、设置测试keepalived对后端RS的健康检测backup服务主机设置前言 一、Keepalived简介 Keepalived是…

ubuntu18.4安装Redmine软件

1.github网站下载Redmine4.2.0的安装包,如下图所示: https://github.com/redmine/redmine/releases/tag/4.2.0 图1 github网站下载redmine4.2.0安装包2.拷贝Redmine4.2.0的安装包到ubuntu工作目录,并解压缩,如下所示:…

Springboot前后端分离国际化实现-chatgpt

前言 Springboot国际化可以帮助使用者在不同语言环境中构建应用程序,这样应用程序可以有效地适应不同语言文化背景下的用户需求。 此外,Springboot国际化也可以方便多语言应用程序重用和维护,从而减少了系统部署的时间成本和维护的费用。 要实…

医疗方案 | 星辰天合入选“2022智慧新医信优秀解决方案”

近日,由 HC3i数字医疗网主办的《数字化转型驱动下的医院高质量发展论坛》暨 2022 智慧新医信优秀解决方案发布仪式在线上召开。XSKY星辰天合的“智慧医疗软件定义数据基础设施”解决方案成功入选 2022 智慧新医信优秀解决方案,。此次论坛由 HC3i 数字医疗…

会利用信息差赚钱的人才是聪明人

毕业后找不到工作,穷到只剩下时间,大小做了20多份副业兼职,终于找到了可靠的渠道, 我是专科生,学历不好,专业拉胯。毕业后,我找了两三份工作。要么工资太低,只能交房租,…

javaFx实现鼠标穿透画布,同时操作画布和桌面,背景透明,类似ppt批注

一、功能需要由来和大致效果 今天,我们要用javaFx来实现一个鼠标穿透画布的功能,该需求来自于在我们的javaFx桌面应用中,需要实现一个悬浮的桌面侧边工具栏,在工具栏中有画笔绘制,批注的功能,能够实现在任何…