数据仓库实战

news2025/2/28 6:26:46

目录

    • 1、最佳实战
      • 1.1 表的分类
      • 1.2 ETL策略
      • 1.3 任务调度
    • 2、项目实战
      • 2.1 项目概述
      • 2.2 数据描述
      • 2.3 架构设计
      • 2.4 环境搭建
      • 2.5 项目开发

1、最佳实战

1.1 表的分类

维度建模中表的类型:事实表和维度表
事实表又可以分为:事务事实表、周期快照事实表、累积快照事实表

事实表:一般指现实存在的业务对象,比如用户、商品、商家、销售员等
在这里插入图片描述
维度表:对应一些业务状态,代码的解释表,也称为码表
通常使用维度对事实表中的数据进行统计、聚合运算
在这里插入图片描述
事务事实表:随着业务不断产生的数据、一旦产生不会再变化,如交易流水、操作日志、出库入库记录
在这里插入图片描述
周期快照事实表:随着业务周期型的推进而变化,完成间隔周期内的度量统计,如年、季度累计
使用周期+状态度量的组合,如年累计订单数,年是周期,订单总数是量度
分析压力大
在这里插入图片描述
累积快照事实表:记录不确定周期的度量统计,完全覆盖一个事实的生命周期,如订单状态表
多个时间字段,用于记录生命周期中的关键时间点
一条记录,对此记录不断更新

在这里插入图片描述
一条事件只有一个记录

累积快照事实表的实现:
实现方式一:使用日期分区表,全量数据记录
存储大量永远不更新的冷数据,对性能影响较大,适用数据量小的情况

实现方式二:存储周期内数据,周期外的冷数据存储到归档表

实现方式三:-使用最多且最好的
使用日期分区表,以业务实体的结束时间分区,每天的分区存放当天结束的数据,设计一个时间非常大的分区,如9999-12-31,存放截止当前未结束的数据

拉链表:记录每条信息的生命周期,用于保留数据的所以历史状态
拉链表将表数据的随机修改方式,变为顺序追加

在这里插入图片描述
金额300.5的那个信息,上表中结束日期9999-99-99,说明此状态未结束,下表,日期改为了2020-01-03,说明状态已结束,且新增了一条记录,已支付状态,结束日期也是9999-99-99

1.2 ETL策略

两种:全量同步,增量同步

全量同步:
数据初始化装载一定使用全量同步的方式

增量同步:
传统数据整合方案中,大多采用merge方式(update +insert)
大数据平台不支持update操作,可采用全外连接+数据全量覆盖方式

1.3 任务调度

为什么需要任务调度?

  • 解决任务单元间的依赖关系
  • 自动化完成任务的定时执行

在这里插入图片描述
常见任务类型?
shell、java程序、Mapreduce程序、SQL脚本

常见调度工具?
Azkaban、Oozie

2、项目实战

2.1 项目概述

背景:
某电商企业,因数据积存、分析需要,筹划搭建数据仓库,提供数据分析访问接口
项目一期需要完成数仓建设,并完成用户复购率的分析计算,支持业务查询需求

复购率:
指在一段时间间隔内,多次重复购买产品的用户,占全部人数的比率

在这里插入图片描述

2.2 数据描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 架构设计

在这里插入图片描述
一开始,业务数据存放在Mysql中
在这里插入图片描述

2.4 环境搭建

在这里插入图片描述
虚拟机搭建 - Xshell - 脚本准备 - 集群按照

2.5 项目开发

在这里插入图片描述
1,业务数据生成:
在这里插入图片描述
2,ETL数据导入
后面看不懂了。。。
原视频课程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/347156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

公司项目引入这种方式,开发应用真是又快又准!

试想一下,你开足马力提了一串需求,给开发精英团队也好,给外包也行,都要等个半年甚至更久才会给到你一个满意的产品,你是否还有动力? 这还不止,业务越来越复杂,最初的需求也在随着着…

jsp医院管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 jsp 医院管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开 发,数据库为Mysql,使用ja…

大数据之-Nifi-Nifi的安装_启动_认识Nifi的操作台---大数据之Nifi工作笔记0002

然后我们看一下如何安装nifi 这个上一节已经说了 然后看一下环境准备,这个自己去安装就可以了,需要jdk,1.8就可以了,然后 maven安装上就可以了 然后去下载,这里下载Linux版本的 1.9.2的版本比较稳定 下载以后,避免端口冲突要修改端口默认是8080,修改为58080 然后启动很简单,看…

node.js校园快递智能仓储物流系统vue

开发语言 node.js 框架:Express 前端:Vue.js 数据库:mysql 数据库工具:Navicat 开发软件:VScode 系统能够提供简洁、全面且清爽的用户界面,使操作人员可以直观明了。 系统可以实现管理员信息管理、收件人信息管理、快…

【C++】智能指针(万字详解)

🌈欢迎来到C专栏~~智能指针 (꒪ꇴ꒪(꒪ꇴ꒪ )🐣,我是Scort目前状态:大三非科班啃C中🌍博客主页:张小姐的猫~江湖背景快上车🚘,握好方向盘跟我有一起打天下嘞!送给自己的一句鸡汤&…

如何在 Webpack 中开启图片压缩

工具对比 npmtrends.com/image-minim… 这四个压缩工具,从下载量来看,image-webpack-loader 较多,image-minimizer-webpack-plugin、imagemin-webpack-plugin 次之,imagemin-webpack 已经不再维护,因此不考虑此工具。 …

【云原生】手把手带你从零开始搭建kubernetes最新版本实战

文章目录前言一. 实验环境二. k8s 的介绍三 . k8s的安装3.1 搭建实验环境3.1.1 硬件层面的要求3.1.2 软件层面环境配置3.2 docker的安装3.2.1 搭建docker3.2.2 部署 cri-dockerd3.3 部署k8s3.3.1 配置添加阿里云的yum源3.3.2 安装kubeadm kubelet kubectl3.3.3 k8s-master节点初…

汽车装配工厂立库物料运送线PLC无线应用

一、项目背景 此次项目地在比亚迪的西安工厂,需要实现PLC无线通讯的地方是汽车厂的立体仓库物料运输线。生产物流担负运输、存储、装卸物料等任务。立体仓库主要通过检测、信息识别、控制、通信、监控调度、大屏显示及计算机管理等装置组成。将操作指示信息存储在运…

IDEA插件之Mybatis log插件安装及使用

一 前言分析 我们在idea控制台看见的sql日志通常是这样的,实际开发调试中我们想把完的sql复制出来,到数据库中执行分析数据情况。但是如果我们的sql有动态传参控制台输出的sq入参会用“?”代替入参,不能直接使用。 SqlSession […

Linux_CentOS虚拟机安装教程

目录 一、安装虚拟化软件 二、配置和安装虚拟机 一、安装虚拟化软件 有关虚拟机软件有很多,如Oracle VM VirtualBox、VMware Workstation Player、VMware Workstation Pro等…… 博主在这里用Oracle VM VirtualBox演示。 进入Oracle VM VirtualBox官方网站https…

算法训练营 day48 动态规划 完全背包 零钱兑换 II 组合总和 Ⅳ

算法训练营 day48 动态规划 完全背包 零钱兑换 II 组合总和 Ⅳ 完全背包 有N件物品和一个最多能背重量为W的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品都有无限个(也就是可以放入背包多次),求解将哪些物…

【零基础入门前端系列】—语义化标签、实体字符、视频、音频(八)

【零基础入门前端系列】—语义化标签、实体字符、视频、音频(八) 一、什么是HTML语义化标签 语义化的标签,旨在让标签有自己的含义 如上代码:p标签与span标签的区别之一就是,p标签的含义是段落而span标签没有独特的…

专家分享 | 租赁型售楼处标准化示范区提效研究

2023年2月8日上午,优积科技邀请原金地集团北京公司 高级室内设计专业应锎经理为我司团队分享《租赁型售楼处标准化示范区提效》的专题。 此次专家分享课题加上大家踊跃讨论时间长达3小时,会上应总详细介绍了租赁型售楼处标准化示范区提效,需…

node.js+vue婚纱影楼摄影婚庆管理系统vscode项目

:减少管理婚庆工作人员的负担;管理人员可以随时浏览婚纱网站以便及时知道哪里需要修改和更进,同时还可以查看用户反馈给我们的信息,让管理员更加直观的了解客户的需求;该系统改变了以前手工记录的方式,使用…

jsp医学影像数据管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 jsp 医学影像数据管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql&#xff0…

Unity | Script Hot Reload

官网地址:https://hotreload.net/ 一、作用 Unity在运行时,可以直接修改代码,避免等待过长的编译时间。 二、说明 1、支持的平台? Windows、MacOS、Linux 2、支持的Unity版本? 2018.4 (LTS)2019.4 (LTS)2020.3 (L…

Spring ⑦ 循环引用问题

Spring ⑦ 循环引用问题 Spring 源码系列文章会遵循由浅入深,由易到难,由宏观到微观的原则,目标是尽量降低学习难度,而不是一上来就迷失在源码当中. 文章会从一个场景作为出发点,针对性的目的性极强的针对该场景对 Spring 的实现原理,源码进行探究学习。…

时间轮(TimingWheel)

一、什么是时间轮时间轮其实就是一种环形的数据结构,可以想象成时钟,分成很多格子,一个格子代表一段时间(这个时间越短,Timer的精度越高)。并用一个双向链表存储放在该格子上的延时任务,同时一个…

下一个排列-力扣31-java

一、题目描述整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。例如,arr [1,2,3] ,以下这些都可以视作 arr 的排列:[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。整数数组的 下一个排列 是指其整数的下一个字典序更大的排列。更正式地&…

记一次20撸240的沙雕威胁情报提交(2019年老文)

0x01 起因 这是一篇沙雕文章,没什么技术含量,大家娱乐一下就好 前几个月,我的弟弟突然QQ给我发来了一条消息,说要买个QQ飞车的cdk,我作为一个通情达理的好哥哥,自然不好意思回绝,直接叫他发来…