尚硅谷大数据项目《在线教育之离线数仓》笔记001

news2025/1/23 14:57:48

视频地址:尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili

目录

P003

P004【数仓概念讲的颇为详细】

P018

P019

P020

P021

P022

P023

P024


P003

时间切片:时间回溯,找回以前的数据。

P004【数仓概念讲的颇为详细】

核心架构

  1. 业务数据:用户和系统网站进行交互所产生的数据,如下单交付数据,存在mysql中。
    1. datax:全量表的采集。
    2. maxwell:增量表的实时监控。
  2. 用户行为日志:点击网站所进行的一系列动作。
    1. flume:采集数据。
    2. hdfs:文件存储系统存放数据。
    3. kafka:为实时数仓搭建作准备,flink从kafka中读取数据。
  3. hive+hdfs,hive套在hdfs上,分层计算形成数仓。
    1. hdfs:只支持新增及追加写数据,不支持实时修改与删除。
    2. hive:可以用update命令修改数据,整个文件读取出来修改后覆盖写回去,效率较低,因此将计算结果保存在新表中。

数仓分层

  1. ods:operation data store,原始数据层。
  2. dwd:data warehouse detail,明细数据层。
  3. dws:data warehouse summary,汇总数据层。
  4. dim:dimension,公共维度层。
  5. ads:application data service,数据应用层。

P018

幂等性(Idempotence) 是一个重要的概念,指的是对同一个操作的重复执行不会产生额外的影响,结果与执行一次操作的结果相同。换句话说,无论对一个操作执行多少次,最终的状态都是一致的。

P019

以下是构建数据仓库的完整流程。

P020

交易业务流程

P021

5.2.2 明确数据域

数据仓库模型设计除横向的分层外,通常也需要根据业务情况进行纵向划分数据域。

划分数据域的意义是便于数据的管理和应用

通常可以根据业务过程或者部门进行划分,本项目根据业务过程进行划分,需要注意的是一个业务过程只能属于一个数据域。

下面是本数仓项目所需的所有业务过程及数据域划分详情。

数据域

业务过程

交易域

加购、下单、支付成功

流量域

页面浏览、启动应用、动作、曝光、错误

用户域

注册、登录

互动域

收藏、评价

考试域

考试

学习域

观看视频

P022

业务总线矩阵中包含维度模型所需的所有事实(业务过程)以及维度,以及各业务过程与各维度的关系。矩阵的行是一个个业务过程,矩阵的列是一个个的维度,行列的交点表示业务过程与维度的关系。

P023

按照事务型事实表的设计流程,选择业务过程à声明粒度à确认维度à确认事实,得到的最终的业务总线矩阵见以下表格。

P024

5.2.4 明确统计指标

(1)原子指标

原子指标基于某一业务过程度量值,是业务定义中不可再拆解的指标,原子指标的核心功能就是对指标的聚合逻辑进行了定义。我们可以得出结论,原子指标包含三要素,分别是业务过程、度量值和聚合逻辑。

例如订单总额就是一个典型的原子指标,其中的业务过程为用户下单、度量值为订单金额,聚合逻辑为sum()求和。需要注意的是原子指标只是用来辅助定义指标一个概念,通常不会对应有实际统计需求与之对应。

(2)派生指标

派生指标基于原子指标,其与原子指标的关系如下图所示。

(3)衍生指标

衍生指标是在一个或多个派生指标的基础上,通过各种逻辑运算复合而成的。例如比率、比例等类型的指标。衍生指标也会对应实际的统计需求。

在线教育离线数仓指标体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877166.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为OD机试 - 数据最节约的备份方法 - 二分查找(Java 2023 B卷 100分)

目录 一、题目描述二、输入描述三、输出描述四、解题思路解题思路如下:解题思路分析: 五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 一、题目描述 有若干个文件,使用刻录光盘…

14k字综述视觉大模型

目录 0.导读1.背景介绍1.1基础架构1.2目标函数1.2.1对比式学习1.2.2生成式学习1.3预训练1.3.1预训练数据集1.3.2微调1.3.3提示工程2.基于文本提示的基础模型2.1基于对比学习的方法2.1.1基于通用模型的对比方法2.1.2基于视觉定位基础模型的方法2.2基于生成式的方法2.3基于对比学…

考公-判断推理-逻辑判断

且和或 只能有一个人是我老婆,要么小红,要么小丽,不可能都是我老婆,虽然有些人心里是这么想的 虽然,但是,且 虽然我很丑,但是我很温柔 或的翻译,否一推一 例题 例题 德摩根 例题…

数据可视化工具的三大类报表制作流程分享

电脑(pc)、移动、大屏三大类型的BI数据可视化报表制作步骤基本相同,差别就在于尺寸调整和具体的报表布局。这对于采用点击、拖拉拽方式来制作报表的奥威BI数据可视化工具来说就显得特别简单。接下来,我们就一起看看不这三大类型的…

全网最全360无死角编写软件测试用例模板【建议收藏】

总体编写策略: 对于测试用例编写来说,常用的四种方法基本就够用了,等价类、边界值、正交实验法、错误推断法,辅以场景测试法、需求/设计转换法、探索式测试思想,可以应付绝大多数产品的测试。个别的产品还需要在某一点…

nestjs 基础、使用 passport 来进行鉴权

回顾一些定义 NestJS 部分 Module 模块结构 模块是一个图状引用关系。 模块的实例化有三种模式。默认情况是 singletones 模式,也就是模块可能被引用,但不同的引用处拿的是同一个共享实例,也就是说一个进程有一个唯一的实例被共享。 模块&a…

动态设备状态监测:智能化生产的关键利器

动态设备状态监测正引领着工业生产的智能化转型。本文将深入探讨动态设备状态监测的意义、PreMaint在其中的角色,以及如何实现智能化生产,提高生产效率和可靠性。 1. 动态设备状态监测的重要性 随着制造业的发展,设备的状态监测变得至关重要…

小程序制作教程:从零开始搭建企业小程序

在如今的数字化时代,企业介绍小程序成为了企业展示与推广的重要工具。通过企业介绍小程序,企业可以向用户展示自己的品牌形象、产品服务以及企业文化等内容,进而提高用户对企业的认知度和信任度。本文将介绍如何从零开始搭建一个企业介绍小程…

基于深度信念网络的西储大学轴承故障分类识别,基于EMD+DBN的西储大学轴承故障识别,LCD+DBN,LMD+DBN

目录 背影 DBN神经网络的原理 DBN神经网络的定义 受限玻尔兹曼机(RBM) (EMD,LCD,LMD)+DBN的深度信念网络的西储大学轴承故障分类识别 基本结构 主要参数 数据 MATALB代码 结果图 展望 背影 DBN是一种深度学习神经网络,拥有提取特征,非监督学习的能力,是一种非常好的分类…

都说go协程性能好,这次我们来试试java协程

java 协程原理 在Java中,协程(Coroutine)是一种轻量级的线程解决方案,它可以在代码中实现类似于多线程的并发操作,但不涉及线程的创建和切换开销。 在传统的Java多线程编程模型中,线程的切换开销较大&…

18.本地存储

18.1本地存储分类- localStorage 1.作用: 可以将数据永久存储在本地(用户的电脑),除非手动删除,否则关闭页面也会存在 2.特性: ●可以多窗口(页面)共享(同一浏览器可以共享) ●以键值对的形式存储使用,键值除了数字型都要加引号 3.语法 存…

一站式自动化测试平台-Autotestplat

3.1 自动化平台开发方案 3.1.1 功能需求 3.1.3 开发时间计划 如果是刚入门、但有一点代码基础的测试人员,大概 3 个月能做出演示版(Demo)进行自动化测试,6 个月内胜任开展工作中项目的自动化测试。 如果是有自动化测试基础的测试人员,大概 …

【C# 基础精讲】抽象类与接口

抽象类(Abstract Class)和接口(Interface)是面向对象编程中两种重要的概念,它们用于定义类的结构、行为和关系,是实现多态性、代码复用和系统设计的关键手段。在C#及其他面向对象编程语言中,抽象…

一生一芯3——ubuntu下显示器扩展

刚进ubuntu时不知道如何完成屏幕扩展,查阅后发现是显卡驱动问题,这里需要调整内置显示器的驱动 打开附加驱动 选择显卡驱动如上(其他没试过) 应用更改 -> 下载后重启 重启完成后扩展显示器上就有显示了 在设置中调整显示屏顺…

kriging-contour前端克里金插值

先看效果: 本项目在kriging-contour插件基础上进行了封装,增加了自定义区域插值,gitbub地址。

财报解读:上半年营收净利双增长,珀莱雅已成为真正的国货之光?

夏季炎热,防晒类产品的销量暴涨。根据千牛数据,防晒衣今年5月全网搜索人数同比增长15%,加购人数同比增长29.8%,访问人数同比增加42%。消费者狂热的防晒需求,孕育着巨大的商机,许多企业开始瞄准这一机会。而…

汇编指令练习

1.大小比较(循环) start: /*mov r0,#0x9mov r1,#0xfb LoopLoop:cmp r0,r1beq stopsubhi r0,r0,r1subcc r1,r1,r0b Loop stop:b stop.end 仿真图 2. 1到100之和 start:mov r0,#0x1mov r1,#0x0b sum sum:add r1,r1,r0add r0,r0,#0x1cmp r0,#0x65beq sto…

l2行情推送接口执行步骤,(sinal2接口)需要哪些开发源码?

L2行情推送接口是一种实时行情数据接口,用于获取股票市场深度行情数据(Level 2行情数据)。下面是L2行情推送接口的一般过程: 1. 接口订阅:开发者需要先与数据服务提供商或股票交易所建立连接,并订阅L2行情…

msvcp120.dll怎么重新安装方法?msvcp120.dll丢失一招修复

msvcp120.dll是许多应用程序和游戏所依赖的文件,因此它的缺失或损坏可能会导致这些程序无法正常运行。这使得修复msvcp120.dll问题变得非常重要,尤其是对于经常使用这些应用程序的用户来说。修复msvcp120.dll错误的方法多种多样,包括重新安装…

Java SE 学习笔记(十)—— 正则表达式

目录 1 引言2 常用匹配规则2.1 字符类2.2 预定义的字符类2.3 贪婪的量词 3 正则表达式匹配的 API4 正则表达式应用4.1 正则表达式常见应用案例4.2 正则表达式在字符串方法中的使用4.3 正则表达式爬取信息 1 引言 😍 正则表达式可以用一些规定的字符来制定规则&#…