数据中台建设方法论

news2024/9/27 5:48:08
1、数仓的概念和了解--业务的痛点

产生的痛点:数据资产比较模糊、数据的质量比较低、重复建设、代码的耦合性比较强。

2、数据仓库中的常见的模型:
1、心型模型:中间是一张事实表,周围都是维度表。

对于心型模型的主要的特点:

非正规化、不存在渐变维度、有冗余数据、查询的效率比较高、不用过多的考虑正规化因素,设计维护是比较简单。

2、雪花模型:指的是在心型模型的基础上,在维度表上面还存在维度表。

主要的特点:

正规化、数据冗余比较少,有些数据需要连接才能获取,效率会比较低,规范化操作比较复杂,导致设计后期的维护比较困难 。在实际的应用中会将雪花模型和心型模型结合使用。

3、维度表的设计的方法:

选择维度、 确定维表、梳理维度关系、定义维度属性

4、事实表的设计流程:

 5、ONE  DATA数据模型
1、one data  一种元素只出现一次,在数仓中只能被定义一次。
2、逻辑架构:

数据域:是指一类数据的,比如说在在一个公司中包含不同的部门,每一个部门就类似一个域,例如业务部门可以称为业务域。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1243352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

可上手 JVM 调优实战指南

文章目录 为什么要学 JVM一、JVM 整体布局二、Class 文件规范三、类加载模块四、执行引擎五、GC 垃圾回收1 、JVM内存布局2 、 JVM 有哪些主要的垃圾回收器?3 、分代垃圾回收工作机制 六、对 JVM 进行调优的基础思路七、 GC 情况分析实例八、最后总结 全程可上手JVM…

快速了解敏捷测试!解密敏捷测试的难点!

随着敏捷开发模式的普及,越来越多的测试同仁也开始了敏捷测试。那么究竟什么是敏捷测试?敏捷测试与传统测试的主要区别是什么?敏捷测试的难点又是什么?本文会对这三个问题进行讲解。注意:本文只是讲解敏捷测试概念相关…

String 、StringBuffer 和 StringBuilder 的区别?

String 使用 String 声明一个字符串的时候,该字符串会存放在堆中的字符串常量池中。因为在java中所有的String 都是以常量表示,且由 final 修饰,因此在线程池中它的线程是安全的 且 不可变的 。每个 String 在被创建后就不再发生任何变化。 …

新王加冕,GPT-4V 屠榜视觉问答

当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然而,真正的挑战在于知识密集型 VQA 任务,这要求不仅要识别视觉元素,还需要结…

【SpringMVC】 对请求的不同响应

前言 本文学习如何运用不同的注解来返回不同的响应. 1.返回静态页面Controller 返回index.html页面 Controller 和 RestController的区别 controller 只有加上这个注解,Spring才会帮我们管理这个代码.后续我们访问时才能访问到. RestController 等同于 Controller ResponseBo…

前端学习--React(3)

一、Redux 集中状态管理工具,不需要react即可使用,每个store的数据都是独立于组件之外的 vue小链接:vuex/pinia 基本使用 Redux将数据修改流程分成三个概念,state、action和reducer state - 一个对象 存放我们管理的数据状态 a…

EI论文故障识别程序:DBN深度置信/信念网络的故障识别Matlab程序,数据由Excel导入,直接运行!

​适用平台:Matlab2021b版及以上 本程序参考中文EI期刊《基于变分模态分解和改进灰狼算法优化深度置信网络的自动转换开关故障识别》中的深度置信网络(Deep Belief Network,DBN)部分进行故障识别,程序注释清晰&#x…

OpenStack云计算平台-Networking 服务

目录 一、网络服务概览 二、网络(neutron)概念 三、安装并配置控制节点 1、先决条件 2、配置网络选项(公共网络) (1)安装组件 (2)配置服务组件 (3)配…

Notepad-- ubuntu下载安装

Notepad-- ubuntu下载安装 下载 Gitee链接: https://gitee.com/cxasm/notepad– 安装 sudo apt install *.deb运行 /opt/apps/com.hmja.notepad/files/Notepad--出错 需要安装qt5 sudo apt-get install qt5-default

【UE】用样条线实现测距功能(下)

目录 效果 步骤 一、实现多次测距功能 二、通过控件蓝图来进行测距 在上一篇(【UE】用样条线实现测距功能(上))文章基础上继续实现多次测距和清除功能。 效果 步骤 一、实现多次测距功能 打开蓝图“BP_Spline”&#xff0c…

UML建模图文详解教程05——包图

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl本文参考资料:《UML面向对象分析、建模与设计(第2版)》吕云翔,赵天宇 著 包图概述 包图(package diagram)是用来描述模型中的…

DAOS低时延与高性能RDMA网络

什么是RDMA RDMA(Remote Direct Memory Access)远程直接内存访问是一种技术,它使两台联网的计算机能够在主内存中交换数据,而无需依赖任何一台计算机的处理器、缓存或操作系统。与基于本地的直接内存访问 ( DMA ) 一样&#xff0c…

抖音本地生活服务商申请怎么做?无保证金的申请方法来了

想做抖音的本地生活服务项目,却不知道去哪里申请,或者如何申请,其实,官方的通道在今年上半年还是有的,自己去平台上提交资料申请就可以了,但需要缴纳高额的保证金。 而在今年下半年,平台已经关…

SPS简单对应分析

前言: 本专栏参考教材为《SPSS22.0从入门到精通》,由于软件版本原因,部分内容有所改变,为适应软件版本的变化,特此创作此专栏便于大家学习。本专栏使用软件为:SPSS25.0 本专栏所有的数据文件请点击此链接下…

【算法】经典算法题

文章目录 专题一:双指针1. 移动零2. 复写零3. 快乐数4. 盛最多水的容器5. 有效三角形的个数6. 查找总价格为目标值的两个商品7. 三数之和8. 四数之和 专题二:滑动窗口1. 长度最小的子数组2. 无重复字符的最长字串3. 最大连续1的个数 III4. 将 x 减到 0 的…

【尚跑】2023泾阳半程马拉松144 PB完赛

1、赛事背景 来到泾阳,就来到了中国大地原点; 来到泾阳,就来到了陕西的“白菜心心”; 来到泾阳,就来到了具有2000多年的历史长河; 泾河水缓缓流,流过郑国渠; 泾河水缓缓流&…

线程提交线程到线程池,有几种方式,哪一种方式是工作中不能使用的,无法捕捉异常,线程池的拒绝策略,线程池的提交方式

线程池的工作原理 JDK中提交线程到线程池,有几种方式,哪一种方式是工作中不能使用的,无法捕捉异常 两种提交任务的方法 ExecutorService 提供了两种提交任务的方法: execute():提交不需要返回值的任务 submit()&a…

gRPC之gRPC负载均衡(客户端负载均衡)(etcd)

1、gRPC负载均衡(客户端负载均衡)(etcd) 本篇将基于etcd的服务发现前提下,介绍如何实现gRPC客户端负载均衡。 1.1 gRPC负载均衡 gRPC官方文档提供了关于gRPC负载均衡方案Load Balancing in gRPC https://github.com/grpc/grpc/blob/master/doc/load-balancing.m…

二十一、文档操作

目录 一、添加文档 1、编写代码 2、运行并查看 二、查询文档 1、编写代码 2、运行并查看 三、删除文档 1、编写代码 2、运行并查看 四、修改文档 方式一:全量修改,会删除旧文档,添加新文档 方式二:局部修改。增量修改&…